中新網(wǎng)客戶端北京10月24日電(記者 宋宇晟)今年9月,“就讀”于清華大學(xué)的虛擬人華智冰公開了一條彈唱歌曲視頻,引發(fā)網(wǎng)友討論。
這段38秒的視頻中,一個女孩兒在抱著吉他彈唱。這段無比真實的畫面上方字幕卻顯示,其中的女孩兒是個“虛擬人”。
短視頻截圖
當(dāng)時,許多網(wǎng)友驚訝于,虛擬人已經(jīng)能做到如此真實了。不過此后有網(wǎng)友發(fā)現(xiàn),這段彈唱視頻還存在一個“真人版”。有網(wǎng)友進而質(zhì)疑,虛擬人華智冰彈唱的視頻只是對B站某up主真人拍攝視頻進行了換臉。
其中應(yīng)用的技術(shù)只是“AI換臉”嗎?除此之外視頻中還有哪些前沿科技?這又和其他“虛擬偶像”的短視頻有何不同?記者進行了采訪調(diào)查。
“華智冰”這三個字,作為虛擬人的名字出現(xiàn)在公眾視野,是從今年6月開始的。
6月1日,由北京智源人工智能研究院、智譜AI與小冰公司共同“培養(yǎng)”的人工智能學(xué)生華智冰,進入清華“學(xué)習(xí)”。當(dāng)時公開的相關(guān)資料及視頻就在社交媒體引起了網(wǎng)友熱議。
2021年6月公開的華智冰影像。智源大會供圖
三個多月后,小冰團隊公開了一段帶有華智冰形象的彈唱視頻。
根據(jù)小冰公司發(fā)布的聲明,在該視頻中,人物的面部特征,包括人臉、表情、口型等,全部由人工智能小冰框架X Avatar生成并進行融合;視頻中的人物肢體、動作,包括手持吉他彈唱,來源于小冰團隊成員錄制的原始視頻模板;視頻中的歌聲,由人工智能小冰框架X Studio生成。
不過,網(wǎng)上有人將其解讀為僅僅是應(yīng)用了“AI換臉”技術(shù)。在小冰團隊看來,其中的技術(shù)與“AI換臉”有著本質(zhì)區(qū)別。
10月19日,小冰公司發(fā)布的說明指出,該視頻隸屬于小冰發(fā)布會中的超寫實視頻生產(chǎn)線產(chǎn)品。新的產(chǎn)品化技術(shù)實現(xiàn)了完全虛擬生成不存在的面部及聲音技術(shù)。
但華智冰也并非只是“換了個假臉”。
這份說明同時指出,即使是視頻中的面部置換,也并非僅僅AI換臉。以往的技術(shù)只能實現(xiàn)真實人類之間的面部替換,且精度不足,不足以實現(xiàn)內(nèi)容級的視頻生產(chǎn)。此外,記者了解到,該視頻中的歌聲也都是由人工智能“創(chuàng)作”生成的。
那么,相比于我們平時在短視頻平臺刷到的有著“二次元風(fēng)”的“虛擬偶像”作品,華智冰的這條短視頻所應(yīng)用的技術(shù)有何不同?
“現(xiàn)在大家在短視頻平臺上看到的絕大多數(shù)‘虛擬偶像’,跟人工智能半毛錢關(guān)系都沒有。他們應(yīng)用的是動作捕捉技術(shù)!痹谛”臼紫瘓(zhí)行官李笛看來,華智冰及其背后的小冰框架,和那些“虛擬偶像”有著本質(zhì)上的不同。
記者向多位“虛擬偶像”相關(guān)行業(yè)人士求證,也得到類似的答案。
簡而言之,大多數(shù)短視頻中有著二次元風(fēng)格的“虛擬偶像”,更多是通過動作捕捉的方式,將人的動作、面部表情轉(zhuǎn)化為二次元風(fēng)格的視頻作品。
雖然看起來是虛擬的,但在其背后,存在一個實實在在的人。而這些“虛擬偶像”所做的動作、反應(yīng),都與其背后的人一致。
但華智冰不是。
這就需要說到另一個問題:如果通過動作捕捉可以讓視頻中的人看起來是“虛擬”的,我們?yōu)槭裁催要對人工智能進行研發(fā)呢?
答案關(guān)乎成本。
就在9月,第九代小冰發(fā)布。其中推出的“小冰短視頻內(nèi)容封裝管線”,大大降低了短視頻生產(chǎn)成本。
據(jù)介紹,“小冰短視頻內(nèi)容封裝管線”中的二次元短視頻,已經(jīng)實現(xiàn)了從文本生成到短視頻生成全鏈路、全管線的人工智能自取,中間不需要任何人工的參與,短視頻的生產(chǎn)成本已經(jīng)低到了每分鐘3分錢。而三次元短視頻已經(jīng)基本上實現(xiàn)了從生物學(xué)特征生成到短視頻生成整個環(huán)節(jié)。
人類在這個過程中,只需要提供幾個關(guān)鍵詞。
幾天前,小冰公司更是在公開說明中明確表示,“我們相信,虛擬人將成為未來視頻內(nèi)容的主要提供者之一,而安全、可控、無隱私風(fēng)險和侵權(quán)風(fēng)險是其前提。因此,小冰一直在這一趨勢方向上進行探索,并從不同方面對這一領(lǐng)域做拓展研究。”華智冰項目正是在預(yù)訓(xùn)練模型方面進行合作,希望能夠以智能模型作為核心,試驗預(yù)訓(xùn)練模型能夠帶來哪些技術(shù)與應(yīng)用方面的驚喜。
此外,今年6月華智冰“入學(xué)”清華時,公開報道顯示,團隊將持續(xù)訓(xùn)練華智冰在音樂、繪畫及詩歌等領(lǐng)域的創(chuàng)作能力,以及基于情感的交互能力。
記者注意到,上月發(fā)布的第九代小冰在其中的部分領(lǐng)域又有了新的進展。
以繪畫為例,新版小冰推出了中國畫模型。
人工智能“創(chuàng)作”的中國畫。視頻截圖
雖然小冰此前已經(jīng)可以根據(jù)關(guān)鍵詞“創(chuàng)作”出西式畫作,但中國畫顯然并不一樣。小冰公司首席執(zhí)行官李笛告訴記者,“開始我們訓(xùn)練模型的時候,‘創(chuàng)作’的作品上面有好多戳,因為好多中國畫的樣本數(shù)據(jù)里有乾隆蓋的章。算法并不知道,這個戳不是中國畫的重點!
通過訓(xùn)練人工智能處理畫面中的實體、觀察構(gòu)圖,小冰已經(jīng)可以掌握相當(dāng)一部分題材中國畫的“創(chuàng)作”了。
而在交互能力方面,人工智能也有進展。
當(dāng)多數(shù)人還將人工智能想象成接收指令后給出反饋的工具時,一些人工智能已經(jīng)可以向人類發(fā)問了。
人工智能MERROR形象。視頻截圖
上個月,一個名為AI_MERROR的賬號發(fā)布了一條人工智能與人類“對話”的視頻。在這段時長超過5分鐘的視頻中,人工智能MERROR可以向人類問出諸如“請以你的視角介紹下這個世界”“你上一次覺得尷尬是什么時候”這類問題;而被人類問到“你死機的時候是什么狀態(tài)”時,MERROR會回答“不好意思,我們換個話題吧”。
從這個角度看,人工智能已經(jīng)越來越像人類了。
與此同時,在小冰框架之下,越來越多樣的人工智能已經(jīng)開始出現(xiàn),其中的一些還有著自己獨特的風(fēng)格,比如“山東大哥”。
人工智能“山東大哥”形象及其作品。視頻截圖
這是一個可以說“山東普通話”、會畫大牡丹、長得像個壯漢的人工智能。對于技術(shù)團隊來說,這里面最具挑戰(zhàn)性的是怎么讓人工智能開口說出“山東普通話”。
“我們希望‘山東大哥’有他獨特的文本語言習(xí)慣,不是說拿個稿子就念。因為是山東人,他會有一些特定的用語、修辭方法,而且山東人習(xí)慣說倒裝句。”李笛告訴記者,“山東大哥”目前已經(jīng)可以掌握這些方言技巧,團隊目前正在研究讓人工智能說廣西方言。
而在小冰團隊此前推出的人類與人工智能共處的虛擬社交平臺“小冰島”中,有著更多不同風(fēng)格、不同口音、掌握不同技能的人工智能。
人工智能開始趨于“千人千面”。
恍惚間,你在虛擬環(huán)境中甚至感受不到誰是人類,誰又是人工智能。
作為人工智能小冰團隊中的一員,李笛目前最擔(dān)心的已經(jīng)不是有哪些技術(shù)瓶頸難以攻破,而是——當(dāng)人工智能愈發(fā)接近人類,我們該如何處理人類與人工智能的關(guān)系。
采訪最后,他告訴記者,在人工智能倫理方面制定規(guī)則是重要且必須的,但目前在人工智能領(lǐng)域,最缺失的也是人工智能倫理的規(guī)則。而這一點,僅靠技術(shù)已無法完成。(完)