自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)字人黑科技面世,幾分鐘說話視頻即可復(fù)刻

新聞 人工智能
近日,中國科學(xué)技術(shù)大學(xué)聯(lián)合的盧深視科技有限公司、浙江大學(xué)與清華大學(xué)共同打造的AD-NeRF技術(shù),引發(fā)了學(xué)界及業(yè)界關(guān)注。

 你準(zhǔn)備好迎接與數(shù)字人共生的賽博朋克世界了嗎?

作為構(gòu)建未來虛擬世界諸多應(yīng)用的主干,如何創(chuàng)造栩栩如生的虛擬數(shù)字人,一直是計算機(jī)視覺、計算機(jī)圖形學(xué)與多媒體等人工智能相關(guān)學(xué)科密切關(guān)注的重要研究課題。

近日,中國科學(xué)技術(shù)大學(xué)聯(lián)合的盧深視科技有限公司、浙江大學(xué)與清華大學(xué)共同打造的AD-NeRF技術(shù),引發(fā)了學(xué)界及業(yè)界關(guān)注。

來自中科大張舉勇課題組等機(jī)構(gòu)的研究者們在近期大火的神經(jīng)輻射場(NeRF: Neural Radiance Fields)技術(shù)基礎(chǔ)上,提出了一種由語音信號直接生成說話人視頻的算法。僅需要目標(biāo)人物幾分鐘的說話視頻,該方法即可實現(xiàn)對該人物超級逼真的形象復(fù)刻和語音驅(qū)動。

論文地址:
https://arxiv.org/pdf/2103.11078.pdf

項目地址:
https://yudongguo.github.io/ADNeRF/

「讓虛擬人構(gòu)建變得觸手可及」

隨著人工智能技術(shù)走向沉穩(wěn)落地,轉(zhuǎn)型探索新技術(shù)在社會中的實際應(yīng)用,已經(jīng)成為學(xué)術(shù)和工業(yè)界普遍達(dá)成的共識。在這一過程中,「數(shù)字虛擬人」無疑是主流視野下非常「吸睛」的一個概念。按照目標(biāo)角色最終的呈現(xiàn)形態(tài)分類,數(shù)字虛擬人可以分為 2D 和 3D 類型,或是動漫、擬人和真實人物等種類。2021 年春晚,虛擬偶像洛天依首次被呈現(xiàn)在全國人民闔家團(tuán)圓時刻的電視晚會舞臺上。三月兩會,央視網(wǎng)打造的數(shù)字虛擬記者「小 C」,則以生動的角色形象,承擔(dān)起了同人大代表們實時連線,播報政策新聞的任務(wù)。

[[391113]]

數(shù)字人黑科技面世,幾分鐘說話視頻即可復(fù)刻,中科大等機(jī)構(gòu)出品
數(shù)字人黑科技面世,幾分鐘說話視頻即可復(fù)刻,中科大等機(jī)構(gòu)出品

從上到下依次為三星虛擬數(shù)字人 Neon、虛擬偶像洛天依、電影角色阿麗塔。

據(jù)愛奇藝早前發(fā)布的《2019 虛擬偶像觀察報告》,當(dāng)今中國至少有 3.9 億人正在關(guān)注虛擬偶像。在抖音、快手和 B 站等各大短視頻平臺上,至少活躍著上萬名數(shù)字虛擬人主播。不僅在泛娛樂領(lǐng)域,數(shù)字虛擬人還為其他一系列社會化應(yīng)用提供了廣闊的想象空間:虛擬醫(yī)生、虛擬教師、虛擬客服、虛擬導(dǎo)購等等。

作為人機(jī)交互的重要媒介,如何高效構(gòu)建虛擬人逼真的外表形象、自然的神態(tài)與動作,一直是該領(lǐng)域備受關(guān)注的研究熱點。其中,基于傳統(tǒng)計算機(jī)圖形學(xué)與動畫制作技術(shù),構(gòu)建生動且逼真的虛擬人行為動態(tài)(如與語音內(nèi)容符合的嘴型與表情等)需要專業(yè)且復(fù)雜的人力工作,這大大限制了虛擬數(shù)字人的廣泛應(yīng)用。近年來,基于深度學(xué)習(xí)方法的虛擬人構(gòu)建技術(shù)取得了較好的突破。然而,現(xiàn)有基于學(xué)習(xí)的方法中,無論是基于圖像的生成對抗網(wǎng)絡(luò)(GAN)方法,還是基于三維人臉重建模型的人臉編輯 - 渲染方法,存在依賴大量訓(xùn)練數(shù)據(jù)、生成結(jié)果質(zhì)量不佳等問題。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作為例,為了實現(xiàn)針對奧巴馬單一角色的語音驅(qū)動,該方法使用了奧巴馬本人高達(dá) 14 個小時的視頻訓(xùn)練數(shù)據(jù),才能保證最終較好的圖像和視頻效果。而眾多基于 GAN 的人臉語音驅(qū)動工作,則受限于 GAN 模型本身的訓(xùn)練復(fù)雜度,通常只能輸出不超過 256x256 分辨率的視頻結(jié)果。

數(shù)字人黑科技面世,幾分鐘說話視頻即可復(fù)刻,中科大等機(jī)構(gòu)出品

基于 GAN 的方法生成圖像分辨率低,而基于神經(jīng)輻射場渲染的 AD-NeRF 支持任意分辨率渲染。

在 AD-NeRF 方法中,僅需要目標(biāo)人物三至五分鐘的說話視頻,即可實現(xiàn)任意語音驅(qū)動該人物的效果。不僅如此,其生成結(jié)果具有高清的圖像質(zhì)量和自然的面部神態(tài),更是遠(yuǎn)勝于此前的方法。這種「價廉物美」的方法,僅需要少量訓(xùn)練數(shù)據(jù)即能生成高質(zhì)量的最終結(jié)果,無疑是為創(chuàng)造虛擬人形象提供了一個強(qiáng)大且便捷的工具。

人臉魔術(shù)是如何做到的?

下面的示例圖顯示了 AD-NeRF 工作的算法流程框架:

數(shù)字人黑科技面世,幾分鐘說話視頻即可復(fù)刻,中科大等機(jī)構(gòu)出品

(1)語音到動態(tài)神經(jīng)輻射場的跨模態(tài)映射:為了刻畫說話人臉、軀干以及背景的高質(zhì)量細(xì)節(jié)與動態(tài),作者們將 DeepSpeech 語音特征同最新的神經(jīng)輻射場方法(NeRF)相結(jié)合,即建模一個隱式函數(shù) F,其輸入包括假設(shè)的相機(jī)位置,視線方向,以及對應(yīng)的語音特征,輸出沿每條射線上連續(xù)位點的顏色與密度值,通過沿射線積分,確定該射線指向的像素點的最終顏色值。

(2)完整、穩(wěn)定的頭部與身體軀干合成:針對人臉說話過程中臉部與軀干運(yùn)動并非完全統(tǒng)一的現(xiàn)象,作者們將原始的神經(jīng)輻射場模型拆分成了兩個各自分工的隱式模型表示。首先,他們對訓(xùn)練數(shù)據(jù)中每幀圖像進(jìn)行了語義分割,其中人臉部分使用多幀連續(xù)光流估計出三維運(yùn)動參數(shù),直接轉(zhuǎn)換為假設(shè)的相機(jī)外參,用于訓(xùn)練針對人頭部分的神經(jīng)輻射場。而身體模塊,則在人頭模型的基礎(chǔ)上,將人頭運(yùn)動參數(shù)作為額外的條件信息,用于控制身體部分的建模。這一設(shè)計帶來的明顯好處是解決了頭部 - 身體姿態(tài)不一致帶來的抖動效應(yīng):

(3)支持背景與視角編輯:由于神經(jīng)輻射場所刻畫的隱式三維信息,作者們還進(jìn)一步探索了任意替換背景和改變觀測角度的后續(xù)應(yīng)用。而要實現(xiàn)這些應(yīng)用,只需要在輸入測試音頻的同時,改變假設(shè)的相機(jī)外參以及背景圖片即可。這些應(yīng)用的示例可參見下圖:

AD-NeRF 帶來了哪些可能性?

曾幾何時,數(shù)字人還是一個備受科幻小說和電影喜愛的賽博朋克題材;如今,隨著一項項數(shù)字虛擬人創(chuàng)作技術(shù)的迭代更新,這一充滿未來感的概念正以前所未有的速度走入尋常百姓家。那么,AD-NeRF 究竟會給哪些實際的虛擬人應(yīng)用帶來技術(shù)上的可能性呢?

首先是在視頻會議領(lǐng)域,正如上文中所展示的一樣,AD-NeRF 可以輕松支持對任意人物形象的語音驅(qū)動。對于帶寬需求較大的視頻會議應(yīng)用而言,可能將不再需要實時傳輸視頻的編解碼信號,而只需音頻信號即驅(qū)動說話人本身的虛擬形象。而 AD-NeRF 所支持的背景替換和姿態(tài)編輯,搭配起 AR 頭盔等設(shè)備,更是可以讓你恍如身臨其境一般,在一個可以任意創(chuàng)作的三維情景中同對方對話。

其次,由于 AD-NeRF 僅僅需要幾分鐘的視頻用于訓(xùn)練特定人物形象的動態(tài)輻射場。假如你想留下某個至親好友的數(shù)字形象,永遠(yuǎn)能夠同他面對面交流,那么 AD-NeRF 的算法設(shè)計,將大大簡化這個數(shù)字形象的制作難度——在賽博空間永生或許不再是一場夢。

最后,AD-NeRF 對于改善當(dāng)前商用的數(shù)字虛擬人搭建流程,無疑具有強(qiáng)大的潛力。無論是創(chuàng)造逼真的虛擬主播,親切的虛擬導(dǎo)購,或是嚴(yán)肅的虛擬教師等等,AD-NeRF 都可以「手到擒來」。只需要一個表現(xiàn)力豐富的演員錄制一段語音視頻,剩下的就可以交給自動化的語音驅(qū)動技術(shù)了,其在商業(yè)創(chuàng)新上的應(yīng)用前景非常廣闊。

在擁有強(qiáng)大技術(shù)賦能的同時,另一方面,越來越低的門檻和數(shù)據(jù)需求也讓數(shù)字虛擬人的創(chuàng)作面臨著諸多風(fēng)險與爭議。比如用假冒的數(shù)字形象盜取他人的財產(chǎn)或者偽造視頻散布虛假新聞,甚至是用于故意貶損他人侮辱人格等現(xiàn)象。去年,以 DeepFake、Zao 等一系列「AI 換臉」的人工智能應(yīng)用,就曾經(jīng)引發(fā)了全社會基于道德和隱私層面廣泛的討論,相應(yīng)的,在學(xué)術(shù)界也催生了一系列以 DeepForensics 為主題的「換臉檢測」研究。

現(xiàn)在,AD-NeRF 從應(yīng)用層面以一種更為高級的底層算法,即通過神經(jīng)輻射場隱式地建模三維運(yùn)動細(xì)節(jié),渲染了完整且逼真的圖片幀,對于真假人臉視頻的判別和檢測,也提出了更有價值的挑戰(zhàn)。

「魔高一尺,道高一丈」,出于安防和隱私保護(hù)的需求,更多強(qiáng)大的防偽和檢測算法在未來勢必與虛擬人技術(shù)一道,成為共同競技和發(fā)展的雙子星。站在公平與正義的角度,虛擬人這一數(shù)字時代的產(chǎn)物,同樣需要被納入法律法規(guī)和行業(yè)條例的約束之中。相信在未來,虛擬數(shù)字人將成為智能方便可信賴的代名詞,為改善這個世界的信息交流與人際互動提供更大的幫助。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2013-07-02 09:58:38

ClojureClojure教程

2016-09-30 15:13:01

Python代碼

2009-12-29 09:01:46

ADSL斷線

2010-01-06 15:35:06

JSON對象

2010-01-21 09:46:24

C++程序

2010-02-23 14:19:30

Python目錄操作

2024-12-03 15:38:14

2010-03-01 18:13:22

Python程序

2009-12-21 13:51:54

ADO.NET處理

2009-11-25 17:22:12

路由器安裝

2010-03-04 10:01:01

Android基本組件

2017-08-03 17:30:26

戴爾IoT設(shè)備

2024-04-19 09:37:49

Ollama大語言模型開源

2024-02-27 08:43:56

語音識別PyTorchRust

2010-01-21 14:51:02

C++函數(shù)指針

2022-04-06 09:28:04

漏洞SQL注入

2010-01-06 13:39:51

擴(kuò)展Jquery的Js

2022-04-12 08:46:30

for 循環(huán)遍歷字符串

2010-01-26 14:53:43

C++

2009-12-30 09:58:28

mpls標(biāo)簽
點贊
收藏

51CTO技術(shù)棧公眾號