自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="sa1fs"><tt id="sa1fs"></tt></abbr>

<strike id="sa1fs"></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)字人黑科技面世，幾分鐘說話視頻即可復(fù)刻

作者：高天虹 2021-04-02 14:29:04

新聞人工智能

近日，中國科學(xué)技術(shù)大學(xué)聯(lián)合的盧深視科技有限公司、浙江大學(xué)與清華大學(xué)共同打造的AD-NeRF技術(shù)，引發(fā)了學(xué)界及業(yè)界關(guān)注。

你準(zhǔn)備好迎接與數(shù)字人共生的賽博朋克世界了嗎？

作為構(gòu)建未來虛擬世界諸多應(yīng)用的主干，如何創(chuàng)造栩栩如生的虛擬數(shù)字人，一直是計算機(jī)視覺、計算機(jī)圖形學(xué)與多媒體等人工智能相關(guān)學(xué)科密切關(guān)注的重要研究課題。

近日，中國科學(xué)技術(shù)大學(xué)聯(lián)合的盧深視科技有限公司、浙江大學(xué)與清華大學(xué)共同打造的AD-NeRF技術(shù)，引發(fā)了學(xué)界及業(yè)界關(guān)注。

來自中科大張舉勇課題組等機(jī)構(gòu)的研究者們在近期大火的神經(jīng)輻射場（NeRF: Neural Radiance Fields）技術(shù)基礎(chǔ)上，提出了一種由語音信號直接生成說話人視頻的算法。僅需要目標(biāo)人物幾分鐘的說話視頻，該方法即可實現(xiàn)對該人物超級逼真的形象復(fù)刻和語音驅(qū)動。

論文地址：
https://arxiv.org/pdf/2103.11078.pdf

項目地址：
https://yudongguo.github.io/ADNeRF/

「讓虛擬人構(gòu)建變得觸手可及」

隨著人工智能技術(shù)走向沉穩(wěn)落地，轉(zhuǎn)型探索新技術(shù)在社會中的實際應(yīng)用，已經(jīng)成為學(xué)術(shù)和工業(yè)界普遍達(dá)成的共識。在這一過程中，「數(shù)字虛擬人」無疑是主流視野下非常「吸睛」的一個概念。按照目標(biāo)角色最終的呈現(xiàn)形態(tài)分類，數(shù)字虛擬人可以分為 2D 和 3D 類型，或是動漫、擬人和真實人物等種類。2021 年春晚，虛擬偶像洛天依首次被呈現(xiàn)在全國人民闔家團(tuán)圓時刻的電視晚會舞臺上。三月兩會，央視網(wǎng)打造的數(shù)字虛擬記者「小 C」，則以生動的角色形象，承擔(dān)起了同人大代表們實時連線，播報政策新聞的任務(wù)。

數(shù)字人黑科技面世，幾分鐘說話視頻即可復(fù)刻，中科大等機(jī)構(gòu)出品

數(shù)字人黑科技面世，幾分鐘說話視頻即可復(fù)刻，中科大等機(jī)構(gòu)出品

從上到下依次為三星虛擬數(shù)字人 Neon、虛擬偶像洛天依、電影角色阿麗塔。

據(jù)愛奇藝早前發(fā)布的《2019 虛擬偶像觀察報告》，當(dāng)今中國至少有 3.9 億人正在關(guān)注虛擬偶像。在抖音、快手和 B 站等各大短視頻平臺上，至少活躍著上萬名數(shù)字虛擬人主播。不僅在泛娛樂領(lǐng)域，數(shù)字虛擬人還為其他一系列社會化應(yīng)用提供了廣闊的想象空間：虛擬醫(yī)生、虛擬教師、虛擬客服、虛擬導(dǎo)購等等。

作為人機(jī)交互的重要媒介，如何高效構(gòu)建虛擬人逼真的外表形象、自然的神態(tài)與動作，一直是該領(lǐng)域備受關(guān)注的研究熱點。其中，基于傳統(tǒng)計算機(jī)圖形學(xué)與動畫制作技術(shù)，構(gòu)建生動且逼真的虛擬人行為動態(tài)（如與語音內(nèi)容符合的嘴型與表情等）需要專業(yè)且復(fù)雜的人力工作，這大大限制了虛擬數(shù)字人的廣泛應(yīng)用。近年來，基于深度學(xué)習(xí)方法的虛擬人構(gòu)建技術(shù)取得了較好的突破。然而，現(xiàn)有基于學(xué)習(xí)的方法中，無論是基于圖像的生成對抗網(wǎng)絡(luò)（GAN）方法，還是基于三維人臉重建模型的人臉編輯 - 渲染方法，存在依賴大量訓(xùn)練數(shù)據(jù)、生成結(jié)果質(zhì)量不佳等問題。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作為例，為了實現(xiàn)針對奧巴馬單一角色的語音驅(qū)動，該方法使用了奧巴馬本人高達(dá) 14 個小時的視頻訓(xùn)練數(shù)據(jù)，才能保證最終較好的圖像和視頻效果。而眾多基于 GAN 的人臉語音驅(qū)動工作，則受限于 GAN 模型本身的訓(xùn)練復(fù)雜度，通常只能輸出不超過 256x256 分辨率的視頻結(jié)果。

數(shù)字人黑科技面世，幾分鐘說話視頻即可復(fù)刻，中科大等機(jī)構(gòu)出品

基于 GAN 的方法生成圖像分辨率低，而基于神經(jīng)輻射場渲染的 AD-NeRF 支持任意分辨率渲染。

在 AD-NeRF 方法中，僅需要目標(biāo)人物三至五分鐘的說話視頻，即可實現(xiàn)任意語音驅(qū)動該人物的效果。不僅如此，其生成結(jié)果具有高清的圖像質(zhì)量和自然的面部神態(tài)，更是遠(yuǎn)勝于此前的方法。這種「價廉物美」的方法，僅需要少量訓(xùn)練數(shù)據(jù)即能生成高質(zhì)量的最終結(jié)果，無疑是為創(chuàng)造虛擬人形象提供了一個強(qiáng)大且便捷的工具。

人臉魔術(shù)是如何做到的？

下面的示例圖顯示了 AD-NeRF 工作的算法流程框架：

數(shù)字人黑科技面世，幾分鐘說話視頻即可復(fù)刻，中科大等機(jī)構(gòu)出品

（1）語音到動態(tài)神經(jīng)輻射場的跨模態(tài)映射：為了刻畫說話人臉、軀干以及背景的高質(zhì)量細(xì)節(jié)與動態(tài)，作者們將 DeepSpeech 語音特征同最新的神經(jīng)輻射場方法（NeRF）相結(jié)合，即建模一個隱式函數(shù) F，其輸入包括假設(shè)的相機(jī)位置，視線方向，以及對應(yīng)的語音特征，輸出沿每條射線上連續(xù)位點的顏色與密度值，通過沿射線積分，確定該射線指向的像素點的最終顏色值。

（2）完整、穩(wěn)定的頭部與身體軀干合成：針對人臉說話過程中臉部與軀干運(yùn)動并非完全統(tǒng)一的現(xiàn)象，作者們將原始的神經(jīng)輻射場模型拆分成了兩個各自分工的隱式模型表示。首先，他們對訓(xùn)練數(shù)據(jù)中每幀圖像進(jìn)行了語義分割，其中人臉部分使用多幀連續(xù)光流估計出三維運(yùn)動參數(shù)，直接轉(zhuǎn)換為假設(shè)的相機(jī)外參，用于訓(xùn)練針對人頭部分的神經(jīng)輻射場。而身體模塊，則在人頭模型的基礎(chǔ)上，將人頭運(yùn)動參數(shù)作為額外的條件信息，用于控制身體部分的建模。這一設(shè)計帶來的明顯好處是解決了頭部 - 身體姿態(tài)不一致帶來的抖動效應(yīng)：

（3）支持背景與視角編輯：由于神經(jīng)輻射場所刻畫的隱式三維信息，作者們還進(jìn)一步探索了任意替換背景和改變觀測角度的后續(xù)應(yīng)用。而要實現(xiàn)這些應(yīng)用，只需要在輸入測試音頻的同時，改變假設(shè)的相機(jī)外參以及背景圖片即可。這些應(yīng)用的示例可參見下圖：

AD-NeRF 帶來了哪些可能性？

曾幾何時，數(shù)字人還是一個備受科幻小說和電影喜愛的賽博朋克題材；如今，隨著一項項數(shù)字虛擬人創(chuàng)作技術(shù)的迭代更新，這一充滿未來感的概念正以前所未有的速度走入尋常百姓家。那么，AD-NeRF 究竟會給哪些實際的虛擬人應(yīng)用帶來技術(shù)上的可能性呢？

首先是在視頻會議領(lǐng)域，正如上文中所展示的一樣，AD-NeRF 可以輕松支持對任意人物形象的語音驅(qū)動。對于帶寬需求較大的視頻會議應(yīng)用而言，可能將不再需要實時傳輸視頻的編解碼信號，而只需音頻信號即驅(qū)動說話人本身的虛擬形象。而 AD-NeRF 所支持的背景替換和姿態(tài)編輯，搭配起 AR 頭盔等設(shè)備，更是可以讓你恍如身臨其境一般，在一個可以任意創(chuàng)作的三維情景中同對方對話。

其次，由于 AD-NeRF 僅僅需要幾分鐘的視頻用于訓(xùn)練特定人物形象的動態(tài)輻射場。假如你想留下某個至親好友的數(shù)字形象，永遠(yuǎn)能夠同他面對面交流，那么 AD-NeRF 的算法設(shè)計，將大大簡化這個數(shù)字形象的制作難度——在賽博空間永生或許不再是一場夢。

最后，AD-NeRF 對于改善當(dāng)前商用的數(shù)字虛擬人搭建流程，無疑具有強(qiáng)大的潛力。無論是創(chuàng)造逼真的虛擬主播，親切的虛擬導(dǎo)購，或是嚴(yán)肅的虛擬教師等等，AD-NeRF 都可以「手到擒來」。只需要一個表現(xiàn)力豐富的演員錄制一段語音視頻，剩下的就可以交給自動化的語音驅(qū)動技術(shù)了，其在商業(yè)創(chuàng)新上的應(yīng)用前景非常廣闊。

在擁有強(qiáng)大技術(shù)賦能的同時，另一方面，越來越低的門檻和數(shù)據(jù)需求也讓數(shù)字虛擬人的創(chuàng)作面臨著諸多風(fēng)險與爭議。比如用假冒的數(shù)字形象盜取他人的財產(chǎn)或者偽造視頻散布虛假新聞，甚至是用于故意貶損他人侮辱人格等現(xiàn)象。去年，以 DeepFake、Zao 等一系列「AI 換臉」的人工智能應(yīng)用，就曾經(jīng)引發(fā)了全社會基于道德和隱私層面廣泛的討論，相應(yīng)的，在學(xué)術(shù)界也催生了一系列以 DeepForensics 為主題的「換臉檢測」研究。

現(xiàn)在，AD-NeRF 從應(yīng)用層面以一種更為高級的底層算法，即通過神經(jīng)輻射場隱式地建模三維運(yùn)動細(xì)節(jié)，渲染了完整且逼真的圖片幀，對于真假人臉視頻的判別和檢測，也提出了更有價值的挑戰(zhàn)。

「魔高一尺，道高一丈」，出于安防和隱私保護(hù)的需求，更多強(qiáng)大的防偽和檢測算法在未來勢必與虛擬人技術(shù)一道，成為共同競技和發(fā)展的雙子星。站在公平與正義的角度，虛擬人這一數(shù)字時代的產(chǎn)物，同樣需要被納入法律法規(guī)和行業(yè)條例的約束之中。相信在未來，虛擬數(shù)字人將成為智能方便可信賴的代名詞，為改善這個世界的信息交流與人際互動提供更大的幫助。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

黑科技人工智能虛擬

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="dye40"><li id="dye40"></li></p>