Meta數(shù)字人2代來了!告別VR頭顯,iPhone一掃就行
Meta的逼真數(shù)字人2.0再次進(jìn)化,現(xiàn)在可以用iPhone生成了,只要拿出手機(jī)掃一掃!
早在2019年3月,F(xiàn)acebook就在活動(dòng)上展示了第一代數(shù)字人形象(Codec Avatar 1.0)。第一代數(shù)字人是利用多重神經(jīng)網(wǎng)絡(luò),用 132 個(gè)攝像頭的專用捕獲裝置生成的。
一旦生成,在VR頭顯設(shè)備上的5個(gè)攝像頭。每只眼部提供兩個(gè)內(nèi)部視角,臉部以下提供三個(gè)外部視角。 就像下面這樣。
從那時(shí)開始,F(xiàn)acebook一直在不斷改進(jìn)這些虛擬形象的逼真度,比如只需麥克風(fēng)和眼球追蹤技術(shù),就可以獲得更逼真的形象。最終在2020年8月進(jìn)化為Codec Avatar 2.0版。 2.0版比1.0版最大的進(jìn)步在于,攝像頭不再需要掃描跟蹤人臉,而是只要跟蹤眼球的運(yùn)動(dòng)就行了。
新的神經(jīng)網(wǎng)絡(luò)將VR頭顯的眼動(dòng)追蹤數(shù)據(jù)與麥克風(fēng)的音頻饋送相融合,推斷佩戴者可能的面部表情。 將聲音模型和眼動(dòng)模型數(shù)據(jù)反饋至混合模型,再經(jīng)過融合模型計(jì)算處理,由渲染器輸出Avatar形象。
今年5月,團(tuán)隊(duì)更進(jìn)一步宣布,2.0版的Avatar徹底達(dá)成了「完全逼真」的效果。 「我想說的是,未來十年的一個(gè)重大挑戰(zhàn)是,我們是否可以實(shí)現(xiàn)與面對(duì)面互動(dòng)無法區(qū)分的遠(yuǎn)程Avatar互動(dòng)。」該項(xiàng)目負(fù)責(zé)人之一的 Sheikh 說。
看看上面的對(duì)比,a為真人照片,e為最終渲染生成的虛擬人,看起來好像沒有怎么吹牛? 別急,上面這是實(shí)驗(yàn)中的比對(duì)結(jié)果,實(shí)際上應(yīng)用場(chǎng)景下,目前Meta虛擬人的形象是這樣的。
即使是最右邊「最逼真」的形象,還是卡通形象,這離「完全逼真」怕是還有點(diǎn)遠(yuǎn),不過Meta說的是十年,看看演示中的形象,這個(gè)目標(biāo)實(shí)現(xiàn)的希望還是不小的。
而且,虛擬人技術(shù)的進(jìn)步,也不僅僅體現(xiàn)在逼真度一個(gè)方向,大可不必沿著一條路一直走,Meta也在嘗試著其他方向。 比如,摘掉VR頭顯?
以前,生成一個(gè)單獨(dú)的Codec頭像需要帶一個(gè)名為「MUGSY」專門捕捉設(shè)備,上面有171個(gè)高分辨率攝像頭,就是上圖這個(gè)(密恐退散)。
Meta現(xiàn)在說,不用帶這東西了,有個(gè)iPhone就行了! 只要一臺(tái)帶正面深度傳感器的智能手機(jī)(比如帶FaceID功能的iPhone),直接掃一掃(確切地說,是好幾十掃),就能生成逼真的虛擬人頭像。
首先保持面無表情,掃描一次,然后做出各種不同的表情,最多支持65種不同表情。
Meta稱,用手機(jī)完成表情掃描,平均大概需要3-4分鐘。 當(dāng)然這少不了算力的支持,最終生成的逼真虛擬人頭像,在一臺(tái)有四個(gè)高端GPU的機(jī)器上,大概需要6個(gè)小時(shí)。 當(dāng)然,如果這個(gè)技術(shù)用在產(chǎn)品上,這些計(jì)算會(huì)交給云端GPU,無需用戶自己的算力資源。
那么,為什么之前需要100來個(gè)攝像頭才能完成的事,現(xiàn)在只需一臺(tái)手機(jī)就可以做到了呢? 秘訣就是一種叫做Hypernetwork的通用模型。 這是一種神經(jīng)網(wǎng)絡(luò),可以生成另一個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值。在上面的例子中,就是生成特定人的Codec Avatar.
研究人員通過掃描255個(gè)不同的人臉來訓(xùn)練這個(gè)模型,使用的是一種先進(jìn)的捕捉裝置,很像MUGSY,但是只有90個(gè)攝像頭。
雖說別的研究人員已經(jīng)展示過用智能手機(jī)掃描生成的人像了,而且Meta表示,生成的結(jié)果是SOTA級(jí)別的。
然而,現(xiàn)在的系統(tǒng)還是不能應(yīng)付眼鏡和長頭發(fā)。并且只能到頭,身體的其它部位還不行。
當(dāng)然了,Meta在達(dá)到這種保真度之前,還有很長的路要走。 現(xiàn)在Meta的人像都有種卡通風(fēng)格。而那種逼真的感覺隨著時(shí)間的推移慢慢降低了。 現(xiàn)在這種形象可能更適合用Quest 2玩兒Horizon Worlds的群體。
然而,Codec Avatar可能最終只會(huì)是一個(gè)單獨(dú)的選項(xiàng),而不是現(xiàn)在這種卡通風(fēng)格的升級(jí)。 Meta的CEO扎克伯格是這么描述未來的:你可能會(huì)用一個(gè)充滿表現(xiàn)主義的人像玩兒平常的游戲,而用一個(gè)更逼真的人像來參加工作會(huì)議什么的。
今年4月,負(fù)責(zé)Codec Avatar團(tuán)隊(duì)的Yaser Sheikh表示,「現(xiàn)在來預(yù)測(cè)Codec Avatar還有多久能投入使用是不太可能的。」 不過,他明確表示,他認(rèn)為項(xiàng)目是有很大進(jìn)步的。