從1小時(shí)到3.5分鐘,Meta新算法一部手機(jī)搞定3D人臉數(shù)據(jù)采集
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
搞定這樣的人臉3D建模需要幾步?
在數(shù)據(jù)采集的階段,答案是:一部手機(jī) + 3.5分鐘。
沒(méi)錯(cuò),僅憑這3.5分鐘的數(shù)據(jù),就足以生成高保真、可驅(qū)動(dòng)的真實(shí)3D人臉頭像。
這項(xiàng)研究來(lái)自Meta Reality Labs——就是扎克伯格元宇宙計(jì)劃里的那個(gè)核心部門(mén)。論文已經(jīng)被SIGGRAPH 2022接收。
作者提到,這一方法適用于VR應(yīng)用。
也就是說(shuō),在VR的世界里,以后你可能就不必頂著一張卡通臉登場(chǎng)了。
而是可以方便地與胖友們“真身”相見(jiàn)。
方法原理
實(shí)現(xiàn)這一結(jié)果的方法框架如下圖所示:
具體而言,分為三個(gè)部分。
首先,是要用大型多視角人臉數(shù)據(jù)集訓(xùn)練一個(gè)超網(wǎng)絡(luò),這個(gè)超網(wǎng)絡(luò)可以通過(guò)神經(jīng)網(wǎng)絡(luò)解碼器產(chǎn)生專(zhuān)屬于個(gè)人的頭像參數(shù)。
數(shù)據(jù)集中的人臉由多視角捕捉系統(tǒng)采集,包括255位不同年齡、性別和種族參與者的面部圖像數(shù)據(jù)。
△左為圖像捕獲設(shè)備;右為采集到的人臉
這個(gè)捕獲3D人臉的巨型裝置是Meta在2019年研發(fā)的,其中配備171個(gè)高分辨率攝像頭,每秒能記錄180GB數(shù)據(jù)。采集時(shí)間在1個(gè)小時(shí)左右。
值得一提的是,在這個(gè)超網(wǎng)絡(luò)中,解碼器的基本組成模塊是帶有bias map的卷積上采樣層。
這些bias map會(huì)被用來(lái)生成體積單元,進(jìn)而通過(guò)射線追蹤來(lái)渲染頭像。
另外,該解碼器結(jié)構(gòu)能夠?qū)⒁暰€與其他面部活動(dòng)區(qū)分開(kāi),這在VR應(yīng)用中意味著能夠更直接地利用眼動(dòng)跟蹤系統(tǒng)。
其次,是輕量級(jí)人臉表情捕捉。
在這項(xiàng)研究中,采集人臉只需要用到一部帶有深度攝像頭的智能手機(jī)。
實(shí)驗(yàn)中,研究人員采用的是iPhone 12。
采集過(guò)程就像這樣:
采集到的數(shù)據(jù)要進(jìn)行如下處理:
- 獲取每一幀人臉圖像中的幾何形狀和紋理;
- 對(duì)輸入的RGB圖像進(jìn)行人臉標(biāo)志檢測(cè)和人像分割;
- 對(duì)模板網(wǎng)格進(jìn)行擬合和變形,以匹配檢測(cè)到的人臉標(biāo)志物、分割輪廓和深度圖;
- 對(duì)每一幀圖像的紋理進(jìn)行解包,而后匯總得到完整的人臉紋理。
在進(jìn)一步完善模型的過(guò)程中,還需要采集65種特定的表情:
最后,該方法輸出的3D人臉頭像不僅能與用戶(hù)外觀高度匹配,通過(guò)全局表情空間,還能對(duì)其進(jìn)行進(jìn)一步的驅(qū)動(dòng)、控制。
研究人員表示,整個(gè)采集過(guò)程大概要花費(fèi)3.5分鐘。
不過(guò)需要說(shuō)明的是,建模的過(guò)程不是實(shí)時(shí)的,數(shù)據(jù)處理還要花費(fèi)數(shù)小時(shí)的時(shí)間。
實(shí)驗(yàn)結(jié)果
說(shuō)了這么多,效果如何,我們還是來(lái)看實(shí)驗(yàn)結(jié)果。
與Pinscreen提出的“一張照片構(gòu)建3D數(shù)字化身”(CVPR 2021)的方法相比,該方法能生成更具真實(shí)感的人臉模型。
而與海德堡大學(xué)、慕尼黑工業(yè)大學(xué)、馬普所等研究機(jī)構(gòu)在Neural Head Avatars from Monocular RGB Videos一文中提出的方法相比,該方法能生成保真度更高的結(jié)果。
不過(guò),作者也指出了該方法的局限性:hold不太住長(zhǎng)發(fā)和眼鏡,容易產(chǎn)生偽影。另外,該方法對(duì)于光照條件也有一定要求。