創(chuàng)建逼真的全身3D人像只需20分鐘,平價的手機端方案
在AR/VR社交、娛樂等應用中,你常常需要先創(chuàng)建個性化的3D形象來代表自己,那么如果未來AR/VR發(fā)展到頭號玩家電影中那樣沉浸的樣子,那么創(chuàng)建一個外觀接近人類的3D虛擬形象則越來越關鍵。就目前來講,并沒有一個通用的3D人像掃描方案,大多數(shù)AR/VR場景可能需要你去容積捕捉工作室去創(chuàng)建自己的3D形象,成本較高因而難以普及。
為了解決這一問題,德國比勒費爾德大學、維爾茨堡大學和多特蒙德大學的科研人員研發(fā)了一種利用中端智能手機就能生成3D虛擬形象的技術,其特點是只需要約20分鐘即可完成掃描,可捕捉到鞋的細節(jié)、服裝的紋理、亮度、陰影。掃描出的虛擬形象支持骨骼綁定,面部也可以設置表情變化。
科研人員表示:AR/VR娛樂、社交、互動式場景對于虛擬人像的逼真度要求越來越高,包括外在細節(jié)、動作、行為,通常只能通過幾十顆攝像頭完成的人像捕捉任務,現(xiàn)在通過基于手機的低成本方案即可完成,效果也足夠優(yōu)秀。
據(jù)青亭網了解,該方案由兩部分組成,分別拍攝身體和頭部,拍攝一個人只需要12分鐘左右。通常,用手機進行3D建模的時候,會一次性對同一物體進行完整掃描和捕捉,德國科研人員的方案的不同之處在于,將頭部和身體分為兩個部分去拍攝,可捕捉到更多細節(jié)。
在捕捉頭部的過程中,拍攝者只需要用手機圍繞被拍攝者的頭部轉一圈拍攝,在捕捉身體的過程中,首先對包括頭部在內的上半身轉一圈拍攝,接著對下半身再拍攝一圈。
經過對比實驗顯示,基于智能手機的方案3D捕捉接近48顆攝像頭容積捕捉的效果。此外,效果也比目前低成本的單目掃描方案更好。
細節(jié)方面,這組科研人員利用Google Pixel 3的4K分辨率/30Hz攝影模式來進行拍攝,該機型定價400美元,據(jù)稱市面上同樣支持4K拍攝的手機也能得到相似的效果。整個拍攝過程持續(xù)110秒,其中全身視頻捕捉需要80秒,頭部捕捉30秒。
在用手機拍攝后,算法可從拍攝的視頻中捕捉135個關鍵節(jié)點,包括25個全身節(jié)點(用來合成2D骨骼)、42個雙手勢節(jié)點、68個面部節(jié)點。通過多視角3D重建,以及從每一幀圖像實時分析光流、預測實時生成兩組密集的點云數(shù)據(jù)。通過攝影測量軟件Agisoft Metashape來處理并生成點云數(shù)據(jù),然后結合bounding box,來優(yōu)化數(shù)據(jù)和算法。
由于通過手機攝像頭捕捉到的虛擬人像網格存在噪點、異常值、數(shù)據(jù)缺失等問題,于是科研人員將捕捉到的人體節(jié)點與預設的模板進行匹配,包括對其位置、方向、比例等參數(shù),模板網格對識別到的網格進行調整,填補缺失的數(shù)據(jù),以此來完成3D幾何網格的重建。
接著,科研人員對重建的3D網格進行紋理渲染,通過圖像分割和拼接方式來優(yōu)化紋理渲染的過程。據(jù)悉,圖像分割優(yōu)化減少紋理的數(shù)量,用大塊紋理去替代細碎的紋理。效果比Agisoft Metashape直接生成的紋理更清晰,細節(jié)更多。
整個過程耗時20分鐘,其中4分鐘進行3D捕捉,7分鐘處理和生成點云數(shù)據(jù),2分鐘節(jié)點識別與模板匹配,7分鐘生成紋理。通過Faceware Studio(無標記3D面部動捕方案)和Unity Live插件,可以實時控制表情。也就是說,掃描出的3D人像可直接通過實時姿態(tài)和表情捕捉軟件來控制,應用在AR/VR社交場景中足夠方便。
在對比實驗中,科研人員對33人進行掃描,結果發(fā)現(xiàn)發(fā)現(xiàn)基于智能手機的方案3D捕捉接近48顆攝像頭容積捕捉的效。不過深色服裝難以被掃描,被掃描的人需要保持靜止,任何明顯的動作可能會影響掃描數(shù)據(jù)準確性,而且掃描眼鏡、頭發(fā)、飾品等物品也具有挑戰(zhàn)。
總之,在這個實驗中科研人員發(fā)現(xiàn),對頭部的二次掃描可大幅提升面部建模的效果和細節(jié),未來,還可以對手臂等其他部位單獨二次掃描,以提升掃描效果和準確性。
同時,3D重建的虛擬人輪廓需要匹配細致的紋理,以及適合的骨骼。市面上的方案成本較高,而本文中的這個3D掃描方案足夠低成本,使用方面,有望為虛擬形象和交互式媒體帶來更多應用。