火山引擎 live4D 體積視頻方案入選 SIGGRAPH Asia 2023,支持互動體驗
近期,SIGGRAPH Asia 2023(The 16th ACM SIGGRAPH Conference and Exhibition on Computer Graphics and Interactive Techniques in Asia)會議在澳大利亞悉尼舉辦。來自火山引擎多媒體實驗室三維視頻團隊的論文成功入選、并在大會上做展示匯報:
Live4D: A Real-time Capture System for Streamable Volumetric Video (https://dl.acm.org/doi/10.1145/3610543.3626178)
該論文介紹了一種可傳輸?shù)膶崟r體積視頻解決方案:Live4D。該技術(shù)利用了深度學(xué)習(xí)和計算機視覺技術(shù),通過將多個攝像機的圖像進行同步處理,重建出捕獲對象帶有紋理信息的網(wǎng)格模型,將其進行壓縮編碼傳輸后分發(fā)給各個客戶端進行渲染顯示。
Live4D可以根據(jù)應(yīng)用場景和精度需求配置不同數(shù)量和位置的雙目RGB相機,能以更低的成本實現(xiàn)體積捕獲系統(tǒng),并能夠?qū)崟r地將重建出的數(shù)據(jù)發(fā)送給用戶;同時還支持互動和沉浸式體驗,用戶可以通過與視頻進行互動,獲得更加身臨其境的體驗。該技術(shù)在全息通信、虛擬現(xiàn)實、增強現(xiàn)實和遠程教育等領(lǐng)域具有廣泛的應(yīng)用前景。
Live4D Showcase
技術(shù)挑戰(zhàn)
體積視頻可以看做是傳統(tǒng)視頻的升級。傳統(tǒng)視頻播放每秒30幀的畫面,而體積視頻則播放每秒30個3D模型。因此,觀眾可以自由選擇從任意視角、任意距離(6 degrees of freedom,即6Dof)觀看體積視頻中的內(nèi)容;可以在手機或電腦屏幕上觀看、也可以通過VR/AR眼鏡觀看。
當(dāng)前已有的一些體積視頻方案,其場景設(shè)置需要上百個相機同時捕獲數(shù)據(jù),成本高昂且大部分實時重建方案效果仍有較大瑕疵。
Live4D解決方案
三維數(shù)據(jù)的獲取
在實驗配置中,技術(shù)團隊使用了10組雙目RGB相機來同步捕獲全身數(shù)據(jù),以此來獲取實驗數(shù)據(jù)。為了獲取相機視角下的深度信息,團隊采用了基于深度學(xué)習(xí)的雙目立體匹配方法,這是目前常用的方法之一。由于現(xiàn)有的方法在耗時和質(zhì)量上不能完全滿足技術(shù)團隊的要求,團隊基于RAFT-Stereo[1] 對其進行了蒸餾訓(xùn)練,以此來獲取實時推理中更準(zhǔn)確的深度。同時,技術(shù)團隊還利用TensorRT和自定義的CUDA算子對整個框架進行加速,以此來達到所需的時間和精度。
Live4D Pipeline
為了進一步提升人臉區(qū)域的深度精度,在雙目立體匹配中,技術(shù)團隊設(shè)計了一種基于強化感興趣區(qū)域 (Region of Interest, ROI)的方法來更精細地獲取該區(qū)域的深度信息,并將其與原先圖像進行融合,以得到質(zhì)量更高的深度圖。技術(shù)團隊還設(shè)計了背景摳圖和深度置信度檢測的方法,將背景和不可信的深度進行過濾,以此來得到最終的深度圖,并將其與對應(yīng)的RGB一起送入后續(xù)的重建流程。
無ROI | ||
強化ROI |
TSDF重建與補全
獲取多個視角的RGB和深度圖后,技術(shù)團隊在空間中構(gòu)建一個容器,離散化分割成更小的體素。為了獲取更精細的結(jié)果,需要大量且細小的體素,但身體等非ROI區(qū)域會浪費較多空間和計算資源。因此,團隊采取了層級式的數(shù)據(jù)結(jié)構(gòu),讓ROI區(qū)域有更細粒度的體素分布,而在其他區(qū)域每個體素可以有更大的物理尺寸。這樣可以在減少資源消耗的情況下增加ROI區(qū)域的細節(jié)表達。
Left: Same Voxel@[8mm], Right: Hierarchy Voxel@[4m
技術(shù)團隊將多個視角的深度圖反投到容器中,將其轉(zhuǎn)換為截斷符號距離,并通過多視角融合和幾何一致性校驗等方式,將這些深度圖轉(zhuǎn)換為基于截斷符號距離的表示,即截斷符號距離場(Truncated Signed Distance Field, TSDF)。由于視角稀疏、觀測模型存在自遮擋等問題,重建出的TSDF場存在很多缺失。因此,技術(shù)團隊提出了一種基于TSDF Volume的補全方法,利用在構(gòu)造的數(shù)據(jù)集中預(yù)訓(xùn)練好的三維深度神經(jīng)網(wǎng)絡(luò),快速地對缺失的區(qū)域進行補全。相比于其他基于Occupancy的方法,該團隊的方法擁有更好的補全效果,并且相比于Function4D[2] 等提取圖片信息處理的方案來說,該團隊提出的方法速度也有所提升。
補全方法對比
非剛性追蹤
體積視頻和視頻一樣,也需要追求其時域穩(wěn)定性。由于體積視頻每一幀實際上是一個包含貼圖的三維網(wǎng)格模型,因此技術(shù)團隊利用非剛性追蹤 (Non-Rigid Tracking) 的方法來保持三角形網(wǎng)格在時序上的一致性。
技術(shù)團隊基于嵌入形變關(guān)鍵點(Embedded Deformation Nodes (EDNodes))[3] 來表達重建物體表面整體的形變場(deformation field)。整個計算過程通過在GPU上使用LM(Levenberg-Marquard)算法來求解局部ICP問題來高效地計算。利用形變場,技術(shù)團隊將每個體素拆分成的四面體 (Tetrahedra) 柵格,進行時域上的TSDF場的混合,來完成時域的均值濾波,使得隱表面重建在時域穩(wěn)定。
Left->Right: 隨時序Mesh變穩(wěn)定
另一個問題是如Fusion4D[4] 等tracking方法在前后幀運動差距過大時會出現(xiàn)tracking失敗的情況,而出現(xiàn)這種情況會導(dǎo)致最終重建出的三角形網(wǎng)格有非常嚴(yán)重的錯誤。具體來說,技術(shù)團隊會評估變形后的TSDF場與補全后的TSDF場之間的每個體素對齊誤差,對于未對齊的voxel認(rèn)為其是追蹤失敗的部份,對于這些voxel,團隊更信賴補全的結(jié)果而不是tracking的結(jié)果。用這種融合方式,對于上述提到的運動差距過大導(dǎo)致追蹤失敗的場景也能有較好的結(jié)果。
追蹤失敗情況與Fusion4D方法的對比
紋理生成
紋理生成需要解決兩個問題,一個是計算出網(wǎng)格模型表面任意一點的顏色;另外就是計算出三維網(wǎng)格到二維圖像的映射,將計算出的顏色存放在二維圖像上便于傳輸與圖形管線的渲染。
多視圖紋理混合
首先是計算網(wǎng)格模型表面的顏色。技術(shù)團隊使用多視圖混合算法來計算紋理,綜合考慮著色邊界及法線方向來設(shè)計了一種混合權(quán)重,消除了多視角混合中的色差、接縫等紋理生成質(zhì)量的問題。
曲面重參數(shù)化圖片
同時技術(shù)團隊設(shè)計了一個可并行的高效重參數(shù)化算法,通過對球面采樣來預(yù)設(shè)正交投影方向,重建模型執(zhí)行深度剝離(depth peeling)算法來劃分可視層級。通過投影方向和可視層級來標(biāo)記面片所屬的標(biāo)簽。對所有面片的所有候選標(biāo)簽執(zhí)行圖割(Graph-cut)算法來劃分網(wǎng)格模型表面的連通域。團隊對網(wǎng)格模型構(gòu)建半邊結(jié)構(gòu),并實現(xiàn)并行帶環(huán)信念傳播(Loopy blief propagation)算法來優(yōu)化求得近似最優(yōu)解。對于所有連通域,技術(shù)團隊使用平面重參數(shù)方法并將其映射并排列得到最終的紋理貼圖。
壓縮及傳輸
直接重建出的網(wǎng)格點面數(shù)量巨大,可達百萬面片, 為了便于網(wǎng)絡(luò)傳輸,減少帶寬占用,需要對三維重建結(jié)果進行簡化和壓縮。除了簡化的時候盡量保持原有的幾何特征要求以外,在當(dāng)前場景下,對簡化算法的實時性,臉部等ROI區(qū)域的幾何特征保持都有著要求。
- 團隊開發(fā)了一套帶ROI信息的GPU簡化算法, 并行取多組邊評估其二次方度量誤差,選出每組中誤差最小的邊進行坍縮。同時提高ROI區(qū)域內(nèi)的邊的誤差等級以減少ROI區(qū)域的簡化損失。
- Draco&H265壓縮傳輸,網(wǎng)格信息同步于SEI中
采用Draco[5] ,利用連通性、量化、熵編碼等手段,進一步對簡化的mesh的面和點的信息壓縮成二進制流。紋理貼圖則采用H.265進行圖像編碼。技術(shù)團隊將同步的網(wǎng)格信息存放在視頻流的SEI中,復(fù)用現(xiàn)在的RTC管線就可以完成三維數(shù)據(jù)的傳輸。
幀率 | 整體帶寬 | Mesh帶寬 | 紋理帶寬 | 算法延時 |
~30fps | 15~20Mbps | ~12Mbps | ~8Mbps | ~100ms |
應(yīng)用落地和展望
該技術(shù)方案支持多種終端設(shè)備實時觀看,有著廣泛的落地前景,如基于3D電視實現(xiàn)全息通信,提升遠程辦公、遠程交流的效率與沉浸感;如自由視角直播,加強主播與觀眾的聯(lián)系,創(chuàng)造各種互動玩法;在文娛、教育等場景中也提供了新的媒體形式。
關(guān)于火山引擎多媒體實驗室
火山引擎多媒體實驗室是字節(jié)跳動旗下的研究團隊,致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級客戶提供技術(shù)服務(wù)。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數(shù)項國際級技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎及最佳論文獎。
Reference
[1] RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching, 3DV 2021
[2] Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors, CVPR 2021
[3] Embedded Deformation for Shape Manipulation, SIGGRAPH 2007
[4] Fusion4D: Real-time Performance Capture of Challenging Scenes, ToG 2016
[5] Draco, https://github.com/google/draco