自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

火山引擎 live4D 體積視頻方案入選 SIGGRAPH Asia 2023,支持互動體驗

移動開發(fā)
該論文介紹了一種可傳輸?shù)膶崟r體積視頻解決方案:Live4D。

近期,SIGGRAPH Asia 2023(The 16th ACM SIGGRAPH Conference and Exhibition on Computer Graphics and Interactive Techniques in Asia)會議在澳大利亞悉尼舉辦。來自火山引擎多媒體實驗室三維視頻團隊的論文成功入選、并在大會上做展示匯報:

Live4D: A Real-time Capture System for Streamable Volumetric Video (https://dl.acm.org/doi/10.1145/3610543.3626178)

該論文介紹了一種可傳輸?shù)膶崟r體積視頻解決方案:Live4D。該技術(shù)利用了深度學(xué)習(xí)和計算機視覺技術(shù),通過將多個攝像機的圖像進行同步處理,重建出捕獲對象帶有紋理信息的網(wǎng)格模型,將其進行壓縮編碼傳輸后分發(fā)給各個客戶端進行渲染顯示。

Live4D可以根據(jù)應(yīng)用場景和精度需求配置不同數(shù)量和位置的雙目RGB相機,能以更低的成本實現(xiàn)體積捕獲系統(tǒng),并能夠?qū)崟r地將重建出的數(shù)據(jù)發(fā)送給用戶;同時還支持互動和沉浸式體驗,用戶可以通過與視頻進行互動,獲得更加身臨其境的體驗。該技術(shù)在全息通信、虛擬現(xiàn)實、增強現(xiàn)實和遠程教育等領(lǐng)域具有廣泛的應(yīng)用前景。

Live4D ShowcaseLive4D Showcase

技術(shù)挑戰(zhàn)

體積視頻可以看做是傳統(tǒng)視頻的升級。傳統(tǒng)視頻播放每秒30幀的畫面,而體積視頻則播放每秒30個3D模型。因此,觀眾可以自由選擇從任意視角、任意距離(6 degrees of freedom,即6Dof)觀看體積視頻中的內(nèi)容;可以在手機或電腦屏幕上觀看、也可以通過VR/AR眼鏡觀看。

當(dāng)前已有的一些體積視頻方案,其場景設(shè)置需要上百個相機同時捕獲數(shù)據(jù),成本高昂且大部分實時重建方案效果仍有較大瑕疵。

Live4D解決方案

三維數(shù)據(jù)的獲取

在實驗配置中,技術(shù)團隊使用了10組雙目RGB相機來同步捕獲全身數(shù)據(jù),以此來獲取實驗數(shù)據(jù)。為了獲取相機視角下的深度信息,團隊采用了基于深度學(xué)習(xí)的雙目立體匹配方法,這是目前常用的方法之一。由于現(xiàn)有的方法在耗時和質(zhì)量上不能完全滿足技術(shù)團隊的要求,團隊基于RAFT-Stereo[1] 對其進行了蒸餾訓(xùn)練,以此來獲取實時推理中更準(zhǔn)確的深度。同時,技術(shù)團隊還利用TensorRT和自定義的CUDA算子對整個框架進行加速,以此來達到所需的時間和精度。

Live4D PipelineLive4D Pipeline

為了進一步提升人臉區(qū)域的深度精度,在雙目立體匹配中,技術(shù)團隊設(shè)計了一種基于強化感興趣區(qū)域 (Region of Interest, ROI)的方法來更精細地獲取該區(qū)域的深度信息,并將其與原先圖像進行融合,以得到質(zhì)量更高的深度圖。技術(shù)團隊還設(shè)計了背景摳圖和深度置信度檢測的方法,將背景和不可信的深度進行過濾,以此來得到最終的深度圖,并將其與對應(yīng)的RGB一起送入后續(xù)的重建流程。

無ROI

圖片

圖片

強化ROI

圖片

圖片

TSDF重建與補全

獲取多個視角的RGB和深度圖后,技術(shù)團隊在空間中構(gòu)建一個容器,離散化分割成更小的體素。為了獲取更精細的結(jié)果,需要大量且細小的體素,但身體等非ROI區(qū)域會浪費較多空間和計算資源。因此,團隊采取了層級式的數(shù)據(jù)結(jié)構(gòu),讓ROI區(qū)域有更細粒度的體素分布,而在其他區(qū)域每個體素可以有更大的物理尺寸。這樣可以在減少資源消耗的情況下增加ROI區(qū)域的細節(jié)表達。

Left: Same Voxel@[8mm], Right: Hierarchy Voxel@[4mLeft: Same Voxel@[8mm], Right: Hierarchy Voxel@[4m

技術(shù)團隊將多個視角的深度圖反投到容器中,將其轉(zhuǎn)換為截斷符號距離,并通過多視角融合和幾何一致性校驗等方式,將這些深度圖轉(zhuǎn)換為基于截斷符號距離的表示,即截斷符號距離場(Truncated Signed Distance Field, TSDF)。由于視角稀疏、觀測模型存在自遮擋等問題,重建出的TSDF場存在很多缺失。因此,技術(shù)團隊提出了一種基于TSDF Volume的補全方法,利用在構(gòu)造的數(shù)據(jù)集中預(yù)訓(xùn)練好的三維深度神經(jīng)網(wǎng)絡(luò),快速地對缺失的區(qū)域進行補全。相比于其他基于Occupancy的方法,該團隊的方法擁有更好的補全效果,并且相比于Function4D[2] 等提取圖片信息處理的方案來說,該團隊提出的方法速度也有所提升。

補全方法對比補全方法對比

非剛性追蹤

體積視頻和視頻一樣,也需要追求其時域穩(wěn)定性。由于體積視頻每一幀實際上是一個包含貼圖的三維網(wǎng)格模型,因此技術(shù)團隊利用非剛性追蹤 (Non-Rigid Tracking) 的方法來保持三角形網(wǎng)格在時序上的一致性。

技術(shù)團隊基于嵌入形變關(guān)鍵點(Embedded Deformation Nodes (EDNodes))[3] 來表達重建物體表面整體的形變場(deformation field)。整個計算過程通過在GPU上使用LM(Levenberg-Marquard)算法來求解局部ICP問題來高效地計算。利用形變場,技術(shù)團隊將每個體素拆分成的四面體 (Tetrahedra) 柵格,進行時域上的TSDF場的混合,來完成時域的均值濾波,使得隱表面重建在時域穩(wěn)定。

Left->Right: 隨時序Mesh變穩(wěn)定Left->Right: 隨時序Mesh變穩(wěn)定

另一個問題是如Fusion4D[4] 等tracking方法在前后幀運動差距過大時會出現(xiàn)tracking失敗的情況,而出現(xiàn)這種情況會導(dǎo)致最終重建出的三角形網(wǎng)格有非常嚴(yán)重的錯誤。具體來說,技術(shù)團隊會評估變形后的TSDF場與補全后的TSDF場之間的每個體素對齊誤差,對于未對齊的voxel認(rèn)為其是追蹤失敗的部份,對于這些voxel,團隊更信賴補全的結(jié)果而不是tracking的結(jié)果。用這種融合方式,對于上述提到的運動差距過大導(dǎo)致追蹤失敗的場景也能有較好的結(jié)果。

追蹤失敗情況與Fusion4D方法的對比追蹤失敗情況與Fusion4D方法的對比

紋理生成

紋理生成需要解決兩個問題,一個是計算出網(wǎng)格模型表面任意一點的顏色;另外就是計算出三維網(wǎng)格到二維圖像的映射,將計算出的顏色存放在二維圖像上便于傳輸與圖形管線的渲染。

多視圖紋理混合多視圖紋理混合

首先是計算網(wǎng)格模型表面的顏色。技術(shù)團隊使用多視圖混合算法來計算紋理,綜合考慮著色邊界及法線方向來設(shè)計了一種混合權(quán)重,消除了多視角混合中的色差、接縫等紋理生成質(zhì)量的問題。

曲面重參數(shù)化圖片曲面重參數(shù)化圖片

同時技術(shù)團隊設(shè)計了一個可并行的高效重參數(shù)化算法,通過對球面采樣來預(yù)設(shè)正交投影方向,重建模型執(zhí)行深度剝離(depth peeling)算法來劃分可視層級。通過投影方向和可視層級來標(biāo)記面片所屬的標(biāo)簽。對所有面片的所有候選標(biāo)簽執(zhí)行圖割(Graph-cut)算法來劃分網(wǎng)格模型表面的連通域。團隊對網(wǎng)格模型構(gòu)建半邊結(jié)構(gòu),并實現(xiàn)并行帶環(huán)信念傳播(Loopy blief propagation)算法來優(yōu)化求得近似最優(yōu)解。對于所有連通域,技術(shù)團隊使用平面重參數(shù)方法并將其映射并排列得到最終的紋理貼圖。

壓縮及傳輸

直接重建出的網(wǎng)格點面數(shù)量巨大,可達百萬面片, 為了便于網(wǎng)絡(luò)傳輸,減少帶寬占用,需要對三維重建結(jié)果進行簡化和壓縮。除了簡化的時候盡量保持原有的幾何特征要求以外,在當(dāng)前場景下,對簡化算法的實時性,臉部等ROI區(qū)域的幾何特征保持都有著要求。

  • 團隊開發(fā)了一套帶ROI信息的GPU簡化算法, 并行取多組邊評估其二次方度量誤差,選出每組中誤差最小的邊進行坍縮。同時提高ROI區(qū)域內(nèi)的邊的誤差等級以減少ROI區(qū)域的簡化損失。
  • Draco&H265壓縮傳輸,網(wǎng)格信息同步于SEI中

采用Draco[5] ,利用連通性、量化、熵編碼等手段,進一步對簡化的mesh的面和點的信息壓縮成二進制流。紋理貼圖則采用H.265進行圖像編碼。技術(shù)團隊將同步的網(wǎng)格信息存放在視頻流的SEI中,復(fù)用現(xiàn)在的RTC管線就可以完成三維數(shù)據(jù)的傳輸。

幀率

整體帶寬

Mesh帶寬

紋理帶寬

算法延時

~30fps

15~20Mbps

~12Mbps

~8Mbps

~100ms

應(yīng)用落地和展望

該技術(shù)方案支持多種終端設(shè)備實時觀看,有著廣泛的落地前景,如基于3D電視實現(xiàn)全息通信,提升遠程辦公、遠程交流的效率與沉浸感;如自由視角直播,加強主播與觀眾的聯(lián)系,創(chuàng)造各種互動玩法;在文娛、教育等場景中也提供了新的媒體形式。

關(guān)于火山引擎多媒體實驗室

火山引擎多媒體實驗室是字節(jié)跳動旗下的研究團隊,致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級客戶提供技術(shù)服務(wù)。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數(shù)項國際級技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎及最佳論文獎。

Reference

[1] RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching, 3DV 2021

[2] Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors, CVPR 2021

[3] Embedded Deformation for Shape Manipulation, SIGGRAPH 2007

[4] Fusion4D: Real-time Performance Capture of Challenging Scenes, ToG 2016

[5] Draco, https://github.com/google/draco

責(zé)任編輯:龐桂玉 來源: 字節(jié)跳動技術(shù)團隊
相關(guān)推薦

2021-09-16 10:47:09

數(shù)字化

2024-04-22 17:05:40

火山引擎抖音4K修復(fù)影片

2022-02-25 18:14:20

火山引擎視頻云

2023-08-23 14:53:05

火山引擎視頻云視頻編解碼

2022-11-24 09:35:52

2021-08-31 16:17:50

數(shù)字化
點贊
收藏

51CTO技術(shù)棧公眾號