自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法

發(fā)布于 2024-3-28 13:02
瀏覽
0收藏

單目動(dòng)態(tài)場(chǎng)景(Monocular Dynamic Scene)是指使用單眼攝像頭觀察并分析的動(dòng)態(tài)環(huán)境,其中場(chǎng)景中的物體可以自由移動(dòng)。單目動(dòng)態(tài)場(chǎng)景重建對(duì)于理解環(huán)境中的動(dòng)態(tài)變化、預(yù)測(cè)物體運(yùn)動(dòng)軌跡以及動(dòng)態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。

隨著以神經(jīng)輻射場(chǎng)(Neural Radiance Field, NeRF)為代表的神經(jīng)渲染的興起,越來越多的工作開始使用隱式表征(implicit representation)進(jìn)行動(dòng)態(tài)場(chǎng)景的三維重建。

盡管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經(jīng)取得了令人滿意的渲染質(zhì)量,他們?nèi)匀痪嚯x真正的照片級(jí)真實(shí)渲染(photo-realistic rendering)存在一定的距離。

來自浙江大學(xué)、字節(jié)跳動(dòng)的研究團(tuán)隊(duì)認(rèn)為,上述問題的根本原因在于基于光線投射(ray casting)的 NeRF pipeline 通過逆向映射(backward-flow)將觀測(cè)空間(observation space)映射到規(guī)范空間(canonical space)無法實(shí)現(xiàn)準(zhǔn)確且干凈的映射。逆向映射并不利于可學(xué)習(xí)結(jié)構(gòu)的收斂,使得目前的方法在 D-NeRF 數(shù)據(jù)集上只能取得 30 + 級(jí)別的 PSNR 渲染指標(biāo)。

為了解決這一問題,該研究團(tuán)隊(duì)提出了一種基于光柵化(rasterization)的單目動(dòng)態(tài)場(chǎng)景建模 pipeline,首次將變形場(chǎng)(Deformation Field)與 3D 高斯(3D Gaussian Splatting)結(jié)合,實(shí)現(xiàn)了高質(zhì)量的重建與新視角渲染。

研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計(jì)算機(jī)視覺頂級(jí)國際學(xué)術(shù)會(huì)議 CVPR 2024 接收。值得一提的是,這是首個(gè)使用變形場(chǎng)將 3D 高斯拓展到單目動(dòng)態(tài)場(chǎng)景的工作。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

項(xiàng)目主頁:https://ingra14m.github.io/Deformable-Gaussians/

論文地址:https://arxiv.org/abs/2309.13101

代碼地址:https://github.com/ingra14m/Deformable-3D-Gaussians

實(shí)驗(yàn)結(jié)果表明,變形場(chǎng)可以準(zhǔn)確地將規(guī)范空間下的 3D 高斯前向映射(forward-flow)到觀測(cè)空間,不僅在 D-NeRF 數(shù)據(jù)集上實(shí)現(xiàn)了 10 + 的 PSNR 提高,而且在相機(jī)位姿不準(zhǔn)確的真實(shí)場(chǎng)景也取得了渲染細(xì)節(jié)上的增加:

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖1. HyperNeRF 真實(shí)場(chǎng)景的實(shí)驗(yàn)結(jié)果

相關(guān)工作

動(dòng)態(tài)場(chǎng)景重建一直以來是三維重建的熱點(diǎn)問題。隨著以 NeRF 為代表的神經(jīng)渲染實(shí)現(xiàn)了高質(zhì)量的渲染,動(dòng)態(tài)重建領(lǐng)域涌現(xiàn)出了一系列以隱式表征作為基礎(chǔ)的工作。

D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎(chǔ)上引入了變形場(chǎng),實(shí)現(xiàn)了穩(wěn)健的動(dòng)態(tài)場(chǎng)景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基礎(chǔ)上引入了網(wǎng)格結(jié)構(gòu),大大加速了模型的訓(xùn)練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實(shí)現(xiàn)高質(zhì)量的規(guī)范空間和變形場(chǎng)的解耦。

3D 高斯?jié)姙R是一種基于光柵化的點(diǎn)云渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創(chuàng)新的致密化使得 3D 高斯不僅實(shí)現(xiàn)了 SOTA 的渲染質(zhì)量,還實(shí)現(xiàn)了實(shí)時(shí)渲染。Dynamic 3D 高斯首先將靜態(tài)的 3D 高斯拓展到了動(dòng)態(tài)領(lǐng)域。然而,其只能處理多目場(chǎng)景非常嚴(yán)重地制約了其應(yīng)用于更通用的情況,如手機(jī)拍攝等單目場(chǎng)景。

研究思想

Deformable-GS 的核心在于將靜態(tài)的 3D 高斯拓展到單目動(dòng)態(tài)場(chǎng)景。每一個(gè) 3D 高斯攜帶位置,旋轉(zhuǎn),縮放,不透明度和 SH 系數(shù)用于圖像層級(jí)的渲染。

根據(jù) 3D 高斯 alpha-blend 的公式,不難發(fā)現(xiàn),隨時(shí)間變化的位置,以及控制高斯形狀的旋轉(zhuǎn)和縮放是決定動(dòng)態(tài) 3D 高斯的決定性參數(shù)。然而,不同于傳統(tǒng)的基于點(diǎn)云的渲染方法,3D 高斯在初始化之后,位置,透明度等參數(shù)會(huì)隨著優(yōu)化不斷更新。這給動(dòng)態(tài)高斯的學(xué)習(xí)增加了難度。

該研究創(chuàng)新性地提出了變形場(chǎng)與 3D 高斯聯(lián)合優(yōu)化的動(dòng)態(tài)場(chǎng)景渲染框架。具體來說,該研究將 COLMAP 或隨機(jī)點(diǎn)云初始化的 3D 高斯視作規(guī)范空間,隨后通過變形場(chǎng),以規(guī)范空間中 3D 高斯的坐標(biāo)信息作為輸入,預(yù)測(cè)每一個(gè) 3D 高斯隨時(shí)間變化的位置和形狀參數(shù)。

利用變形場(chǎng),該研究可以將規(guī)范空間的 3D 高斯變換到觀測(cè)空間用于光柵化渲染。這一策略并不會(huì)影響 3D 高斯的可微光柵化 pipeline,經(jīng)過其計(jì)算得到的梯度可以用于更新規(guī)范空間 3D 高斯的參數(shù)。

此外,引入變形場(chǎng)有利于動(dòng)作幅度較大部分的高斯致密化。這是因?yàn)閯?dòng)作幅度較大的區(qū)域變形場(chǎng)的梯度也會(huì)相對(duì)較高,從而指導(dǎo)相應(yīng)區(qū)域在致密化的過程中得到更精細(xì)的調(diào)控。即使規(guī)范空間 3D 高斯的數(shù)量和位置參數(shù)在初期也在不斷更新,但實(shí)驗(yàn)結(jié)果表明,這種聯(lián)合優(yōu)化的策略可以最終得到穩(wěn)健的收斂結(jié)果。大約經(jīng)過 20000 輪迭代,規(guī)范空間的 3D 高斯的位置參數(shù)幾乎不再變化。

研究團(tuán)隊(duì)發(fā)現(xiàn)真實(shí)場(chǎng)景的相機(jī)位姿往往不夠準(zhǔn)確,而動(dòng)態(tài)場(chǎng)景更加劇了這一問題。這對(duì)于基于神經(jīng)輻射場(chǎng)的結(jié)構(gòu)來說并不會(huì)產(chǎn)生較大的影響,因?yàn)樯窠?jīng)輻射場(chǎng)基于多層感知機(jī)(Multilayer Perceptron,MLP),是一個(gè)非常平滑的結(jié)構(gòu)。但是 3D 高斯是基于點(diǎn)云的顯式結(jié)構(gòu),略微不準(zhǔn)確的相機(jī)位姿很難通過高斯?jié)姙R得到較為穩(wěn)健地矯正。

為了緩解這個(gè)問題,該研究創(chuàng)新地引入了退火平滑訓(xùn)練(Annealing Smooth Training,AST)。該訓(xùn)練機(jī)制旨在初期平滑 3D 高斯的學(xué)習(xí),在后期增加渲染的細(xì)節(jié)。這一機(jī)制的引入不僅提高了渲染的質(zhì)量,而且大幅度提高了時(shí)間插值任務(wù)的穩(wěn)定性與平滑性。

圖 2 展示了該研究的 pipeline,詳情請(qǐng)參見論文原文。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖2. 該研究的 pipeline

結(jié)果展示

該研究首先在動(dòng)態(tài)重建領(lǐng)域被廣泛使用的 D-NeRF 數(shù)據(jù)集上進(jìn)行了合成數(shù)據(jù)集的實(shí)驗(yàn)。從圖 3 的可視化結(jié)果中不難看出,Deformable-GS 相比于之前的方法有著非常巨大的渲染質(zhì)量提升。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖3. 該研究在D-NeRF數(shù)據(jù)集上的定性實(shí)驗(yàn)對(duì)比結(jié)果

該研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的定量指標(biāo)上也有著相應(yīng)的改進(jìn)。

值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn) D-NeRF 數(shù)據(jù)集的 Lego 場(chǎng)景存在錯(cuò)誤,即訓(xùn)練集和測(cè)試集的場(chǎng)景具有微小的差別。這體現(xiàn)在 Lego 模型鏟子的翻轉(zhuǎn)角度不一致。這也是為什么之前方法在 Lego 場(chǎng)景的指標(biāo)無法提高的根本原因。為了實(shí)現(xiàn)有意義的比較,該研究使用了 Lego 的驗(yàn)證集作為指標(biāo)測(cè)量的基準(zhǔn)。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖4. 在合成數(shù)據(jù)集上的定量比較

如圖 4 所示,該研究在全分辨率(800x800)下對(duì)比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。該研究提出的方法在各個(gè)渲染指標(biāo)(PSNR、SSIM、LPIPS),各個(gè)場(chǎng)景下都取得了大幅度的提高。

該研究提出的方法不僅能夠適用于合成場(chǎng)景,在相機(jī)位姿不夠準(zhǔn)確的真實(shí)場(chǎng)景也取得了 SOTA 結(jié)果。如圖 5 所示,該研究在 NeRF-DS 數(shù)據(jù)集上與 SOTA 方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,即使沒有對(duì)高光反射表面進(jìn)行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場(chǎng)景設(shè)計(jì)的 NeRF-DS,取得了最佳的渲染效果。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖5. 真實(shí)場(chǎng)景方法對(duì)比

雖然 MLP 的引入增加了渲染開銷,但是得益于 3D 高斯極其高效的 CUDA 實(shí)現(xiàn)與我們緊湊的 MLP 結(jié)構(gòu),我們依舊能夠做到實(shí)時(shí)渲染。在 3090 上 D-NeRF 數(shù)據(jù)集的平均 FPS 可以達(dá)到 85(400x400),68(800x800)。

此外,該研究還首次應(yīng)用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示,該深度也證明了 Deformable-GS 也可以得到魯棒的幾何表示。深度的反向傳播可以推動(dòng)日后很多需要使用深度監(jiān)督的任務(wù),例如逆向渲染(Inverse Rendering),SLAM 與自動(dòng)駕駛等。

CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖6. 深度可視化

本文轉(zhuǎn)載自PaperWeekly,作者:機(jī)器之心編輯部

原文鏈接:??https://mp.weixin.qq.com/s/ZDgWA1aYCQah8lSBBZAqfQ??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦