自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法

發(fā)布于 2024-3-28 13:02

瀏覽

0收藏

單目動(dòng)態(tài)場(chǎng)景（Monocular Dynamic Scene）是指使用單眼攝像頭觀察并分析的動(dòng)態(tài)環(huán)境，其中場(chǎng)景中的物體可以自由移動(dòng)。單目動(dòng)態(tài)場(chǎng)景重建對(duì)于理解環(huán)境中的動(dòng)態(tài)變化、預(yù)測(cè)物體運(yùn)動(dòng)軌跡以及動(dòng)態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。

隨著以神經(jīng)輻射場(chǎng)（Neural Radiance Field, NeRF）為代表的神經(jīng)渲染的興起，越來越多的工作開始使用隱式表征（implicit representation）進(jìn)行動(dòng)態(tài)場(chǎng)景的三維重建。

盡管基于 NeRF 的一些代表工作，如 D-NeRF，Nerfies，K-planes 等已經(jīng)取得了令人滿意的渲染質(zhì)量，他們?nèi)匀痪嚯x真正的照片級(jí)真實(shí)渲染（photo-realistic rendering）存在一定的距離。

來自浙江大學(xué)、字節(jié)跳動(dòng)的研究團(tuán)隊(duì)認(rèn)為，上述問題的根本原因在于基于光線投射（ray casting）的 NeRF pipeline 通過逆向映射（backward-flow）將觀測(cè)空間（observation space）映射到規(guī)范空間（canonical space）無法實(shí)現(xiàn)準(zhǔn)確且干凈的映射。逆向映射并不利于可學(xué)習(xí)結(jié)構(gòu)的收斂，使得目前的方法在 D-NeRF 數(shù)據(jù)集上只能取得 30 + 級(jí)別的 PSNR 渲染指標(biāo)。

為了解決這一問題，該研究團(tuán)隊(duì)提出了一種基于光柵化（rasterization）的單目動(dòng)態(tài)場(chǎng)景建模 pipeline，首次將變形場(chǎng)（Deformation Field）與 3D 高斯（3D Gaussian Splatting）結(jié)合，實(shí)現(xiàn)了高質(zhì)量的重建與新視角渲染。

研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計(jì)算機(jī)視覺頂級(jí)國際學(xué)術(shù)會(huì)議 CVPR 2024 接收。值得一提的是，這是首個(gè)使用變形場(chǎng)將 3D 高斯拓展到單目動(dòng)態(tài)場(chǎng)景的工作。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

項(xiàng)目主頁：https://ingra14m.github.io/Deformable-Gaussians/

論文地址：https://arxiv.org/abs/2309.13101

代碼地址：https://github.com/ingra14m/Deformable-3D-Gaussians

實(shí)驗(yàn)結(jié)果表明，變形場(chǎng)可以準(zhǔn)確地將規(guī)范空間下的 3D 高斯前向映射（forward-flow）到觀測(cè)空間，不僅在 D-NeRF 數(shù)據(jù)集上實(shí)現(xiàn)了 10 + 的 PSNR 提高，而且在相機(jī)位姿不準(zhǔn)確的真實(shí)場(chǎng)景也取得了渲染細(xì)節(jié)上的增加：

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖1. HyperNeRF 真實(shí)場(chǎng)景的實(shí)驗(yàn)結(jié)果

相關(guān)工作

動(dòng)態(tài)場(chǎng)景重建一直以來是三維重建的熱點(diǎn)問題。隨著以 NeRF 為代表的神經(jīng)渲染實(shí)現(xiàn)了高質(zhì)量的渲染，動(dòng)態(tài)重建領(lǐng)域涌現(xiàn)出了一系列以隱式表征作為基礎(chǔ)的工作。

D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎(chǔ)上引入了變形場(chǎng)，實(shí)現(xiàn)了穩(wěn)健的動(dòng)態(tài)場(chǎng)景重建。TiNeuVox，K-Planes 和 Hexplanes 在此基礎(chǔ)上引入了網(wǎng)格結(jié)構(gòu)，大大加速了模型的訓(xùn)練過程，渲染速度有一定的提高。然而這些方法都基于逆向映射，無法真正實(shí)現(xiàn)高質(zhì)量的規(guī)范空間和變形場(chǎng)的解耦。

3D 高斯?jié)姙R是一種基于光柵化的點(diǎn)云渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創(chuàng)新的致密化使得 3D 高斯不僅實(shí)現(xiàn)了 SOTA 的渲染質(zhì)量，還實(shí)現(xiàn)了實(shí)時(shí)渲染。Dynamic 3D 高斯首先將靜態(tài)的 3D 高斯拓展到了動(dòng)態(tài)領(lǐng)域。然而，其只能處理多目場(chǎng)景非常嚴(yán)重地制約了其應(yīng)用于更通用的情況，如手機(jī)拍攝等單目場(chǎng)景。

研究思想

Deformable-GS 的核心在于將靜態(tài)的 3D 高斯拓展到單目動(dòng)態(tài)場(chǎng)景。每一個(gè) 3D 高斯攜帶位置，旋轉(zhuǎn)，縮放，不透明度和 SH 系數(shù)用于圖像層級(jí)的渲染。

根據(jù) 3D 高斯 alpha-blend 的公式，不難發(fā)現(xiàn)，隨時(shí)間變化的位置，以及控制高斯形狀的旋轉(zhuǎn)和縮放是決定動(dòng)態(tài) 3D 高斯的決定性參數(shù)。然而，不同于傳統(tǒng)的基于點(diǎn)云的渲染方法，3D 高斯在初始化之后，位置，透明度等參數(shù)會(huì)隨著優(yōu)化不斷更新。這給動(dòng)態(tài)高斯的學(xué)習(xí)增加了難度。

該研究創(chuàng)新性地提出了變形場(chǎng)與 3D 高斯聯(lián)合優(yōu)化的動(dòng)態(tài)場(chǎng)景渲染框架。具體來說，該研究將 COLMAP 或隨機(jī)點(diǎn)云初始化的 3D 高斯視作規(guī)范空間，隨后通過變形場(chǎng)，以規(guī)范空間中 3D 高斯的坐標(biāo)信息作為輸入，預(yù)測(cè)每一個(gè) 3D 高斯隨時(shí)間變化的位置和形狀參數(shù)。

利用變形場(chǎng)，該研究可以將規(guī)范空間的 3D 高斯變換到觀測(cè)空間用于光柵化渲染。這一策略并不會(huì)影響 3D 高斯的可微光柵化 pipeline，經(jīng)過其計(jì)算得到的梯度可以用于更新規(guī)范空間 3D 高斯的參數(shù)。

此外，引入變形場(chǎng)有利于動(dòng)作幅度較大部分的高斯致密化。這是因?yàn)閯?dòng)作幅度較大的區(qū)域變形場(chǎng)的梯度也會(huì)相對(duì)較高，從而指導(dǎo)相應(yīng)區(qū)域在致密化的過程中得到更精細(xì)的調(diào)控。即使規(guī)范空間 3D 高斯的數(shù)量和位置參數(shù)在初期也在不斷更新，但實(shí)驗(yàn)結(jié)果表明，這種聯(lián)合優(yōu)化的策略可以最終得到穩(wěn)健的收斂結(jié)果。大約經(jīng)過 20000 輪迭代，規(guī)范空間的 3D 高斯的位置參數(shù)幾乎不再變化。

研究團(tuán)隊(duì)發(fā)現(xiàn)真實(shí)場(chǎng)景的相機(jī)位姿往往不夠準(zhǔn)確，而動(dòng)態(tài)場(chǎng)景更加劇了這一問題。這對(duì)于基于神經(jīng)輻射場(chǎng)的結(jié)構(gòu)來說并不會(huì)產(chǎn)生較大的影響，因?yàn)樯窠?jīng)輻射場(chǎng)基于多層感知機(jī)（Multilayer Perceptron，MLP），是一個(gè)非常平滑的結(jié)構(gòu)。但是 3D 高斯是基于點(diǎn)云的顯式結(jié)構(gòu)，略微不準(zhǔn)確的相機(jī)位姿很難通過高斯?jié)姙R得到較為穩(wěn)健地矯正。

為了緩解這個(gè)問題，該研究創(chuàng)新地引入了退火平滑訓(xùn)練（Annealing Smooth Training，AST）。該訓(xùn)練機(jī)制旨在初期平滑 3D 高斯的學(xué)習(xí)，在后期增加渲染的細(xì)節(jié)。這一機(jī)制的引入不僅提高了渲染的質(zhì)量，而且大幅度提高了時(shí)間插值任務(wù)的穩(wěn)定性與平滑性。

圖 2 展示了該研究的 pipeline，詳情請(qǐng)參見論文原文。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖2. 該研究的 pipeline

結(jié)果展示

該研究首先在動(dòng)態(tài)重建領(lǐng)域被廣泛使用的 D-NeRF 數(shù)據(jù)集上進(jìn)行了合成數(shù)據(jù)集的實(shí)驗(yàn)。從圖 3 的可視化結(jié)果中不難看出，Deformable-GS 相比于之前的方法有著非常巨大的渲染質(zhì)量提升。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖3. 該研究在D-NeRF數(shù)據(jù)集上的定性實(shí)驗(yàn)對(duì)比結(jié)果

該研究提出的方法不僅在視覺效果上取得了大幅度的提升，在渲染的定量指標(biāo)上也有著相應(yīng)的改進(jìn)。

值得注意的是，研究團(tuán)隊(duì)發(fā)現(xiàn) D-NeRF 數(shù)據(jù)集的 Lego 場(chǎng)景存在錯(cuò)誤，即訓(xùn)練集和測(cè)試集的場(chǎng)景具有微小的差別。這體現(xiàn)在 Lego 模型鏟子的翻轉(zhuǎn)角度不一致。這也是為什么之前方法在 Lego 場(chǎng)景的指標(biāo)無法提高的根本原因。為了實(shí)現(xiàn)有意義的比較，該研究使用了 Lego 的驗(yàn)證集作為指標(biāo)測(cè)量的基準(zhǔn)。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖4. 在合成數(shù)據(jù)集上的定量比較

如圖 4 所示，該研究在全分辨率（800x800）下對(duì)比了 SOTA 方法，其中包括了 CVPR 2020 的 D-NeRF，Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D，K-planes。該研究提出的方法在各個(gè)渲染指標(biāo)（PSNR、SSIM、LPIPS），各個(gè)場(chǎng)景下都取得了大幅度的提高。

該研究提出的方法不僅能夠適用于合成場(chǎng)景，在相機(jī)位姿不夠準(zhǔn)確的真實(shí)場(chǎng)景也取得了 SOTA 結(jié)果。如圖 5 所示，該研究在 NeRF-DS 數(shù)據(jù)集上與 SOTA 方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明，即使沒有對(duì)高光反射表面進(jìn)行特殊處理，該研究提出的方法依舊能夠超過專為高光反射場(chǎng)景設(shè)計(jì)的 NeRF-DS，取得了最佳的渲染效果。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖5. 真實(shí)場(chǎng)景方法對(duì)比

雖然 MLP 的引入增加了渲染開銷，但是得益于 3D 高斯極其高效的 CUDA 實(shí)現(xiàn)與我們緊湊的 MLP 結(jié)構(gòu)，我們依舊能夠做到實(shí)時(shí)渲染。在 3090 上 D-NeRF 數(shù)據(jù)集的平均 FPS 可以達(dá)到 85（400x400），68（800x800）。

此外，該研究還首次應(yīng)用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示，該深度也證明了 Deformable-GS 也可以得到魯棒的幾何表示。深度的反向傳播可以推動(dòng)日后很多需要使用深度監(jiān)督的任務(wù)，例如逆向渲染（Inverse Rendering），SLAM 與自動(dòng)駕駛等。

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法-AI.x社區(qū)

▲ 圖6. 深度可視化

本文轉(zhuǎn)載自PaperWeekly，作者：機(jī)器之心編輯部

原文鏈接：??https://mp.weixin.qq.com/s/ZDgWA1aYCQah8lSBBZAqfQ??

標(biāo)簽

單目動(dòng)態(tài)場(chǎng)景

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 4085瀏覽 ? 0回復(fù)
檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 2736瀏覽 ? 0回復(fù)
Arena-Hard：開源高質(zhì)量大模型評(píng)估基準(zhǔn)

Aceryt ? 3983瀏覽 ? 0回復(fù)
借助神經(jīng)結(jié)構(gòu)光，浙大實(shí)現(xiàn)動(dòng)態(tài)三維現(xiàn)象的實(shí)時(shí)采集重建

輕薄滴假象 ? 2348瀏覽 ? 0回復(fù)
ICLR 2024 Spotlight | 無懼中間步驟，MUSTARD可生成高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)

輕薄滴假象 ? 3071瀏覽 ? 0回復(fù)
CVPR 2024 Highlight | 基于單曝光壓縮成像，不依賴生成模型也能從單張圖像中重建三維場(chǎng)景

輕薄滴假象 ? 2378瀏覽 ? 0回復(fù)
七個(gè)高質(zhì)量潤(rùn)色論文和文章的指令

數(shù)師兄 ? 3256瀏覽 ? 0回復(fù)
“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 4559瀏覽 ? 0回復(fù)
天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計(jì) | CVPR 2024

duhorse ? 2226瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴(kuò)散模型生成高質(zhì)量360度場(chǎng)景，只需要一個(gè)語言模型

輕薄滴假象 ? 2984瀏覽 ? 0回復(fù)
高質(zhì)量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF

輕薄滴假象 ? 2611瀏覽 ? 0回復(fù)
單圖創(chuàng)造虛擬世界只需10秒！斯坦福&MIT聯(lián)合發(fā)布WonderWorld：高質(zhì)量交互生成

angel ? 2612瀏覽 ? 0回復(fù)
只需微調(diào)，大幅提升人臉生成質(zhì)量！上交聯(lián)合OPPO發(fā)布新標(biāo)準(zhǔn)和新方法

angel ? 2301瀏覽 ? 0回復(fù)
大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

NLP工作站 ? 3493瀏覽 ? 0回復(fù)
超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

angel ? 2834瀏覽 ? 0回復(fù)
3D人體重建新SOTA！清華&騰訊等重磅發(fā)布MagicMan：?jiǎn)我粓D像生成高質(zhì)量人體新突破

angel ? 2918瀏覽 ? 0回復(fù)
Salesforce 新方法讓RAG效果飆升

大語言模型論文跟蹤 ? 1848瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時(shí)代 ? 832瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 465瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

WSDM 2024 | 系統(tǒng)探究適配器微調(diào)對(duì)于可遷移推薦的影響 2024-03-28 14:27:29發(fā)布
用短輸入模擬長(zhǎng)樣本，高效拓展LLM上下文窗口，北大聯(lián)合MSRA提出PoSE 2024-03-28 14:15:43發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

下一篇：無需RLHF？基于圖增強(qiáng)的大模型可控生成框架

社區(qū)精華內(nèi)容

目錄

<tt id="6jwcp"><option id="6jwcp"></option></tt>

<em id="6jwcp"><option id="6jwcp"><em id="6jwcp"></em></option></em>

<em id="6jwcp"><option id="6jwcp"><nobr id="6jwcp"></nobr></option></em>