自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="grhjp"><i id="grhjp"></i></sub>

<cite id="grhjp"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

清華大學(xué)提出三維重建的新方法：O2-Recon，用2D擴(kuò)散模型補(bǔ)全殘缺的3D物體

作者：機(jī)器之心 2023-12-29 09:36:51

人工智能新聞

隨著 NeRF 和 NeuS 等技術(shù)的發(fā)展，imap 和 vMap 等技術(shù)能夠利用可微渲染來(lái)優(yōu)化物體的幾何結(jié)構(gòu)，這些方法能夠重建出更加貼合真實(shí)物體表面的網(wǎng)格模型，也能夠重建多個(gè)類(lèi)別的物體，打破單一物體類(lèi)別的限制。

在計(jì)算機(jī)視覺(jué)中，物體級(jí)別的三維表面重建技術(shù)面臨諸多挑戰(zhàn)。與場(chǎng)景級(jí)別的重建技術(shù)不同，物體級(jí)別的三維重建需要為場(chǎng)景中的每個(gè)物體給出獨(dú)立的三維表示，以支持細(xì)粒度的場(chǎng)景建模和理解。這對(duì) AR/VR/MR 以及機(jī)器人相關(guān)的應(yīng)用具有重要意義。

許多現(xiàn)有方法利用三維生成模型的隱空間來(lái)完成物體級(jí)別的三維重建，這些方法用隱空間的編碼向量來(lái)表示物體形狀，并將重建任務(wù)建模成對(duì)物體位姿和形狀編碼的聯(lián)合估計(jì)。得益于生成模型隱空間的優(yōu)秀性質(zhì)，這些方法可以重建出完整的物體形狀，但僅限于特定類(lèi)別物體的三維重建，如桌子或椅子。即使在這些類(lèi)別中，這類(lèi)方法優(yōu)化得到的形狀編碼也往往難以準(zhǔn)確匹配實(shí)際物體的三維形狀。另外一些方法則從數(shù)據(jù)庫(kù)中檢索合適的 CAD 模型，并輔以物體位姿估計(jì)來(lái)完成三維重建，這類(lèi)方法也面臨著類(lèi)似的問(wèn)題，其可擴(kuò)展性比較有限，重建準(zhǔn)確性低，很難貼合物體真實(shí)的三維表面結(jié)構(gòu)。

隨著 NeRF 和 NeuS 等技術(shù)的發(fā)展，imap 和 vMap 等技術(shù)能夠利用可微渲染來(lái)優(yōu)化物體的幾何結(jié)構(gòu)，這些方法能夠重建出更加貼合真實(shí)物體表面的網(wǎng)格模型，也能夠重建多個(gè)類(lèi)別的物體，打破單一物體類(lèi)別的限制。然而，由于場(chǎng)景內(nèi)部拍攝角度的約束，很多物體都是被遮擋的，比如靠近墻壁的物體，或者彼此遮擋的物體。在物體被遮擋的情況下，這些方法重建出的物體往往是不完整的，如下圖所示。這些不完整的三維模型無(wú)法支持大角度的旋轉(zhuǎn)和大范圍平移，就很難被各種下游任務(wù)利用。

遮擋下的重建結(jié)果

清華大學(xué)劉永進(jìn)教授團(tuán)隊(duì)提出物體三維重建的新方法 O2-Recon，利用已有的 2D 擴(kuò)散模型補(bǔ)全物體圖像中被遮擋的區(qū)域，繼而用神經(jīng)隱式表面場(chǎng)從補(bǔ)全后的圖像中重建完整的三維物體。該論文利用重投影機(jī)制保持填充區(qū)域的三維一致性，并且在隱式重建過(guò)程中加入 CLIP 損失函數(shù)監(jiān)督不可見(jiàn)角度的語(yǔ)義信息，最終重建出完整且合理的三維物體模型，支持大角度的旋轉(zhuǎn)和平移，可以用于各種下游任務(wù)。目前，該論文已被人工智能頂會(huì)之一 AAAI 2024 接收。

論文鏈接：https://arxiv.org/abs/2308.09591

O2-Recon 簡(jiǎn)介

方法介紹

受到 2D 擴(kuò)散模型在圖像補(bǔ)全任務(wù)中出色表現(xiàn)的啟發(fā)，研究者設(shè)計(jì)了 O2-Recon 方法，旨在利用預(yù)訓(xùn)練的擴(kuò)散模型來(lái)補(bǔ)全圖像中物體被遮擋的區(qū)域。雖然現(xiàn)有的擴(kuò)散模型在圖像補(bǔ)全中表現(xiàn)出強(qiáng)勁的性能，但如果沒(méi)有準(zhǔn)確的遮罩（Mask）來(lái)指出物體應(yīng)當(dāng)被補(bǔ)全的區(qū)域，擴(kuò)散模型就很有可能生成錯(cuò)誤的圖像內(nèi)容，比如超出正確區(qū)域的結(jié)構(gòu)或者錯(cuò)誤的形狀。在 O2-Recon 方法中，研究者引入了少量的人工操作來(lái)構(gòu)建準(zhǔn)確的 Mask，從而保證 2D 補(bǔ)全和 3D 重建的質(zhì)量。

給定一段帶有物體 Mask 的 RGB-D 視頻序列，需要用戶選擇 1-3 幀圖像，并推測(cè)這 1-3 幀圖像中物體被遮擋的區(qū)域，繪制被遮擋區(qū)域的 Mask。結(jié)合擴(kuò)散模型補(bǔ)全出的深度信息，研究者將這些視角下的 Mask 投影到所有其他視角，得到其他視角下的遮擋區(qū)域 Mask。通過(guò)加入少量的人機(jī)交互，研究者保證了 Mask 的質(zhì)量，同時(shí)由于這些 Mask 是重投影得到的，它們?cè)诓煌暯窍戮哂械膸缀我恢滦?，從而能夠引?dǎo) 2D 擴(kuò)散模型為遮擋區(qū)域填充出合理且一致的圖像內(nèi)容。

在三維重建階段，研究者利用類(lèi)似于 NeuS 的神經(jīng)隱式表面場(chǎng)來(lái)完成表面重建，并利用體渲染構(gòu)建損失函數(shù)進(jìn)行優(yōu)化。考慮到補(bǔ)全的圖像仍然可能存在不一致性，這種隱式表示能在多視角優(yōu)化的過(guò)程中逐漸學(xué)習(xí)出合理的三維結(jié)構(gòu)。另一方面，研究者從兩個(gè)角度來(lái)提升完全不可見(jiàn)區(qū)域的重建效果：首先，研究者利用 CLIP 特征監(jiān)督新視角下渲染結(jié)果與和物體類(lèi)別文本的一致性；其次，研究者設(shè)計(jì)了一個(gè)級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)編碼隱式表面場(chǎng)，其中包括一個(gè)淺層的 MLP+低頻位置編碼來(lái)確保表面的整體平滑性，以及一個(gè)更深的 MLP 分支+高頻 PE 位置編碼來(lái)預(yù)測(cè) SDF 的殘差。這種結(jié)構(gòu)既保證可見(jiàn)區(qū)域表面的靈活性，又確保了物體不可見(jiàn)區(qū)域的平滑性。

實(shí)驗(yàn)效果

物體的三維重建效果

主要實(shí)驗(yàn)結(jié)果展示

與其他物體級(jí)別的三維重建方法相比，O2-Recon 能重建出更準(zhǔn)確，更完整的三維結(jié)構(gòu)，如上圖所示。其中 FroDO 是基于隱空間形狀編碼的方法，Scan2CAD 是基于數(shù)據(jù)庫(kù)檢索的方法，vMap 是利用 NeRF 做表面重建的方法，MonoSDF 是場(chǎng)景級(jí)別的三維重建方法。

動(dòng)圖對(duì)比

動(dòng)圖對(duì)比

動(dòng)圖對(duì)比

重建后物體的位置編輯

由于 O2-Recon 重建出的物體較為完整，我們可以對(duì)這些物體做大幅度的旋轉(zhuǎn)或平移，在編輯位置之后，從新的角度觀察這些物體，其表面質(zhì)量仍然不錯(cuò)，如下圖所示。

在編輯之前，這些物體在原場(chǎng)景中的位置下：

多物體動(dòng)圖對(duì)比

在編輯之后，這些物體在新的位置下：

多物體動(dòng)圖對(duì)比

總結(jié)

本文提出了 O2-Recon 方法，來(lái)利用預(yù)訓(xùn)練的 2D 擴(kuò)散模型重建場(chǎng)景中被遮擋物體的完整 3D 幾何形狀。研究者利用擴(kuò)散模型對(duì)多視角 2D 圖像中的遮擋部分進(jìn)行補(bǔ)全，并從補(bǔ)全后的圖像利用神經(jīng)隱式表面重建 3D 物體。為了防止 Mask 的不一致性，研究者采用了一種人機(jī)協(xié)同策略，通過(guò)少量人機(jī)交互生成高質(zhì)量的多角度 Mask，有效地引導(dǎo) 2D 圖像補(bǔ)全過(guò)程。在神經(jīng)隱式表面的優(yōu)化過(guò)程中，研究者設(shè)計(jì)了一個(gè)級(jí)聯(lián)的網(wǎng)絡(luò)架構(gòu)來(lái)保證 SDF 的平滑性，并利用預(yù)訓(xùn)練的 CLIP 模型通過(guò)語(yǔ)義一致性損失監(jiān)督新視角。研究者在 ScanNet 數(shù)據(jù)集上的實(shí)驗(yàn)證明，O2-Recon 能夠?yàn)槿我忸?lèi)別的被遮擋物體重建出精確完整的 3D 表面。這些重建出的完整 3D 物體支持進(jìn)一步的編輯操作，如大范圍旋轉(zhuǎn)和平移。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="rd5qs"></cite>