清華大學(xué)提出三維重建的新方法:O2-Recon,用2D擴(kuò)散模型補(bǔ)全殘缺的3D物體
在計(jì)算機(jī)視覺(jué)中,物體級(jí)別的三維表面重建技術(shù)面臨諸多挑戰(zhàn)。與場(chǎng)景級(jí)別的重建技術(shù)不同,物體級(jí)別的三維重建需要為場(chǎng)景中的每個(gè)物體給出獨(dú)立的三維表示,以支持細(xì)粒度的場(chǎng)景建模和理解。這對(duì) AR/VR/MR 以及機(jī)器人相關(guān)的應(yīng)用具有重要意義。
許多現(xiàn)有方法利用三維生成模型的隱空間來(lái)完成物體級(jí)別的三維重建,這些方法用隱空間的編碼向量來(lái)表示物體形狀,并將重建任務(wù)建模成對(duì)物體位姿和形狀編碼的聯(lián)合估計(jì)。得益于生成模型隱空間的優(yōu)秀性質(zhì),這些方法可以重建出完整的物體形狀,但僅限于特定類(lèi)別物體的三維重建,如桌子或椅子。即使在這些類(lèi)別中,這類(lèi)方法優(yōu)化得到的形狀編碼也往往難以準(zhǔn)確匹配實(shí)際物體的三維形狀。另外一些方法則從數(shù)據(jù)庫(kù)中檢索合適的 CAD 模型,并輔以物體位姿估計(jì)來(lái)完成三維重建,這類(lèi)方法也面臨著類(lèi)似的問(wèn)題,其可擴(kuò)展性比較有限,重建準(zhǔn)確性低,很難貼合物體真實(shí)的三維表面結(jié)構(gòu)。
隨著 NeRF 和 NeuS 等技術(shù)的發(fā)展,imap 和 vMap 等技術(shù)能夠利用可微渲染來(lái)優(yōu)化物體的幾何結(jié)構(gòu),這些方法能夠重建出更加貼合真實(shí)物體表面的網(wǎng)格模型,也能夠重建多個(gè)類(lèi)別的物體,打破單一物體類(lèi)別的限制。然而,由于場(chǎng)景內(nèi)部拍攝角度的約束,很多物體都是被遮擋的,比如靠近墻壁的物體,或者彼此遮擋的物體。在物體被遮擋的情況下,這些方法重建出的物體往往是不完整的,如下圖所示。這些不完整的三維模型無(wú)法支持大角度的旋轉(zhuǎn)和大范圍平移,就很難被各種下游任務(wù)利用。
遮擋下的重建結(jié)果
清華大學(xué)劉永進(jìn)教授團(tuán)隊(duì)提出物體三維重建的新方法 O2-Recon,利用已有的 2D 擴(kuò)散模型補(bǔ)全物體圖像中被遮擋的區(qū)域,繼而用神經(jīng)隱式表面場(chǎng)從補(bǔ)全后的圖像中重建完整的三維物體。該論文利用重投影機(jī)制保持填充區(qū)域的三維一致性,并且在隱式重建過(guò)程中加入 CLIP 損失函數(shù)監(jiān)督不可見(jiàn)角度的語(yǔ)義信息,最終重建出完整且合理的三維物體模型,支持大角度的旋轉(zhuǎn)和平移,可以用于各種下游任務(wù)。目前,該論文已被人工智能頂會(huì)之一 AAAI 2024 接收。
論文鏈接:https://arxiv.org/abs/2308.09591
O2-Recon 簡(jiǎn)介
方法介紹
受到 2D 擴(kuò)散模型在圖像補(bǔ)全任務(wù)中出色表現(xiàn)的啟發(fā),研究者設(shè)計(jì)了 O2-Recon 方法,旨在利用預(yù)訓(xùn)練的擴(kuò)散模型來(lái)補(bǔ)全圖像中物體被遮擋的區(qū)域。雖然現(xiàn)有的擴(kuò)散模型在圖像補(bǔ)全中表現(xiàn)出強(qiáng)勁的性能,但如果沒(méi)有準(zhǔn)確的遮罩(Mask)來(lái)指出物體應(yīng)當(dāng)被補(bǔ)全的區(qū)域,擴(kuò)散模型就很有可能生成錯(cuò)誤的圖像內(nèi)容,比如超出正確區(qū)域的結(jié)構(gòu)或者錯(cuò)誤的形狀。在 O2-Recon 方法中,研究者引入了少量的人工操作來(lái)構(gòu)建準(zhǔn)確的 Mask,從而保證 2D 補(bǔ)全和 3D 重建的質(zhì)量。
給定一段帶有物體 Mask 的 RGB-D 視頻序列,需要用戶選擇 1-3 幀圖像,并推測(cè)這 1-3 幀圖像中物體被遮擋的區(qū)域,繪制被遮擋區(qū)域的 Mask。結(jié)合擴(kuò)散模型補(bǔ)全出的深度信息,研究者將這些視角下的 Mask 投影到所有其他視角,得到其他視角下的遮擋區(qū)域 Mask。通過(guò)加入少量的人機(jī)交互,研究者保證了 Mask 的質(zhì)量,同時(shí)由于這些 Mask 是重投影得到的,它們?cè)诓煌暯窍戮哂械膸缀我恢滦?,從而能夠引?dǎo) 2D 擴(kuò)散模型為遮擋區(qū)域填充出合理且一致的圖像內(nèi)容。
在三維重建階段,研究者利用類(lèi)似于 NeuS 的神經(jīng)隱式表面場(chǎng)來(lái)完成表面重建,并利用體渲染構(gòu)建損失函數(shù)進(jìn)行優(yōu)化。考慮到補(bǔ)全的圖像仍然可能存在不一致性,這種隱式表示能在多視角優(yōu)化的過(guò)程中逐漸學(xué)習(xí)出合理的三維結(jié)構(gòu)。另一方面,研究者從兩個(gè)角度來(lái)提升完全不可見(jiàn)區(qū)域的重建效果:首先,研究者利用 CLIP 特征監(jiān)督新視角下渲染結(jié)果與和物體類(lèi)別文本的一致性;其次,研究者設(shè)計(jì)了一個(gè)級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)編碼隱式表面場(chǎng),其中包括一個(gè)淺層的 MLP+低頻位置編碼來(lái)確保表面的整體平滑性,以及一個(gè)更深的 MLP 分支+高頻 PE 位置編碼來(lái)預(yù)測(cè) SDF 的殘差。這種結(jié)構(gòu)既保證可見(jiàn)區(qū)域表面的靈活性,又確保了物體不可見(jiàn)區(qū)域的平滑性。
實(shí)驗(yàn)效果
物體的三維重建效果
主要實(shí)驗(yàn)結(jié)果展示
與其他物體級(jí)別的三維重建方法相比,O2-Recon 能重建出更準(zhǔn)確,更完整的三維結(jié)構(gòu),如上圖所示。其中 FroDO 是基于隱空間形狀編碼的方法,Scan2CAD 是基于數(shù)據(jù)庫(kù)檢索的方法,vMap 是利用 NeRF 做表面重建的方法,MonoSDF 是場(chǎng)景級(jí)別的三維重建方法。
動(dòng)圖對(duì)比
動(dòng)圖對(duì)比
動(dòng)圖對(duì)比
重建后物體的位置編輯
由于 O2-Recon 重建出的物體較為完整,我們可以對(duì)這些物體做大幅度的旋轉(zhuǎn)或平移,在編輯位置之后,從新的角度觀察這些物體,其表面質(zhì)量仍然不錯(cuò),如下圖所示。
在編輯之前,這些物體在原場(chǎng)景中的位置下:
多物體動(dòng)圖對(duì)比
在編輯之后,這些物體在新的位置下:
多物體動(dòng)圖對(duì)比
總結(jié)
本文提出了 O2-Recon 方法,來(lái)利用預(yù)訓(xùn)練的 2D 擴(kuò)散模型重建場(chǎng)景中被遮擋物體的完整 3D 幾何形狀。研究者利用擴(kuò)散模型對(duì)多視角 2D 圖像中的遮擋部分進(jìn)行補(bǔ)全,并從補(bǔ)全后的圖像利用神經(jīng)隱式表面重建 3D 物體。為了防止 Mask 的不一致性,研究者采用了一種人機(jī)協(xié)同策略,通過(guò)少量人機(jī)交互生成高質(zhì)量的多角度 Mask,有效地引導(dǎo) 2D 圖像補(bǔ)全過(guò)程。在神經(jīng)隱式表面的優(yōu)化過(guò)程中,研究者設(shè)計(jì)了一個(gè)級(jí)聯(lián)的網(wǎng)絡(luò)架構(gòu)來(lái)保證 SDF 的平滑性,并利用預(yù)訓(xùn)練的 CLIP 模型通過(guò)語(yǔ)義一致性損失監(jiān)督新視角。研究者在 ScanNet 數(shù)據(jù)集上的實(shí)驗(yàn)證明,O2-Recon 能夠?yàn)槿我忸?lèi)別的被遮擋物體重建出精確完整的 3D 表面。這些重建出的完整 3D 物體支持進(jìn)一步的編輯操作,如大范圍旋轉(zhuǎn)和平移。