橫掃16大榜單,最強開源單目深度估計算法來了,精度可以直接用于3D重建|TPAMI 2024
單目深度估計新成果來了!
方法名為Metric3D v2,是CVPR單目深度估計挑戰(zhàn)賽冠軍方案Metric3D的加強版。
用一套模型參數(shù),在未知環(huán)境中,同時解決帶尺度深度估計和法向估計兩個問題。
可用于生成真實世界的幾何估計:
在密集場景和特殊樣本上也有較好效果:
無需微調(diào)和優(yōu)化,可直接用于無人機感知:
無需調(diào)整尺度參數(shù),提供單幀3D點云,其精度可以直接用于3D重建:
可部分替代物理深度估計工具,用于增強自動駕駛場景的單目SLAM:
Metric3D v2在16個單目深度和法向估計基準(zhǔn)榜單上拿下SOTA,涵蓋絕對深度、相對深度和法向估計的域內(nèi)和域外測試。
不做尺度對齊或微調(diào),在KITTI上的單目深度估計相對誤差可低至5%。
這項工作由來自香港科技大學(xué)、阿德萊德大學(xué)、西湖大學(xué)、英特爾、香港大學(xué)、浙江大學(xué)的研究人員共同打造,目前已被AI頂刊TPAMI接收。
單目深度估計受限于尺度二義性
單目深度估計技術(shù)在計算機視覺領(lǐng)域具有重要意義。這項技術(shù)能從單幅2D圖像中推斷出場景的3D結(jié)構(gòu),為眾多應(yīng)用提供了關(guān)鍵支持。
在傳統(tǒng)領(lǐng)域,單目深度估計廣泛應(yīng)用于自動駕駛、機器人導(dǎo)航、增強現(xiàn)實等場景,幫助智能系統(tǒng)更好地理解和交互環(huán)境。
隨著AIGC的興起,單目深度估計在這一新興領(lǐng)域也發(fā)揮著重要作用。它為3D場景生成、虛擬現(xiàn)實內(nèi)容制作、圖像編輯等任務(wù)提供了深度信息,大大提升了生成內(nèi)容的真實感和沉浸感。
通過賦予AI系統(tǒng)對3D世界的理解能力,單目深度估計正在推動AIGC應(yīng)用向更高維度發(fā)展。
但單目深度估計一直是一個“病態(tài)”問題,根本原因在于其受到尺度二義性的影響。
對單張圖像而言,尺度二義性來自于兩個方面:
其一是物體大小未知產(chǎn)生的二義性:
為解決這類問題,早期可泛化的深度估計模型如midas、leras等使用混合數(shù)據(jù)集訓(xùn)練深度估計網(wǎng)絡(luò),希望模型從大量數(shù)據(jù)集中學(xué)到各個物體在場景中的大小。
然而,不同數(shù)據(jù)集相機內(nèi)參有很大差異,這種差異會引起第二種尺度二義性(有時又可視作透視畸變):
同一個物體,使用不同相機在不同距離拍攝出的圖像也大致可能相同(下圖雕塑完全一致,但背景產(chǎn)生了畸變),因而對該物體的深度估計會受到影響.
早期的midas、leras等工作,提出估計相對深度來規(guī)避相機差異帶來的尺度二義性。
近期基于stable-diffusion的工作如Marigold/Geowizard或基于數(shù)據(jù)標(biāo)注的工作DepthAnything v1/v2能夠恢復(fù)更高精細度的相對深度,卻無法恢復(fù)尺度信息。
為恢復(fù)尺度信息,前人提出將預(yù)訓(xùn)練好的相對深度模型,在特定數(shù)據(jù)集上過擬合以學(xué)習(xí)尺度信息,如ZoeDepth。然而,該方法使得網(wǎng)絡(luò)學(xué)到的深度分布受限于所finetune的數(shù)據(jù)集,因而尺度誤差較大。
為緩解相機內(nèi)參變化引起的尺度二義性,Metric3D提出在公共相機空間中學(xué)習(xí)絕對深度。該空間被定義為一個焦距固定的針孔相機模型空間。
由于網(wǎng)絡(luò)不再受相機尺度二義性的影響,學(xué)習(xí)難度被大大降低了。
在符合透視投影幾何的前提下,論文提出兩種將數(shù)據(jù)從真實焦距轉(zhuǎn)換到公共焦距的方法。
- 圖像變換法(CSTM_image):通過縮放圖像改變焦距的方法。
- 標(biāo)簽變換法(CSTM_label): 拉伸或壓縮整個場景z軸深度的方法。
憑借公共相機空間的設(shè)計,Metric3D僅僅依靠卷積模型就在CVPR單目深度估計挑戰(zhàn)賽上獲得冠軍。
△算法框架:無須微調(diào)的有尺度深度估計;無須大量額外人工稠密重建的法向?qū)W習(xí)。
單目法向估計受限于數(shù)據(jù)質(zhì)量
深度圖可以直接由RGB-D相機,激光雷達等測距傳感器獲得。
然而,法向圖真值需要稠密重建點云的渲染,稠密重建本身需要大量工程和人工成本(如Omnidata)。同時,室外場景的法向數(shù)據(jù)尤其難以獲得。
在Metric3D v2這項研究中,引入了一種聯(lián)合深度-法線優(yōu)化框架,利用大規(guī)模深度標(biāo)注的知識,克服戶外法線數(shù)據(jù)標(biāo)簽稀缺的問題。
在聯(lián)合優(yōu)化中,法向的知識來源有三:真實法向標(biāo)注、迭代優(yōu)化中深度和法向特征的前向交互 、稠密深度預(yù)測提供的偽法向標(biāo)注
具體來說算法流程為:
- 真實世界->公共空間:將圖像和深度標(biāo)簽從真實世界轉(zhuǎn)換到公共空間,使得圖像和深度圖滿足公共空間焦距的透視投影關(guān)系。
- 公共空間中估計幾何:網(wǎng)絡(luò)在公共空間預(yù)測初始深度圖和法向圖,并通過raft風(fēng)格的迭代優(yōu)化輸出最終深度圖和法向圖。訓(xùn)練過程中,使用公共空間的深度圖真值監(jiān)督深度估計。
- 公共空間->真實世界:將估計的深度圖轉(zhuǎn)回到真實世界,使之滿足實際投影關(guān)系。訓(xùn)練時,當(dāng)法向標(biāo)注不可得時,使用預(yù)測出的深度圖求梯度得到偽法向真值,以提供弱監(jiān)督。
為增強模型魯棒性,Metric3D v2在16個公開數(shù)據(jù)集共計16M張圖像上進行訓(xùn)練。這些數(shù)據(jù)集由超過10000種相機內(nèi)參采集,涵蓋室內(nèi)、室外、自動駕駛等多種場景。
然而,其所需的數(shù)據(jù)量仍遠遠小于訓(xùn)練DepthAnything v1/v2所需的62M。
Metric3D v2實驗結(jié)果
常規(guī)有尺度深度和法相估計的基準(zhǔn)測試,Metric3D v2超越DepthAnything和OmniData(v2):
相對深度估計基準(zhǔn)測試,量化指標(biāo)優(yōu)于最近在CVPR2024大放異彩的Marigold:
再來看定量比較。
1、多場景深度與法向估計
盡管Metric3D v2是判別式模型,但在一些場景下,其細粒度也可以和基于生成模型的Marigold平分秋色。
同時,由網(wǎng)絡(luò)預(yù)測出的法向圖比深度直接轉(zhuǎn)換所得的更加平滑。
對比其它基線方法ZoeDepth和OmniData(v2),Metric3D v2能給出更高細粒度的帶尺度深度和法向。
2、單目場景三維重建
即使像Marigold、DepthAnything v2這樣的高精度相對深度模型,也需要在特定數(shù)據(jù)上擬合、或手動挑選出一組合適的仿射參數(shù)后,才能得到三維點云。
3、單幀直接測距
Metric3Dv2模型具有更高精度的測距功能:
總的來說,Metric3D v2是一種用于零樣本單目有尺度深度和表面法線估計的幾何基礎(chǔ)模型。
論文針對真實尺度下幾何估計中的各種挑戰(zhàn),分別提出了解決方案。Metric3Dv2框架整合超過10000臺相機捕捉的上千萬數(shù)據(jù)樣本,訓(xùn)練一個統(tǒng)一的有尺度深度和表面法向模型。
零樣本評估實驗展示了方法的有效性和魯棒性。對于下游應(yīng)用,Metric3Dv2能夠從單一視角重建有尺度的三維結(jié)構(gòu),實現(xiàn)對隨機采集的互聯(lián)網(wǎng)圖像的測距和單幀稠密建圖。
憑借其精度、泛化能力和多功能性,Metric3D v2 模型可作為單目幾何感知的基礎(chǔ)模型。
在線試用:
https://huggingface.co/spaces/JUGGHM/Metric3D
論文鏈接:https://arxiv.org/abs/2404.15506.pdf
項目主頁:https://jugghm.github.io/Metric3Dv2
代碼倉庫:https://github.com/YvanYin/Metric3D