橫掃16大榜單，最強開源單目深度估計算法來了，精度可以直接用于3D重建｜TPAMI 2024

作者：量子位 2024-08-19 09:17:00

人工智能新聞

用一套模型參數(shù)，在未知環(huán)境中，同時解決帶尺度深度估計和法向估計兩個問題。

單目深度估計新成果來了！

方法名為Metric3D v2，是CVPR單目深度估計挑戰(zhàn)賽冠軍方案Metric3D的加強版。

用一套模型參數(shù)，在未知環(huán)境中，同時解決帶尺度深度估計和法向估計兩個問題。

可用于生成真實世界的幾何估計：

在密集場景和特殊樣本上也有較好效果：

無需微調(diào)和優(yōu)化，可直接用于無人機感知：

無需調(diào)整尺度參數(shù)，提供單幀3D點云，其精度可以直接用于3D重建：

可部分替代物理深度估計工具，用于增強自動駕駛場景的單目SLAM：

Metric3D v2在16個單目深度和法向估計基準(zhǔn)榜單上拿下SOTA，涵蓋絕對深度、相對深度和法向估計的域內(nèi)和域外測試。

不做尺度對齊或微調(diào)，在KITTI上的單目深度估計相對誤差可低至5%。

這項工作由來自香港科技大學(xué)、阿德萊德大學(xué)、西湖大學(xué)、英特爾、香港大學(xué)、浙江大學(xué)的研究人員共同打造，目前已被AI頂刊TPAMI接收。

單目深度估計受限于尺度二義性

單目深度估計技術(shù)在計算機視覺領(lǐng)域具有重要意義。這項技術(shù)能從單幅2D圖像中推斷出場景的3D結(jié)構(gòu)，為眾多應(yīng)用提供了關(guān)鍵支持。

在傳統(tǒng)領(lǐng)域，單目深度估計廣泛應(yīng)用于自動駕駛、機器人導(dǎo)航、增強現(xiàn)實等場景，幫助智能系統(tǒng)更好地理解和交互環(huán)境。

隨著AIGC的興起，單目深度估計在這一新興領(lǐng)域也發(fā)揮著重要作用。它為3D場景生成、虛擬現(xiàn)實內(nèi)容制作、圖像編輯等任務(wù)提供了深度信息，大大提升了生成內(nèi)容的真實感和沉浸感。

通過賦予AI系統(tǒng)對3D世界的理解能力，單目深度估計正在推動AIGC應(yīng)用向更高維度發(fā)展。

但單目深度估計一直是一個“病態(tài)”問題，根本原因在于其受到尺度二義性的影響。

對單張圖像而言，尺度二義性來自于兩個方面：

其一是物體大小未知產(chǎn)生的二義性：

為解決這類問題，早期可泛化的深度估計模型如midas、leras等使用混合數(shù)據(jù)集訓(xùn)練深度估計網(wǎng)絡(luò)，希望模型從大量數(shù)據(jù)集中學(xué)到各個物體在場景中的大小。

然而，不同數(shù)據(jù)集相機內(nèi)參有很大差異，這種差異會引起第二種尺度二義性（有時又可視作透視畸變）：

同一個物體，使用不同相機在不同距離拍攝出的圖像也大致可能相同（下圖雕塑完全一致，但背景產(chǎn)生了畸變），因而對該物體的深度估計會受到影響.

早期的midas、leras等工作，提出估計相對深度來規(guī)避相機差異帶來的尺度二義性。

近期基于stable-diffusion的工作如Marigold/Geowizard或基于數(shù)據(jù)標(biāo)注的工作DepthAnything v1/v2能夠恢復(fù)更高精細度的相對深度，卻無法恢復(fù)尺度信息。

為恢復(fù)尺度信息，前人提出將預(yù)訓(xùn)練好的相對深度模型，在特定數(shù)據(jù)集上過擬合以學(xué)習(xí)尺度信息，如ZoeDepth。然而，該方法使得網(wǎng)絡(luò)學(xué)到的深度分布受限于所finetune的數(shù)據(jù)集，因而尺度誤差較大。

為緩解相機內(nèi)參變化引起的尺度二義性，Metric3D提出在公共相機空間中學(xué)習(xí)絕對深度。該空間被定義為一個焦距固定的針孔相機模型空間。

由于網(wǎng)絡(luò)不再受相機尺度二義性的影響，學(xué)習(xí)難度被大大降低了。

在符合透視投影幾何的前提下，論文提出兩種將數(shù)據(jù)從真實焦距轉(zhuǎn)換到公共焦距的方法。

圖像變換法（CSTM_image）：通過縮放圖像改變焦距的方法。
標(biāo)簽變換法（CSTM_label）: 拉伸或壓縮整個場景z軸深度的方法。

憑借公共相機空間的設(shè)計，Metric3D僅僅依靠卷積模型就在CVPR單目深度估計挑戰(zhàn)賽上獲得冠軍。

△算法框架：無須微調(diào)的有尺度深度估計；無須大量額外人工稠密重建的法向?qū)W習(xí)。

單目法向估計受限于數(shù)據(jù)質(zhì)量

深度圖可以直接由RGB-D相機，激光雷達等測距傳感器獲得。

然而，法向圖真值需要稠密重建點云的渲染，稠密重建本身需要大量工程和人工成本（如Omnidata）。同時，室外場景的法向數(shù)據(jù)尤其難以獲得。

在Metric3D v2這項研究中，引入了一種聯(lián)合深度-法線優(yōu)化框架，利用大規(guī)模深度標(biāo)注的知識，克服戶外法線數(shù)據(jù)標(biāo)簽稀缺的問題。

在聯(lián)合優(yōu)化中，法向的知識來源有三：真實法向標(biāo)注、迭代優(yōu)化中深度和法向特征的前向交互、稠密深度預(yù)測提供的偽法向標(biāo)注

具體來說算法流程為：

真實世界->公共空間：將圖像和深度標(biāo)簽從真實世界轉(zhuǎn)換到公共空間，使得圖像和深度圖滿足公共空間焦距的透視投影關(guān)系。
公共空間中估計幾何：網(wǎng)絡(luò)在公共空間預(yù)測初始深度圖和法向圖，并通過raft風(fēng)格的迭代優(yōu)化輸出最終深度圖和法向圖。訓(xùn)練過程中，使用公共空間的深度圖真值監(jiān)督深度估計。
公共空間->真實世界：將估計的深度圖轉(zhuǎn)回到真實世界，使之滿足實際投影關(guān)系。訓(xùn)練時，當(dāng)法向標(biāo)注不可得時，使用預(yù)測出的深度圖求梯度得到偽法向真值，以提供弱監(jiān)督。