自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

橫掃16大榜單,最強開源單目深度估計算法來了,精度可以直接用于3D重建|TPAMI 2024

人工智能 新聞
用一套模型參數(shù),在未知環(huán)境中,同時解決帶尺度深度估計和法向估計兩個問題。

單目深度估計新成果來了!

方法名為Metric3D v2,是CVPR單目深度估計挑戰(zhàn)賽冠軍方案Metric3D的加強版。

用一套模型參數(shù),在未知環(huán)境中,同時解決帶尺度深度估計法向估計兩個問題。

可用于生成真實世界的幾何估計:

圖片

在密集場景和特殊樣本上也有較好效果:

無需微調(diào)和優(yōu)化,可直接用于無人機感知:

無需調(diào)整尺度參數(shù),提供單幀3D點云,其精度可以直接用于3D重建:

圖片

可部分替代物理深度估計工具,用于增強自動駕駛場景的單目SLAM:

Metric3D v2在16個單目深度和法向估計基準(zhǔn)榜單上拿下SOTA,涵蓋絕對深度、相對深度和法向估計的域內(nèi)和域外測試。

不做尺度對齊或微調(diào),在KITTI上的單目深度估計相對誤差可低至5%。

圖片
圖片

這項工作由來自香港科技大學(xué)、阿德萊德大學(xué)、西湖大學(xué)、英特爾、香港大學(xué)、浙江大學(xué)的研究人員共同打造,目前已被AI頂刊TPAMI接收。

圖片

單目深度估計受限于尺度二義性

單目深度估計技術(shù)在計算機視覺領(lǐng)域具有重要意義。這項技術(shù)能從單幅2D圖像中推斷出場景的3D結(jié)構(gòu),為眾多應(yīng)用提供了關(guān)鍵支持。

在傳統(tǒng)領(lǐng)域,單目深度估計廣泛應(yīng)用于自動駕駛、機器人導(dǎo)航、增強現(xiàn)實等場景,幫助智能系統(tǒng)更好地理解和交互環(huán)境。

隨著AIGC的興起,單目深度估計在這一新興領(lǐng)域也發(fā)揮著重要作用。它為3D場景生成、虛擬現(xiàn)實內(nèi)容制作、圖像編輯等任務(wù)提供了深度信息,大大提升了生成內(nèi)容的真實感和沉浸感。

通過賦予AI系統(tǒng)對3D世界的理解能力,單目深度估計正在推動AIGC應(yīng)用向更高維度發(fā)展。

但單目深度估計一直是一個“病態(tài)”問題,根本原因在于其受到尺度二義性的影響。

對單張圖像而言,尺度二義性來自于兩個方面:

其一是物體大小未知產(chǎn)生的二義性:

圖片

為解決這類問題,早期可泛化的深度估計模型如midas、leras等使用混合數(shù)據(jù)集訓(xùn)練深度估計網(wǎng)絡(luò),希望模型從大量數(shù)據(jù)集中學(xué)到各個物體在場景中的大小。

然而,不同數(shù)據(jù)集相機內(nèi)參有很大差異,這種差異會引起第二種尺度二義性(有時又可視作透視畸變)

同一個物體,使用不同相機在不同距離拍攝出的圖像也大致可能相同(下圖雕塑完全一致,但背景產(chǎn)生了畸變),因而對該物體的深度估計會受到影響.

圖片

早期的midas、leras等工作,提出估計相對深度來規(guī)避相機差異帶來的尺度二義性。

近期基于stable-diffusion的工作如Marigold/Geowizard或基于數(shù)據(jù)標(biāo)注的工作DepthAnything v1/v2能夠恢復(fù)更高精細度的相對深度,卻無法恢復(fù)尺度信息。

為恢復(fù)尺度信息,前人提出將預(yù)訓(xùn)練好的相對深度模型,在特定數(shù)據(jù)集上過擬合以學(xué)習(xí)尺度信息,如ZoeDepth。然而,該方法使得網(wǎng)絡(luò)學(xué)到的深度分布受限于所finetune的數(shù)據(jù)集,因而尺度誤差較大。

為緩解相機內(nèi)參變化引起的尺度二義性,Metric3D提出在公共相機空間中學(xué)習(xí)絕對深度。該空間被定義為一個焦距固定的針孔相機模型空間。

由于網(wǎng)絡(luò)不再受相機尺度二義性的影響,學(xué)習(xí)難度被大大降低了。

在符合透視投影幾何的前提下,論文提出兩種將數(shù)據(jù)從真實焦距轉(zhuǎn)換到公共焦距的方法。

  • 圖像變換法(CSTM_image):通過縮放圖像改變焦距的方法。
  • 標(biāo)簽變換法(CSTM_label): 拉伸或壓縮整個場景z軸深度的方法。

憑借公共相機空間的設(shè)計,Metric3D僅僅依靠卷積模型就在CVPR單目深度估計挑戰(zhàn)賽上獲得冠軍。

圖片

△算法框架:無須微調(diào)的有尺度深度估計;無須大量額外人工稠密重建的法向?qū)W習(xí)。

單目法向估計受限于數(shù)據(jù)質(zhì)量

深度圖可以直接由RGB-D相機,激光雷達等測距傳感器獲得。

然而,法向圖真值需要稠密重建點云的渲染,稠密重建本身需要大量工程和人工成本(如Omnidata)。同時,室外場景的法向數(shù)據(jù)尤其難以獲得。

在Metric3D v2這項研究中,引入了一種聯(lián)合深度-法線優(yōu)化框架,利用大規(guī)模深度標(biāo)注的知識,克服戶外法線數(shù)據(jù)標(biāo)簽稀缺的問題。

在聯(lián)合優(yōu)化中,法向的知識來源有三:真實法向標(biāo)注、迭代優(yōu)化中深度和法向特征的前向交互 、稠密深度預(yù)測提供的偽法向標(biāo)注

具體來說算法流程為:

  • 真實世界->公共空間:將圖像和深度標(biāo)簽從真實世界轉(zhuǎn)換到公共空間,使得圖像和深度圖滿足公共空間焦距的透視投影關(guān)系。
  • 公共空間中估計幾何:網(wǎng)絡(luò)在公共空間預(yù)測初始深度圖和法向圖,并通過raft風(fēng)格的迭代優(yōu)化輸出最終深度圖和法向圖。訓(xùn)練過程中,使用公共空間的深度圖真值監(jiān)督深度估計。
  • 公共空間->真實世界:將估計的深度圖轉(zhuǎn)回到真實世界,使之滿足實際投影關(guān)系。訓(xùn)練時,當(dāng)法向標(biāo)注不可得時,使用預(yù)測出的深度圖求梯度得到偽法向真值,以提供弱監(jiān)督。

圖片

為增強模型魯棒性,Metric3D v2在16個公開數(shù)據(jù)集共計16M張圖像上進行訓(xùn)練。這些數(shù)據(jù)集由超過10000種相機內(nèi)參采集,涵蓋室內(nèi)、室外、自動駕駛等多種場景。

然而,其所需的數(shù)據(jù)量仍遠遠小于訓(xùn)練DepthAnything v1/v2所需的62M。

圖片

Metric3D v2實驗結(jié)果

常規(guī)有尺度深度和法相估計的基準(zhǔn)測試,Metric3D v2超越DepthAnything和OmniData(v2)

圖片
圖片
圖片

相對深度估計基準(zhǔn)測試,量化指標(biāo)優(yōu)于最近在CVPR2024大放異彩的Marigold:

圖片

再來看定量比較。

1、多場景深度與法向估計

盡管Metric3D v2是判別式模型,但在一些場景下,其細粒度也可以和基于生成模型的Marigold平分秋色。

同時,由網(wǎng)絡(luò)預(yù)測出的法向圖比深度直接轉(zhuǎn)換所得的更加平滑。

圖片

對比其它基線方法ZoeDepth和OmniData(v2),Metric3D v2能給出更高細粒度的帶尺度深度和法向。

圖片
圖片

2、單目場景三維重建

即使像Marigold、DepthAnything v2這樣的高精度相對深度模型,也需要在特定數(shù)據(jù)上擬合、或手動挑選出一組合適的仿射參數(shù)后,才能得到三維點云。

圖片
圖片
圖片

3、單幀直接測距

Metric3Dv2模型具有更高精度的測距功能:

圖片

總的來說,Metric3D v2是一種用于零樣本單目有尺度深度和表面法線估計的幾何基礎(chǔ)模型。

論文針對真實尺度下幾何估計中的各種挑戰(zhàn),分別提出了解決方案。Metric3Dv2框架整合超過10000臺相機捕捉的上千萬數(shù)據(jù)樣本,訓(xùn)練一個統(tǒng)一的有尺度深度和表面法向模型。

零樣本評估實驗展示了方法的有效性和魯棒性。對于下游應(yīng)用,Metric3Dv2能夠從單一視角重建有尺度的三維結(jié)構(gòu),實現(xiàn)對隨機采集的互聯(lián)網(wǎng)圖像的測距和單幀稠密建圖。

憑借其精度、泛化能力和多功能性,Metric3D v2 模型可作為單目幾何感知的基礎(chǔ)模型。

在線試用: 

https://huggingface.co/spaces/JUGGHM/Metric3D

論文鏈接:https://arxiv.org/abs/2404.15506.pdf
項目主頁:https://jugghm.github.io/Metric3Dv2
代碼倉庫:https://github.com/YvanYin/Metric3D

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-03-06 14:57:13

火山引擎

2024-04-03 09:28:25

數(shù)據(jù)訓(xùn)練

2017-07-24 08:53:12

CVPR 2017論文單目圖像車輛

2023-04-14 09:59:01

傳感器智能

2025-01-26 10:19:21

2024-08-16 10:20:00

自動駕駛模型

2023-04-24 16:25:47

3D開發(fā)

2012-11-26 12:51:44

木材3D打

2021-06-22 15:56:24

人工智能深度語言開源

2021-06-02 06:24:05

計算機視覺3D無人駕駛

2024-04-30 08:28:44

開源大模型Llama

2024-04-23 07:00:00

2012-08-13 17:11:37

Silverlight

2011-08-26 14:50:23

2023-06-02 10:33:35

2023-08-11 15:20:54

深度學(xué)習(xí)醫(yī)學(xué)成像數(shù)據(jù)

2024-07-31 15:30:05

2022-09-13 15:19:48

3D網(wǎng)絡(luò)

2024-03-22 10:24:02

系統(tǒng)評估

2024-05-16 09:24:17

3D技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號