自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

告別傳統(tǒng)單目視覺(jué)!Depth Anything v2超越10倍的精確深度估計(jì)!

人工智能 新聞
這項(xiàng)工作展示了Depth Anything V2, 在不追求技巧的情況下,該項(xiàng)研究的目標(biāo)是為建立一個(gè)強(qiáng)大的單目深度估計(jì)模型奠定基礎(chǔ)。

在單目深度估計(jì)研究中,廣泛使用的標(biāo)記真實(shí)圖像具有很多局限性,因此需要借助合成圖像來(lái)確保精度。為了解決合成圖像引起的泛化問(wèn)題,作者團(tuán)隊(duì)采用了數(shù)據(jù)驅(qū)動(dòng)(大規(guī)模偽標(biāo)記真實(shí)圖像)和模型驅(qū)動(dòng)(擴(kuò)大教師模型)的策略。同時(shí)在一個(gè)現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景中,展示了未標(biāo)記真實(shí)圖像的不可或缺的作用,證明“精確合成數(shù)據(jù)+偽標(biāo)記真實(shí)數(shù)據(jù)”比標(biāo)記的真實(shí)數(shù)據(jù)更有前景。最后,研究團(tuán)隊(duì)將可轉(zhuǎn)移經(jīng)驗(yàn)從教師模型中提煉到更小的模型中,這類似于知識(shí)蒸餾的核心精神,證明了偽標(biāo)簽蒸餾更加容易和安全。

01 摘要

這項(xiàng)工作展示了Depth Anything V2, 在不追求技巧的情況下,該項(xiàng)研究的目標(biāo)是為建立一個(gè)強(qiáng)大的單目深度估計(jì)模型奠定基礎(chǔ)。值得注意的是,與V1相比,這個(gè)版本通過(guò)三個(gè)關(guān)鍵實(shí)踐產(chǎn)生了更精細(xì),更強(qiáng)大的深度預(yù)測(cè):

●用合成圖像替換所有標(biāo)記的真實(shí)圖像;

●擴(kuò)大教師模型的能力;

●通過(guò)大規(guī)模偽標(biāo)記真實(shí)圖像的橋梁教授學(xué)生模型。

與建立在Stable Diffusion上最新的模型相比,Depth Anything v2的模型效率更高更準(zhǔn)確。作者提供不同規(guī)模的模型(從25M到1.3B參數(shù)),以支持廣泛的場(chǎng)景。得益于強(qiáng)大的泛化能力,研究團(tuán)隊(duì)使用度量標(biāo)簽對(duì)模型進(jìn)行微調(diào),以獲得度量深度模型。除了模型本身之外,考慮到當(dāng)前測(cè)試集的有限多樣性和頻繁的噪聲,研究團(tuán)隊(duì)構(gòu)建了一個(gè)具有精確注釋和多樣化場(chǎng)景的多功能評(píng)估基準(zhǔn),以方便未來(lái)的研究。

02 工作概述

單目深度估計(jì)(Monocular Depth Estimation,MDE)因其在廣泛的下游任務(wù)中的重要作用而受到越來(lái)越多的關(guān)注。精確的深度信息不僅在經(jīng)典應(yīng)用中是有利的,例如3D重建,導(dǎo)航和自動(dòng)駕駛,而且在其他生成場(chǎng)景中也是可應(yīng)用的。

從模型建構(gòu)方面來(lái)看,已有的MDE模型可以分為兩類,一類基于判別模型,另一類基于生成模型,從圖1的比較結(jié)果,Depthing Anything是更高效輕巧的。根據(jù)表1可得,Depth Anything V2可以實(shí)現(xiàn)復(fù)雜場(chǎng)景的可靠預(yù)測(cè),包括且不局限于復(fù)雜布局、透明對(duì)象、反射表面等;在預(yù)測(cè)的深度圖中包含精細(xì)的細(xì)節(jié),包括但不限于薄物體、小孔等;提供不同的模型規(guī)模和推理效率,以支持廣泛的應(yīng)用;具有足夠的可推廣性,可以轉(zhuǎn)移到下游任務(wù)。從Depth Anything v1出發(fā),研究團(tuán)隊(duì)推出v2,認(rèn)為最關(guān)鍵的部分仍然是數(shù)據(jù),它利用大規(guī)模未標(biāo)記的數(shù)據(jù)來(lái)加速數(shù)據(jù)擴(kuò)展并增加數(shù)據(jù)覆蓋率。研究團(tuán)隊(duì)進(jìn)一步構(gòu)建了一個(gè)具有精確注釋和多樣化場(chǎng)景的多功能評(píng)估基準(zhǔn)。

圖片▲圖1|Depthing Anything v2與其他模型比較??【深藍(lán)AI】編譯


▲表1|強(qiáng)大的單目深度估計(jì)模型的優(yōu)選特性??【深藍(lán)AI】編譯

重新審視Depth Anything V1標(biāo)記數(shù)據(jù)的設(shè)計(jì),如此大量的標(biāo)記圖像真的有利嗎?真實(shí)標(biāo)記的數(shù)據(jù)有2個(gè)缺點(diǎn):一個(gè)是標(biāo)簽噪聲,即深度圖中的標(biāo)簽不準(zhǔn)確。由于各種收集程序固有的局限性,真實(shí)標(biāo)記數(shù)據(jù)不可避免地包含不準(zhǔn)確的估計(jì),例如無(wú)法捕捉透明物體的深度,立體匹配算法以及SFM算法在處理動(dòng)態(tài)物體或異常值時(shí)受到的影響。另一個(gè)是細(xì)節(jié)忽略,一些真實(shí)數(shù)據(jù)通常會(huì)忽略深度圖中的某些細(xì)節(jié),例如樹(shù)和椅子的深度往往表示非常粗糙。為了克服這些問(wèn)題,研究者決定改變訓(xùn)練數(shù)據(jù),尋找具有最好注釋的圖像,專門(mén)利用具有深度信息的合成圖像進(jìn)行訓(xùn)練,廣泛檢查合成圖像的標(biāo)簽質(zhì)量。

合成圖像具有以下優(yōu)勢(shì):

●所有精細(xì)細(xì)節(jié)都會(huì)得到正確標(biāo)記,如圖2所示;

●可以獲得具有挑戰(zhàn)性的透明物體和反射表面的實(shí)際深度,如圖2中的花瓶。

圖片▲圖2|合成數(shù)據(jù)的深度??【深藍(lán)AI】編譯

但是合成數(shù)據(jù)仍然也具有以下局限性:

●合成圖像與真實(shí)圖像之間存在分布偏差。盡管當(dāng)前的圖像引擎力求達(dá)到照片級(jí)逼真的效果,但其風(fēng)格和顏色分布與真實(shí)圖像仍存在明顯差異。合成圖像的顏色過(guò)于“干凈”,布局過(guò)于“有序”,而真實(shí)圖像則包含更多隨機(jī)性;

●合成圖像的場(chǎng)景覆蓋范圍有限。它們是從具有預(yù)定義固定場(chǎng)景類型的圖形引擎迭代采樣的,例如“客廳”和“街景”。

因此在MDE中,從合成圖像到真實(shí)圖像的遷移并非易事。為了緩解泛化問(wèn)題,一些工作使用真實(shí)圖像和合成圖像的組合訓(xùn)練集,但是真實(shí)圖像的粗深度圖對(duì)細(xì)粒度預(yù)測(cè)具有破壞性。另一個(gè)潛在的解決方案是收集更多的合成圖像,但是這是不可持續(xù)的。因此,在本文中,研究者提出一個(gè)路線圖可以在不進(jìn)行任何權(quán)衡的情況下解決精確性和魯棒性困境,并且適用于任何模型規(guī)模。

圖片▲圖3|對(duì)不同視覺(jué)編碼器在合成到真實(shí)轉(zhuǎn)換方面的定性比較??【深藍(lán)AI】編譯

研究團(tuán)隊(duì)提出的解決方案是整合未標(biāo)記的真實(shí)圖像。團(tuán)隊(duì)最強(qiáng)大的MDE模型基于DINOV2-G,最初僅使用高質(zhì)量合成圖像進(jìn)行訓(xùn)練,然后它在未標(biāo)記的真實(shí)圖像上分配偽深度標(biāo)簽,最后僅使用大規(guī)模且精確的偽標(biāo)記圖像進(jìn)行訓(xùn)練。Depth Anything v1凸顯了大規(guī)模無(wú)標(biāo)記真實(shí)數(shù)據(jù)的重要性。針對(duì)合成標(biāo)記圖像的缺點(diǎn),闡述整合未標(biāo)記真實(shí)圖像的作用:

●彌補(bǔ)差距:由于分布偏移,直接從合成訓(xùn)練圖像轉(zhuǎn)移到真實(shí)測(cè)試圖像具有挑戰(zhàn)性。但是如果可以利用額外的真實(shí)圖像作為中間學(xué)習(xí)目標(biāo),這個(gè)過(guò)程將更加可靠。直觀地講,在對(duì)偽標(biāo)記真實(shí)圖像進(jìn)行明確訓(xùn)練后,模型可以更熟悉真實(shí)世界的數(shù)據(jù)分布。與手動(dòng)注釋的圖像相比,自動(dòng)生成的偽標(biāo)簽細(xì)粒度和完整度更高。

●增強(qiáng)場(chǎng)景覆蓋率:合成圖像的多樣性有限,沒(méi)有包含足夠的真實(shí)場(chǎng)景。然而可以通過(guò)合并來(lái)自公共數(shù)據(jù)集的大規(guī)模未標(biāo)記圖像輕松覆蓋大量不同的場(chǎng)景。此外,由于合成圖像是從預(yù)定義視頻中重復(fù)采樣的,因此確實(shí)非常冗余。相比之下,未標(biāo)記的真實(shí)圖像清晰可辨,信息量豐富。通過(guò)在足夠的圖像和場(chǎng)景上訓(xùn)練,模型不僅表現(xiàn)出更強(qiáng)的零樣本MDE能力,而且還可以作為下游相關(guān)任務(wù)更好的訓(xùn)練源。

●將經(jīng)驗(yàn)從最強(qiáng)大的模型轉(zhuǎn)移到較小的模型:如圖5所示,較小的模型本身無(wú)法直接從合成到真實(shí)的遷移中受益。然而,有了大規(guī)模未標(biāo)記的真實(shí)圖像,可以學(xué)習(xí)模仿更強(qiáng)大的模型的高質(zhì)量預(yù)測(cè),類似于知識(shí)蒸餾。

03 關(guān)鍵技術(shù)

圖片▲圖4|Depth Anything v2??【深藍(lán)AI】編譯

3.1 整體框架

基于以上分析,訓(xùn)練Depth Anything v2的流程如下:

●基于高質(zhì)量合成圖像訓(xùn)練基于DINOv2-G的可靠教師模型;

●在大規(guī)模未標(biāo)記的真實(shí)圖像上產(chǎn)生精確的偽深度;

●在偽標(biāo)記的真實(shí)圖像上訓(xùn)練最終的學(xué)生模型,實(shí)現(xiàn)穩(wěn)健的泛化。

研究團(tuán)隊(duì)發(fā)布4種學(xué)生模型,分別基于DINOv2的小型,基礎(chǔ),大型和巨型模型。

3.2 細(xì)節(jié)

如表2所示,使用5個(gè)精確合成的數(shù)據(jù)集和8個(gè)大規(guī)模偽標(biāo)記真實(shí)數(shù)據(jù)集進(jìn)行訓(xùn)練。與V1相同,對(duì)于每個(gè)偽標(biāo)記樣本,忽略top-n-largest-loss最大區(qū)域,n設(shè)為10%。同時(shí),模型可以產(chǎn)生仿射不變的逆深度,因?yàn)槟P褪褂?個(gè)損失項(xiàng)對(duì)標(biāo)記圖像進(jìn)行優(yōu)化,分別是平移不變損失和梯度匹配損失。其中梯度匹配損失在使用合成圖像時(shí),對(duì)深度清晰度優(yōu)化非常有效。在偽標(biāo)記圖像上,遵循V1添加額外的特征對(duì)齊損失,以保留來(lái)自預(yù)訓(xùn)練的DINOv2編碼器的信息語(yǔ)義。

▲表2|訓(xùn)練數(shù)據(jù)集??【深藍(lán)AI】編譯

3.3 DA-2K

考慮到已有噪聲數(shù)據(jù)的限制,該研究的目標(biāo)是構(gòu)建一個(gè)通用的相對(duì)單目深度估計(jì)評(píng)估基準(zhǔn)。該基準(zhǔn)可以:

●提供精確的深度關(guān)系;

●覆蓋廣泛的場(chǎng)景;

●包含大多數(shù)適合現(xiàn)代使用的高分辨率圖像。

事實(shí)上,人類很難標(biāo)注每個(gè)像素的深度,尤其是對(duì)于自然圖像,因此研究員為每個(gè)圖像標(biāo)注稀疏深度。通常,給定一幅圖像,可以選擇其中的2個(gè)像素,并確定它們之間的相對(duì)深度。

圖片▲圖5|DA-2K??【深藍(lán)AI】編譯

具體來(lái)說(shuō),可以采用2個(gè)不同的管道來(lái)選擇像素對(duì)。在第一個(gè)管道中,如圖5(a)所示,使用SAM自動(dòng)預(yù)測(cè)對(duì)象掩碼。但是可能存在模型預(yù)測(cè)的情況,引入第二個(gè)管道,仔細(xì)分析圖像并手動(dòng)識(shí)別具有挑戰(zhàn)性的像素對(duì)。DA-2K并不能取代當(dāng)前的基準(zhǔn),它只是作為準(zhǔn)確密集深度的先決條件。

04 實(shí)驗(yàn)

與Depth Anything v1一樣,使用DPT作為深度解碼器,并且基于DINO v2編碼器構(gòu)造。所有圖像均裁剪到518進(jìn)行訓(xùn)練,在合成圖像上訓(xùn)練教師模型時(shí),使用64的批處理大小進(jìn)行160k次迭代。在偽標(biāo)記真實(shí)圖像上訓(xùn)練的第三階段,該模型使用192的批處理大小進(jìn)行480k次迭代。使用Adam優(yōu)化器,分別將編碼器和解碼器的學(xué)習(xí)率設(shè)置為5e-5和5e-6。

圖片▲表3|零樣本深度估計(jì)??【深藍(lán)AI】編譯

圖片▲表4|DA-2K評(píng)估基準(zhǔn)上的性能??【深藍(lán)AI】編譯

如表3所示,結(jié)果優(yōu)于MiDaS,稍遜于V1。然而,v2本身是針對(duì)薄結(jié)構(gòu)進(jìn)行細(xì)粒度預(yù)測(cè),對(duì)復(fù)雜場(chǎng)景和透明物體進(jìn)行穩(wěn)健預(yù)測(cè)。這些維度的改進(jìn)無(wú)法正確反映在當(dāng)前的基準(zhǔn)測(cè)試中。而在DA-2K的測(cè)試上,即使是最小的模型也明顯優(yōu)于其他基于SD的大模型。提出的最大模型在相對(duì)深度辨別方面的準(zhǔn)確率比Margold高出10.6%.

圖片▲表5|將Depth Anything V2預(yù)訓(xùn)練編碼器微調(diào)至域內(nèi)度量深度估計(jì),即訓(xùn)練和測(cè)試圖像共享同一域。所有比較方法都使用接近ViT-L的編碼器大小??【深藍(lán)AI】編譯

如表5所示,將編碼器轉(zhuǎn)移到下游的度量深度估計(jì)任務(wù)上,在NYU-D和KITTI數(shù)據(jù)集上都比之前的方法取得了顯著改進(jìn),值得注意的是,即使是最輕量級(jí)的基于ViT-S的模型。

圖片▲表6|偽標(biāo)記真實(shí)圖像上的重要性??【深藍(lán)AI】編譯

如表6所示,消融實(shí)驗(yàn)證明了大規(guī)模偽標(biāo)記真實(shí)圖像的重要性。與僅使用合成圖像進(jìn)行訓(xùn)練相比,模型通過(guò)結(jié)合偽標(biāo)記真實(shí)圖像得到了極大的增強(qiáng)。

05 總結(jié)與未來(lái)展望

在本研究中,作者提出了Depth Anything v2,一種更強(qiáng)大的單目深度估計(jì)基礎(chǔ)模型。它能夠:

●提供穩(wěn)健且細(xì)粒度更大的深度預(yù)測(cè);

●支持具有各種模型大?。◤?5M到1.3B參數(shù))的廣泛應(yīng)用;

●可輕松微調(diào)到下游任務(wù),可以作為有效的模型初始化。

研究團(tuán)隊(duì)揭示了這項(xiàng)關(guān)鍵發(fā)現(xiàn),此外,考慮到現(xiàn)有測(cè)試集中多樣性弱,噪聲強(qiáng)的特點(diǎn),團(tuán)隊(duì)構(gòu)建了一個(gè)多功能評(píng)估基準(zhǔn)DA-2K,涵蓋具有精確且具有挑戰(zhàn)性的稀疏深度標(biāo)簽的各種高分辨率圖像。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-06-18 09:25:13

2024-04-03 09:28:25

數(shù)據(jù)訓(xùn)練

2024-02-01 09:46:04

模型數(shù)據(jù)

2024-06-28 16:03:38

2025-01-27 12:12:25

2009-11-11 10:09:47

Linux LiveLinux操作系統(tǒng)

2022-12-09 10:19:29

汽車行業(yè)數(shù)字化轉(zhuǎn)型

2024-06-28 09:15:31

2025-04-18 10:21:43

JavaScript開(kāi)發(fā)Date

2024-10-23 15:40:00

2016-09-05 17:32:22

2025-03-04 03:00:00

SSE模型AI

2010-08-05 17:00:04

RIP V2協(xié)議

2010-08-06 14:07:21

RIP V2

2019-11-13 09:30:45

區(qū)塊鏈比特幣加密貨幣

2023-11-29 20:24:45

數(shù)據(jù)可視化圖表

2024-03-13 13:49:22

Sora核心組件DiT

2024-12-04 09:15:00

AI模型

2024-05-30 11:53:26

2024-03-22 10:24:02

系統(tǒng)評(píng)估
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)