自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

速度提升10倍!Depth Anything V2:更魯棒精細的單目深度估計

人工智能 智能汽車
本文介紹了Depth Anything V2。不追求花哨的技術,而是旨在揭示關鍵發(fā)現,為構建強大的單目深度估計模型鋪平道路。

圖片

本文介紹了Depth Anything V2。不追求花哨的技術,而是旨在揭示關鍵發(fā)現,為構建強大的單目深度估計模型鋪平道路。值得注意的是,與V1相比,本版本通過三項關鍵實踐產生了更精細、更穩(wěn)健的深度預測:1) 將所有帶標簽的真實圖像替換為合成圖像;2) 擴大教師模型的容量;3) 通過大規(guī)模偽標簽真實圖像的橋梁來教授學生模型。與基于Stable Diffusion的最新模型相比,我們的模型在效率(速度快10倍以上)和準確性上都顯著提高。我們提供了不同規(guī)模(參數范圍從25M到1.3B)的模型,以支持廣泛的場景。得益于它們強大的泛化能力,我們使用度量深度標簽對其進行微調,以獲得我們的度量深度模型。除了我們的模型外,考慮到當前測試集的有限多樣性和頻繁噪聲,我們還構建了一個具有精確注釋和多樣化場景的多功能評估基準,以促進未來的研究。

圖片圖片

領域背景介紹

單目深度估計(MDE)正受到越來越多的關注,這得益于它在廣泛的下游任務中的基礎性作用。精確的深度信息不僅在經典應用中如3D重建、導航和自動駕駛中受到青睞,在現代場景中如AI生成的內容,包括圖像、視頻和3D場景中也備受關注。因此,最近出現了許多MDE模型,它們都能處理開放世界的圖像。

從模型架構的角度來看,這些工作可以分為兩組。一組基于判別模型,例如BEiT和DINOv2,而另一組則基于生成模型,例如Stable Diffusion(SD)。在圖2中,我們分別比較了兩類中的兩個代表性工作:作為判別模型的Depth Anything和作為生成模型的Marigold。可以很容易地觀察到,Marigold在建模細節(jié)方面更勝一籌,而Depth Anything對于復雜場景產生了更穩(wěn)健的預測。此外,如表1所示,Depth Anything比Marigold更高效且輕量級,并且有多種規(guī)模可供選擇。然而,與此同時,Depth Anything對透明物體和反射的敏感度較高,這卻是Marigold的優(yōu)勢所在。

在這項工作中,我們考慮到所有這些因素,旨在構建一個更加強大的單目深度估計基礎模型,該模型能夠實現表1中列出的所有優(yōu)勢:

? 為復雜場景產生穩(wěn)健的預測,包括但不限于復雜的布局、透明物體(如玻璃)、反射表面(如鏡子、屏幕)等。? 在預測的深度圖中包含精細的細節(jié)(與Marigold的細節(jié)相當),包括但不限于薄物體(如椅子腿)、小孔等。? 提供不同的模型規(guī)模和推理效率,以支持廣泛的應用。? 具有足夠的泛化能力,可以轉移到下游任務中(即進行微調)。

由于單目深度估計(MDE)本質上是一個判別任務,我們從Depth Anything V1出發(fā),旨在保持其優(yōu)勢并糾正其弱點。有趣的是,我們將展示,要實現這樣一個具有挑戰(zhàn)性的目標,并不需要開發(fā)復雜或高級的技術。最關鍵的部分仍然是數據。這確實與V1的數據驅動動機相同,它利用大規(guī)模未標記數據來加快數據擴展并增加數據覆蓋范圍。在這項工作中,將首先重新審視其標記數據設計,然后強調未標記數據的關鍵作用。

下面我們先提出三個關鍵發(fā)現。我們將在接下來的三個部分中詳細闡述它們。

問題1:MiDaS或Depth Anything的粗略深度是否來自判別建模本身?是否必須采用基于擴散的復雜建模方式來獲取精細細節(jié)?

回答1:不,高效的判別模型也可以產生極其精細的細節(jié)。最關鍵的修改是將所有標記的真實圖像替換為精確的合成圖像。

問題2:如果如回答1所述,合成圖像已經明顯優(yōu)于真實圖像,為什么大多數先前的工作仍然堅持使用真實圖像?

回答2:合成圖像有其缺點,這在以前的范式中并不容易解決。

問題3:如何避免合成圖像的缺點并放大其優(yōu)勢?

回答3:擴大僅使用合成圖像訓練的教師模型規(guī)模,然后通過大規(guī)模偽標記真實圖像的橋梁來教授(較小的)學生模型。

經過這些探索后,我們成功構建了一個更加強大的MDE基礎模型。然而,我們發(fā)現當前的測試集過于嘈雜,無法反映MDE模型的真實優(yōu)勢。因此進一步構建了一個具有精確注釋和多樣化場景的多功能評估基準。

重新審視Depth Anything V1的標記數據設計

在MiDaS在無監(jiān)督單目深度估計方面的開創(chuàng)性工作基礎上,近期研究傾向于構建更大規(guī)模的訓練數據集,以努力提升估計性能。值得注意的是,Depth Anything V1、Metric3D V1和V2,以及ZeroDepth,分別從不同來源收集了150萬、800萬、1600萬和1500萬張標記圖像用于訓練。然而,很少有研究對這一趨勢進行了批判性考察:如此大量的標記圖像真的有益嗎?

在回答這個問題之前,讓我們先深入探討真實標記圖像可能被忽視的缺點。真實標記數據的兩個缺點。1) 標簽噪聲,即深度圖中的不準確標簽。由于各種收集程序固有的限制,真實標記數據不可避免地包含不準確的估計。這種不準確可能由多種因素引起,例如深度傳感器無法準確捕獲透明物體的深度(圖3a),立體匹配算法對無紋理或重復模式的脆弱性(圖3b),以及SfM方法在處理動態(tài)對象或異常值時的敏感性(圖3c)。

圖片

2)忽略的細節(jié)。這些真實數據集往往忽略了其深度圖中的某些細節(jié)。如圖4a所示,樹和椅子的深度表示非常粗糙。這些數據集難以在目標邊界或薄孔內提供詳細的監(jiān)督,導致深度預測過度平滑,如圖4c的中間部分所示。因此,這些噪聲標簽非常不可靠,以至于學習到的模型也會犯類似的錯誤(圖3d)。例如,MiDaS和Depth Anything V1在透明表面挑戰(zhàn)中分別獲得了25.9%和53.5%的糟糕分數。

圖片

為了克服上述問題,決定改變我們的訓練數據,并尋求標記質量顯著更好的圖像。受到最近幾項基于合成數據(SD)的研究的啟發(fā),這些研究僅使用帶有完整深度信息的合成圖像進行訓練,我們廣泛檢查了合成圖像的標簽質量,并注意到它們有可能緩解上述討論的缺點。

合成圖像的優(yōu)勢。它們的深度標簽在兩個方面非常精確。1) 所有細節(jié)(例如,邊界、薄孔、小物體等)都被正確標記。如圖4b所示,即使是所有細小的網格結構和葉子都被標注了真實的深度。2) 我們可以獲取具有挑戰(zhàn)性的透明物體和反射表面的實際深度,例如圖4b中桌子上的花瓶。簡而言之,合成圖像的深度確實是“真實值”(Ground Truth)。在圖4c的右側,我們展示了在合成圖像上訓練的MDE模型的精細預測。此外,我們可以通過從圖形引擎中收集數據來快速擴大合成訓練圖像的數量,與真實圖像相比,這不會引起任何隱私或倫理問題。

使用合成數據的挑戰(zhàn)

如果合成數據如此有優(yōu)勢,為什么真實數據仍然在MDE中占據主導地位?在本節(jié)中,我們識別出合成圖像的兩個限制,這些限制阻礙了它們在現實中的輕松使用。

限制1. 合成圖像和真實圖像之間存在分布差異。盡管當前的圖形引擎努力追求逼真的效果,但它們的風格和顏色分布仍與真實圖像有顯著差異。合成圖像的顏色過于“干凈”,布局過于“有序”,而真實圖像則包含更多的隨機性。例如,比較圖4a和圖4b中的圖像,我們可以立即區(qū)分出合成圖像。這種分布差異使得模型很難從合成圖像轉移到真實圖像,即使這兩個數據源具有相似的布局。

限制2. 合成圖像的場景覆蓋范圍有限。它們是從圖形引擎中迭代采樣的,具有預定義的固定場景類型,例如“客廳”和“街道場景”。因此,盡管Hypersim或Virtual KITTI(如圖4b所示)具有驚人的精度,但我們不能期望在這些數據集上訓練的模型在現實世界場景(如“擁擠的人群”)中也能很好地泛化。相比之下,一些從網絡立體圖像(例如HRWSI)或單目視頻(例如MegaDepth)構建的真實數據集,可以覆蓋廣泛的現實世界場景。

因此,在MDE中從合成到真實的遷移并非易事。為了驗證這一說法,我們進行了一項初步研究,僅使用四種流行的預訓練編碼器(包括BEiT、SAM、SynCLR和DINOv2)在合成圖像上學習MDE模型。如圖5所示,只有DINOv2-G取得了令人滿意的結果。其他所有模型系列以及較小的DINOv2模型都存在嚴重的泛化問題。這項初步研究似乎為在MDE中使用合成數據提供了一個直接的解決方案,即基于最大的DINOv2編碼器,并依賴其固有的泛化能力。然而,這種簡單的解決方案面臨兩個問題。首先,當真實測試圖像的模式在合成訓練圖像中很少出現時,DINOv2-G經常遇到失敗的情況。在圖6中,我們可以清楚地觀察到天空(云)和人類頭部的深度預測錯誤。這種失敗是可以預料的,因為我們的合成訓練集不包括多樣化的天空模式或人類。此外,大多數應用無法從存儲和推理效率方面容納資源密集型的DINOv2-G模型(1.3B)。實際上,由于其實時速度,Depth Anything V1中的最小模型被使用得最廣泛。

圖片

為了緩解泛化問題,一些工作使用真實和合成圖像的混合訓練集。不幸的是,真實圖像的粗略深度圖對精細預測具有破壞性。另一個潛在的解決方案是收集更多的合成圖像,但這是不可持續(xù)的,因為創(chuàng)建模擬每個現實世界場景的圖形引擎是棘手的。因此,在使用合成數據構建MDE模型時,需要一個可靠的解決方案。在本文中,我們將彌補這一差距,并提出一個解決方案,該方案解決了精確性和魯棒性的兩難問題,無需任何折衷,并且適用于任何模型規(guī)模。

大規(guī)模未標注真實圖像的關鍵作用

我們的解決方案很直接:結合未標記的真實圖像。我們最強大的MDE模型,基于DINOv2-G,最初僅在高質量的合成圖像上進行訓練。然后,它給未標記的真實圖像分配偽深度標簽。最后,我們的新模型僅使用大規(guī)模且精確偽標記的圖像進行訓練。Depth Anything V1已經強調了大規(guī)模未標記真實數據的重要性。在這里,在我們特定的合成標記圖像背景下,將從三個角度更詳細地展示其不可或缺的作用。

彌合領域差異。如前所述,由于分布差異,直接從合成訓練圖像轉移到真實測試圖像是具有挑戰(zhàn)性的。但如果我們能利用額外的真實圖像作為中間學習目標,這個過程將更可靠。直觀地看,經過在偽標記的真實圖像上的明確訓練后,模型可以更加熟悉現實世界的數據分布。與手動標注的圖像相比,我們自動生成的偽標簽更加精細和完整,如圖17所示。

圖片

增強場景覆蓋。合成圖像的多樣性有限,沒有包含足夠的現實世界場景。然而,我們可以通過結合來自公共數據集的大規(guī)模未標記圖像來輕松覆蓋許多不同的場景。此外,由于合成圖像是從預定義的視頻中重復采樣得到的,因此它們確實非常冗余。相比之下,未標記的真實圖像則清晰可辨且非常具有信息性。通過訓練足夠的圖像和場景,模型不僅顯示出更強的零次學習MDE能力,而且它們還可以作為下游相關任務的更好預訓練源。

將最強大模型的知識轉移到較小的模型中。如圖5所示,較小的模型本身無法直接從合成到真實的遷移中受益。然而,借助大規(guī)模未標記的真實圖像,它們可以學習模仿最強大模型的高質量預測,類似于知識蒸餾。但不同的是,我們的蒸餾是在標簽級別上通過額外的未標記真實數據進行的,而不是在特征或邏輯級別上使用原始標記數據。這種做法更安全,因為有證據表明特征級別的蒸餾并不總是有益的,尤其是當教師-學生規(guī)模差距很大時。

Depth Anything V2

根據以上所有分析,我們訓練Depth Anything V2的最終流程已經很清晰(如圖7所示)。

圖片

它包含三個步驟:

  1. 僅基于高質量的合成圖像,訓練一個基于DINOv2-G的可靠教師模型。
  2. 在大規(guī)模未標注的真實圖像上生成精確的偽深度標簽。
  3. 使用偽標記的真實圖像訓練最終的學生模型以實現魯棒的泛化。

我們將發(fā)布四個學生模型,分別基于DINOv2的small, base, large, and giant版本。

如表7所示,我們使用了五個精確的合成數據集(595K張圖像)和八個大規(guī)模偽標記的真實數據集(62M張圖像)進行訓練。與V1相同,對于每個偽標記樣本,在訓練過程中忽略其損失最大的前n個區(qū)域,其中n設置為10%。我們認為這些區(qū)域是潛在的帶有噪聲的偽標簽。類似地,我們的模型生成仿射不變的逆深度。

在標注圖像上使用兩個損失項進行優(yōu)化:一個尺度和偏移不變損失Lssi和一個梯度匹配損失Lgm。這兩個目標函數并不是新的。但不同的是,我們發(fā)現當使用合成圖像時,Lgm對深度銳度非常有益。在偽標注的圖像上,遵循V1添加了一個額外的特征對齊損失,以保留來自預訓練的DINOv2編碼器的信息性語義。

圖片

新的評估基準:DA-2K

1)現有基準的局限性

圖8展示了NYU-D上對于鏡子和薄結構的錯誤標注,盡管使用了專門的深度傳感器。這種頻繁的標簽噪聲使得強大的MDE模型報告的指標不再可靠。除了標簽噪聲外,這些基準的另一個缺點是多樣性有限。它們中的大多數最初是為單一場景提出的。例如,NYU-D主要關注少數室內房間,而KITTI僅包含幾個街道場景。這些基準上的性能可能無法反映現實世界的可靠性。理想情況下,我們希望MDE模型能夠穩(wěn)健地處理任何未見過的場景。這些現有基準的最后一個問題是分辨率低。它們大多提供分辨率為500×500左右的圖像。但是,使用現代相機,我們通常需要對更高分辨率的圖像(例如1000×2000)進行精確的深度估計。目前尚不清楚從這些低分辨率基準得出的結論是否可以安全地轉移到高分辨率基準上。

2)DA-2K

考慮到上述三個限制,我們旨在構建一個通用的相對單目深度估計評估基準,該基準能夠:1) 提供精確的深度關系,2) 覆蓋廣泛的場景,以及3) 包含主要用于現代用途的高分辨率圖像。事實上,人為標注每個像素的深度是不切實際的,尤其是對于自然圖像。因此,遵循DIW,對每張圖像標注稀疏的深度對。一般來說,給定一張圖像,我們可以選擇其上的兩個像素,并確定它們之間的相對深度(即哪個像素更近)。

具體來說,我們采用兩種不同的流程來選擇像素對。在第一個流程中,如圖9a所示,我們使用SAM自動預測目標mask。我們并不直接使用這些mask,而是利用提示它們的關鍵點(像素)。隨機抽取兩個關鍵點,并查詢四個專家模型對它們的相對深度進行投票。如果有分歧,這一對將被發(fā)送給人類標注者來決定真正的相對深度。由于可能存在歧義,標注者可以跳過任何一對。然而,可能存在所有模型都錯誤預測具有挑戰(zhàn)性的像素對的情況,而這些對并未被標注出來。為了解決這個問題,我們引入了第二個流程,其中我們仔細分析圖像并手動識別具有挑戰(zhàn)性的像素對。

為了確保準確性,所有標注都由其他兩位標注者進行三重檢查。為了確保多樣性,首先總結了MDE的八個重要應用場景(圖9b),并請GPT4為每個場景生成相關的多樣化關鍵詞。然后,使用這些關鍵詞從Flickr下載相應的圖像。最后,我們總共對1K張圖像進行了標注,包含2K個像素對。

DA-2K的地位。盡管具有優(yōu)勢,但我們并不期望DA-2K取代當前的基準。準確的稀疏深度仍然遠未達到場景重建所需的精確密集深度。然而,DA-2K可以被認為是準確密集深度的先決條件。因此,我們認為DA-2K由于其廣泛的場景覆蓋和精確性,可以作為現有基準的有價值補充。它還可以作為用戶為DA-2K中涵蓋的特定場景選擇社區(qū)模型的快速前期驗證。最后,我們認為它也是未來多模態(tài)LLMs的3D感知能力的潛在測試平臺。

實驗對比

圖片圖片圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-07-19 10:14:13

2024-06-28 09:15:31

2024-02-01 09:46:04

模型數據

2024-06-28 16:03:38

2025-01-27 12:12:25

2024-04-03 09:28:25

數據訓練

2024-03-22 10:24:02

系統評估

2020-02-25 20:55:20

JavaScript開發(fā) 技巧

2024-06-18 09:43:26

2024-10-23 15:40:00

2024-08-16 10:20:00

自動駕駛模型

2024-03-19 14:43:17

自動駕駛激光

2020-07-22 08:30:02

代碼開發(fā)工具

2024-11-13 09:29:41

SpringCRaCCRIU

2010-08-05 17:00:04

RIP V2協議

2010-08-06 14:07:21

RIP V2

2023-11-01 13:15:13

單點端識別框架

2023-03-22 13:53:26

芯片英偉達

2011-07-01 10:11:39

點贊
收藏

51CTO技術棧公眾號