開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
0. 這篇文章干了啥?
提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統(tǒng)的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。DepthFM效率高,可以在少數推理步驟內合成深度圖。
下面一起來閱讀一下這項工作~
1. 論文信息
標題:DepthFM: Fast Monocular Depth Estimation with Flow Matching
作者:Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Bj?rn Ommer
機構:MCML
原文鏈接:https://arxiv.org/abs/2403.13788
代碼鏈接:https://github.com/CompVis/depth-fm
官方主頁:https://depthfm.github.io/
2. 摘要
單目深度估計對于許多下游視覺任務和應用至關重要。當前針對此問題的判別式方法受到模糊偽影的限制,而最先進的生成方法由于其SDE性質而導致采樣速度緩慢。我們不是從噪聲開始,而是尋求從輸入圖像到深度圖的直接映射。我們觀察到這可以通過流匹配來有效地構建,因為其在解空間中的直線軌跡提供了效率和高質量。我們的研究表明,預先訓練的圖像擴散模型可以作為流匹配深度模型的充分先驗,從而只使用合成數據進行高效訓練,以推廣到真實圖像。我們發(fā)現,輔助表面法線損失進一步改善了深度估計。由于我們方法的生成性質,我們的模型可靠地預測其深度估計的置信度。在復雜自然場景的標準基準測試中,盡管僅在少量合成數據上進行訓練,我們的輕量級方法以有利的低計算成本表現出最先進的性能。
3. 效果展示
DepthFM是一種具有強零樣本泛化能力的快速推理流匹配模型,可以利用強大的先驗知識,并且很容易地泛化到未知的真實圖像中,而只在合成數據上進行訓練。
與其他最先進的模型相比,DepthFM僅用一個函數評估就獲得了明顯更清晰的圖像。Marigold的深度估計耗時是DepthFM的兩倍,但無法生成相同粒度的深度圖。
4. 主要貢獻
(1)提出了DepthFM,一種最先進的、多功能的、快速的單目深度估計模型。除了傳統(tǒng)的深度估計任務外,DepthFM還展示了在深度修補和深度條件圖像合成等下游任務中的最新能力。
(2)展示了將強大的圖像先驗從擴散模型成功轉移到流匹配模型,幾乎不依賴于訓練數據,也不需要真實世界的圖像。
(3)表明,流匹配模型高效,并能在單個推理步驟內合成深度圖。
(4)盡管僅在合成數據上進行訓練,但DepthFM在基準數據集和自然圖像上表現出色。
(5)將表面法線損失作為輔助目標,以獲得更準確的深度估計。
(6)除了深度估計,還可可靠地預測其預測的置信度。
5. 具體原理是啥?
訓練Pipeline。 訓練受到流匹配和表面法向損失的限制:對于流匹配,使用數據依賴的流匹配來回歸地面真實深度與對應圖像之間的向量場。此外,通過一個表面法向損失來實現幾何真實感。
數據相關的流匹配: DepthFM通過利用圖像到深度對,回歸出圖像分布和深度分布之間的直線向量場。這種方法在不犧牲性能的情況下促進了高效的幾步推理。
從擴散先驗微調: 作者展示了成功將強大的圖像先驗從基礎圖像合成擴散模型(Stable Diffusion v2-1)轉移到流匹配模型,幾乎不依賴訓練數據,并且不需要真實世界的圖像。
輔助表面法線損失: 考慮到DepthFM只在合成數據上進行訓練,大多數合成數據集提供了地面真實表面法線,將表面法線損失作為輔助目標,以增強DepthFM深度估計的準確性。
6. 實驗結果
DepthFM通過僅在63k純合成樣本上進行訓練展現出了顯著的泛化能力,并且能夠在室內外數據集上進行零-shot深度估計。表1定性地展示了DepthFM與最先進的對應模型的性能對比。雖然其他模型通常依賴于大量數據集進行訓練,但DepthFM利用了基于擴散的基礎模型中固有的豐富知識。這種方法不僅節(jié)省了計算資源,而且強調了模型的適應性和訓練效率。
對基于擴散的Marigold深度估計、流匹配(FM)基準和DepthFM模型進行比較。每種方法僅使用一個集合成員進行評估,并針對兩個常見基準數據集進行不同數量的函數評估(NFE)。與FM基準相比,DepthFM集成了訓練過程中的法線損失和數據相關的耦合。
對于Marigold和的DepthFM模型在不同數量的功能評估中的定性結果。值得注意的是,通過一步推斷,Marigold并沒有給出任何有意義的結果,而DepthFM的結果已經顯示了真實的深度圖。
在Hypersim上進行深度補全。左:給予部分深度。中:深度估計從給定的部分深度。右:真值深度。
7. 總結
DepthFM,一種用于單目深度估計的流匹配方法。通過學習輸入圖像和深度之間的直接映射,而不是將正態(tài)分布去噪為深度圖,該方法明顯比當前基于擴散的解決方案更高效,同時仍提供細粒度的深度圖,而不會出現判別式范式的常見偽影。DepthFM使用預先訓練好的圖像擴散模型作為先驗,有效地轉移到了深度流匹配模型中。因此,DepthFM只在合成數據上進行了訓練,但在推斷期間仍然能很好地推廣到自然圖像。此外,輔助表面法線損失已被證明能改善深度估計。DepthFM的輕量級方法具有競爭力,速度快,并提供可靠的置信度估計。
對更多實驗結果和文章細節(jié)感興趣的讀者,可以閱讀一下論文原文