自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ECCV 2024 | 單目深度估計(jì)的擴(kuò)散模型:克服挑戰(zhàn)性條件

人工智能 新聞
今天自動(dòng)駕駛之心為大家分享一篇基于單目深度估計(jì)的擴(kuò)散模型:克服挑戰(zhàn)性條件!

本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題:Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

論文鏈接:https://arxiv.org/pdf/2407.16698

代碼鏈接:https://github.com/fabiotosi92/Diffusion4RobustDepth

作者單位:博洛尼亞大學(xué)

圖片

論文思路:

本文提出了一種新穎的方法,旨在解決單張圖像深度估計(jì)任務(wù)中由挑戰(zhàn)性、分布外數(shù)據(jù)帶來的復(fù)雜性。首先,從那些由于沒有不利因素而便于深度預(yù)測的圖像開始,本文系統(tǒng)地生成包含全面挑戰(zhàn)和相關(guān)深度信息的用戶定義場景。這是通過利用具有深度感知控制的最前沿文本到圖像擴(kuò)散模型實(shí)現(xiàn)的,這些模型以生成高質(zhì)量圖像內(nèi)容而著稱,同時(shí)保持生成圖像與源圖像之間的3D結(jié)構(gòu)一致性。隨后,通過一種自蒸餾協(xié)議對任何單目深度網(wǎng)絡(luò)進(jìn)行微調(diào),該協(xié)議考慮到使用本文策略生成的圖像及其在簡單、無挑戰(zhàn)場景中的深度預(yù)測。針對本文的目的設(shè)計(jì)的基準(zhǔn)測試實(shí)驗(yàn)展示了本文提案的有效性和多功能性。

主要貢獻(xiàn):

  • 本文率先使用擴(kuò)散模型作為一種新穎的解決方案,解決單張圖像深度估計(jì)中的挑戰(zhàn),特別是涉及惡劣天氣條件和非朗伯面(non-Lambertian surfaces)場景的情況。
  • 通過蒸餾擴(kuò)散模型的知識,本文的方法提高了現(xiàn)有單目深度估計(jì)模型的魯棒性,尤其是在具有挑戰(zhàn)性的分布外環(huán)境中。
  • 本文的方法同時(shí)應(yīng)對惡劣天氣和非朗伯面挑戰(zhàn),展示了在實(shí)現(xiàn)與依賴額外訓(xùn)練信息的專門解決方案(如[18, 27])相媲美的結(jié)果的同時(shí),解決多個(gè)挑戰(zhàn)性場景的潛力。

論文設(shè)計(jì):

單目深度估計(jì)作為計(jì)算機(jī)視覺中的關(guān)鍵任務(wù),由于深度學(xué)習(xí)技術(shù)的最新突破而取得了顯著進(jìn)展。這在多個(gè)領(lǐng)域有著廣泛的應(yīng)用,從增強(qiáng)機(jī)器人技術(shù)和增強(qiáng)現(xiàn)實(shí)到提高自動(dòng)駕駛的安全性和精確度,特別是在由于資源或空間限制而無法依賴多張圖像進(jìn)行深度估計(jì)的情況下。然而,盡管單目深度估計(jì)在實(shí)際應(yīng)用中具有優(yōu)勢,但它面臨著從單張圖像推斷深度的挑戰(zhàn),這一問題被公認(rèn)為具有不良設(shè)定和嚴(yán)重欠約束的特性。通常,解決這一挑戰(zhàn)的方法包括通過監(jiān)督方法[9, 15, 46, 61, 93, 98, 101]訓(xùn)練單目深度網(wǎng)絡(luò),使用主動(dòng)傳感器的標(biāo)注數(shù)據(jù),或利用在訓(xùn)練時(shí)使用立體圖像對[29]或單目視頻序列[112]的自監(jiān)督技術(shù)。

最先進(jìn)的模型,如DPT [69]和較新的Depth Anything [96],結(jié)合了大量數(shù)據(jù)集的見解,每個(gè)數(shù)據(jù)集的深度標(biāo)注使用不同的技術(shù)提取。這種廣泛的訓(xùn)練協(xié)議使這些模型能夠在廣泛的現(xiàn)實(shí)場景中表現(xiàn)出色。然而,必須強(qiáng)調(diào)的是,即使這些模型在許多設(shè)置中表現(xiàn)優(yōu)異,當(dāng)處理遠(yuǎn)離訓(xùn)練期間觀察到的分布的數(shù)據(jù)時(shí),仍面臨顯著挑戰(zhàn),例如惡劣條件(如雨天和夜間)或具有非朗伯表面的物體。這些挑戰(zhàn)主要源于缺乏用于魯棒模型訓(xùn)練的高質(zhì)量標(biāo)注數(shù)據(jù),以及現(xiàn)有基于視覺的深度提取技術(shù)和主動(dòng)傳感器(如LiDAR、ToF、Kinect等)的局限性,這些技術(shù)在復(fù)雜環(huán)境中(如雨、雪或具有特定反射特性的材料)表現(xiàn)不佳。因此,在這些情況下的深度估計(jì)往往不可靠,對依賴準(zhǔn)確3D信息的后續(xù)應(yīng)用產(chǎn)生嚴(yán)重影響。通常,當(dāng)前的方法傾向于獨(dú)立解決這些挑戰(zhàn)。有些方法專注于解決光照不足和惡劣天氣的問題 [26, 27, 91],而另一些則處理非朗伯表面的問題 [18]。這些分散的方法突顯了需要一種統(tǒng)一的方法——一個(gè)能夠同時(shí)處理所有不利場景的單一框架,提供更魯棒和通用的解決方案。

在這項(xiàng)工作中,本文引入了最初為圖像合成設(shè)計(jì)的擴(kuò)散模型[20, 44],作為一種開創(chuàng)性的策略,以應(yīng)對那些位于通常用于訓(xùn)練深度估計(jì)模型的數(shù)據(jù)分布長尾部分的圖像所帶來的嚴(yán)峻挑戰(zhàn)。

基于具有多模態(tài)控制的文本到圖像擴(kuò)散模型的原理[56, 106],本文旨在創(chuàng)建一個(gè)多樣化的高度逼真的場景集合,這些場景準(zhǔn)確復(fù)制特定參考環(huán)境的3D結(jié)構(gòu),但有意地加入了各種不利因素。重要的是,這些條件完全是任意的,可以根據(jù)特定應(yīng)用的需求通過用戶定義的文本提示進(jìn)行定制。

更具體地說,本文的方法首先選擇那些最初描繪沒有與不利條件相關(guān)的復(fù)雜性的場景圖像。這些樣本可以從現(xiàn)有的現(xiàn)實(shí)世界數(shù)據(jù)集[17, 28, 57]中獲取,通過自定義集合收集,甚至可以使用生成模型[2, 59]生成。對于預(yù)選的圖像,本文采用任何現(xiàn)成的單目深度估計(jì)網(wǎng)絡(luò)來提供場景的初始3D表示。重要的是,這樣的模型可以在不同的大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,或者根據(jù)應(yīng)用需求定制到特定領(lǐng)域。

隨后,本文應(yīng)用文本到圖像擴(kuò)散模型,將最初簡單的圖像轉(zhuǎn)化為更復(fù)雜的圖像,同時(shí)保持相同的基礎(chǔ)3D場景結(jié)構(gòu)(即深度)。在結(jié)合復(fù)雜和簡單圖像后,用于3D數(shù)據(jù)生成的預(yù)訓(xùn)練深度網(wǎng)絡(luò)進(jìn)入微調(diào)階段。在此階段,本文將模型暴露于組合數(shù)據(jù)集,提供具有挑戰(zhàn)性的訓(xùn)練圖像及其在初始步驟中獲得的相應(yīng)深度圖。這一微調(diào)過程提升了單目網(wǎng)絡(luò)推斷深度的能力,使其能夠更好地處理不利環(huán)境,如圖1所示。

圖片

圖1:框架結(jié)果。從上到下分別為:源圖像、原始Depth Anything [96]的深度預(yù)測,以及本文微調(diào)版本的結(jié)果。

本節(jié)概述了本文的框架,如圖2所示,旨在改善在不利環(huán)境下的單目深度估計(jì)。假設(shè)在一個(gè)領(lǐng)域中不存在同時(shí)描繪簡單和復(fù)雜條件的圖像,本文的方法使用具有深度感知控制的擴(kuò)散模型將簡單樣本轉(zhuǎn)換為復(fù)雜樣本。隨后,本文通過自蒸餾和使用生成數(shù)據(jù)的尺度和偏移不變損失來微調(diào)預(yù)訓(xùn)練的單目深度網(wǎng)絡(luò)。

圖片

圖2:方法概述。左側(cè):圖像生成和自蒸餾。擴(kuò)散蒸餾數(shù)據(jù)(上):簡單圖像()和文本提示()輸入到條件擴(kuò)散模型中生成不利場景()。深度標(biāo)簽蒸餾(下):預(yù)訓(xùn)練網(wǎng)絡(luò)從簡單圖像()估計(jì)深度()。使用()對 進(jìn)行微調(diào),采用尺度和偏移不變損失。右側(cè):微調(diào)后的網(wǎng)絡(luò)在測試中處理從簡單到復(fù)雜場景的多樣化輸入。

圖片

圖3:生成圖像——天氣條件。(a-b):來自KITTI 2015 [54]的RGB圖像和深度圖。(c-f):由擴(kuò)散模型[56]生成的圖像,這些圖像由(b)中的深度圖和每個(gè)子圖中指示的文本提示條件生成。

圖片

圖4:生成圖像——ToM對象。從上到下分別為:來自Stable Diffusion [2]的簡單場景,來自Depth Anything [96]的深度圖,使用[56]生成的轉(zhuǎn)換場景。

實(shí)驗(yàn)結(jié)果:

圖片

圖5:定性結(jié)果。從上到下分別為:RGB圖像、原始模型預(yù)測的深度圖以及使用本文方法微調(diào)版本預(yù)測的深度圖。

圖片圖片圖片圖片圖片

總結(jié):

本文引入了一種開創(chuàng)性的單目深度估計(jì)訓(xùn)練范式,該范式利用擴(kuò)散模型來應(yīng)對分布外場景。通過將簡單樣本轉(zhuǎn)換為復(fù)雜樣本,本文生成了捕捉現(xiàn)實(shí)世界挑戰(zhàn)的多樣化數(shù)據(jù)。本文的微調(diào)協(xié)議增強(qiáng)了現(xiàn)有深度網(wǎng)絡(luò)的魯棒性和泛化能力,使其能夠在不需要特定域數(shù)據(jù)的情況下處理惡劣天氣和非朗伯表面??缍鄠€(gè)數(shù)據(jù)集和最先進(jìn)架構(gòu)的廣泛實(shí)驗(yàn)表明了本文方法的有效性和多功能性。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號