出手就是SOTA!擴散模型殺入部分監(jiān)督多任務(wù)預(yù)測領(lǐng)域!
文章鏈接:??https://arxiv.org/pdf/2403.13304??
當(dāng)前的感知模型嚴重依賴資源密集型數(shù)據(jù)集,促使我們需要創(chuàng)新性的解決方案。利用最新的擴散模型和合成數(shù)據(jù),通過從各種標(biāo)注構(gòu)建圖像輸入,對下游任務(wù)非常有益。盡管先前的方法分別解決了生成和感知模型的問題,但DetDiffusion首次將兩者結(jié)合起來,解決了為感知模型生成有效數(shù)據(jù)的挑戰(zhàn)。
為了增強感知模型與圖像生成的質(zhì)量,本文引入了感知損失(P.A.損失),通過分割改進了質(zhì)量和可控性。為了提高特定感知模型的性能,DetDiffusion通過提取和利用在生成過程中perception-aware屬性(P.A.屬性)來定制數(shù)據(jù)增強。目標(biāo)檢測任務(wù)的實驗結(jié)果突顯了DetDiffusion的優(yōu)越性能,在布局引導(dǎo)生成方面建立了新的SOTA。此外,來自DetDiffusion的圖像合成可以有效地增強訓(xùn)練數(shù)據(jù),顯著提高了下游檢測性能。
效果先睹為快
介紹
當(dāng)前感知模型的有效性嚴重依賴于廣泛且準(zhǔn)確標(biāo)注的數(shù)據(jù)集。然而,獲取這樣的數(shù)據(jù)集通常需要大量資源。最近生成模型的進展,特別是擴散模型,使得生成高質(zhì)量圖像成為可能,從而為構(gòu)建合成數(shù)據(jù)集鋪平了道路。通過提供諸如類別標(biāo)簽、分割圖和目標(biāo)邊界框等標(biāo)注,已經(jīng)證明了用于生成模型的合成數(shù)據(jù)對提高下游任務(wù)(例如分類、目標(biāo)檢測和分割)的性能是有用的。
盡管大多數(shù)方法專注于分別改進生成模型或感知模型,但生成模型和感知模型之間的協(xié)同作用需要更緊密的整合,以相互增強生成和感知能力。在感知模型中,挑戰(zhàn)在于有效的數(shù)據(jù)生成或增強,這是一個以前主要從數(shù)據(jù)角度(例如OoD泛化和域自適應(yīng))探討的話題。其在一般情況下提高感知模型性能的潛力尚未充分探索。相反,生成模型研究一直致力于改進模型以獲得更好的輸出質(zhì)量和可控性。然而,必須認識到感知模型也可以提供有價值的額外見解,以幫助生成模型實現(xiàn)更好的控制能力。生成模型和感知模型之間的這種協(xié)同作用為進步提供了一個有前景的途徑,這表明需要更多的整合方法。
作為首個探索這種協(xié)同作用的工作,本文提出了一種新穎的感知生成框架,即DetDiffusion,如下圖1所示。
DetDiffusion使生成模型能夠利用來自感知模型的信息,從而增強其進行受控生成的能力。同時,它根據(jù)感知模型的能力有針對性地生成數(shù)據(jù),從而提高了模型在合成數(shù)據(jù)上訓(xùn)練的性能。
具體而言,對于目標(biāo)檢測任務(wù),基于Stable Diffusion對模型進行微調(diào),利用受控生成技術(shù)生成高質(zhì)量數(shù)據(jù),有助于訓(xùn)練檢測模型。為提高生成質(zhì)量,創(chuàng)新性地引入了感知損失。通過引入基于UNet的分割模塊,利用中間特征與標(biāo)簽真值一起監(jiān)督生成的內(nèi)容,以增強可控性。
此外,為進一步提高檢測模型的性能,提出從經(jīng)過訓(xùn)練的檢測模型中提取和使用目標(biāo)屬性,然后將這些屬性納入生成模型的訓(xùn)練中。這種方法能夠生成專門定制的新數(shù)據(jù),以產(chǎn)生獨特樣本,從而顯著提高檢測器的性能。
經(jīng)過實驗證實,DetDiffusion在生成質(zhì)量方面取得了新的SOTA,在COCO-Stuff數(shù)據(jù)集上達到了31.2的mAP。它顯著增強了檢測器的訓(xùn)練,通過在訓(xùn)練中策略性地使用Perception-Aware屬性(P.A. Attr),將mAP提高了0.9 mAP。這在很大程度上是因為DetDiffusion在解決長尾數(shù)據(jù)生成挑戰(zhàn)方面的精細控制。這些進展突顯了DetDiffusion在技術(shù)上的優(yōu)越性,并標(biāo)志著在受控圖像生成方面的重大進步,特別是在精確檢測屬性至關(guān)重要的情況下。
本文的主要貢獻包括三個方面:
- 提出了DetDiffusion,這是第一個旨在探索感知模型和生成模型之間協(xié)同作用的框架。
- 為提高生成質(zhì)量,提出了一種基于分割和目標(biāo)mask的感知損失。為了進一步提高合成數(shù)據(jù)在感知模型中的有效性,并在生成過程中引入了目標(biāo)屬性。
- 對目標(biāo)檢測任務(wù)的廣泛實驗表明,DetDiffusion不僅在COCO數(shù)據(jù)集上的布局引導(dǎo)生成方面取得了新的SOTA,還有效地提升了下游檢測器的性能。
相關(guān)工作
擴散模型。擴散模型作為一種生成模型,經(jīng)過從圖像分布到高斯噪聲分布的前向變換后,被訓(xùn)練學(xué)習(xí)反向去噪過程。這些模型可以采用馬爾可夫過程或非馬爾可夫過程。由于它們在處理各種形式的控制和多種條件方面的適應(yīng)性和能力,擴散模型已經(jīng)應(yīng)用于各種條件生成任務(wù),例如圖像變異、文本到圖像生成、像素級別的受控生成等。這些模型的一個顯著變種是潛在擴散模型(LDM)。與傳統(tǒng)的擴散模型不同,LDM在潛在空間中進行擴散過程,提高了模型的效率。我們的感知數(shù)據(jù)生成框架基于LDM。然而,關(guān)注于生成模型和感知模型之間的協(xié)同作用,提出了一些設(shè)計來同時改善生成質(zhì)量和可控性,以及在下游任務(wù)中的性能。
布局到圖像(L2I)生成。本文的方法著重于將高層次的圖形布局轉(zhuǎn)換成逼真的圖像。在這個背景下,LAMA實現(xiàn)了一個局部感知mask適應(yīng)模塊,以改進圖像生成過程中的目標(biāo)mask處理。Taming顯示,一個相對簡單的模型可以通過在潛在空間中訓(xùn)練超越更復(fù)雜的前輩模型。更近期的發(fā)展包括GLIGEN,它將額外的門控自注意力層整合到現(xiàn)有的擴散模型中,以增強布局控制;LayoutDiffuse則采用了為邊界框量身定制的創(chuàng)新布局注意力模塊。生成模型與GeoDiffusion和Geom-Erasing具有類似的架構(gòu),而DetDiffusion側(cè)重于生成和感知之間的協(xié)同作用,并獨特地提供了以下兩點:
- 利用分割頭信息的新型Perception-Aware損失(P.A. loss);
- 一種新穎的目標(biāo)屬性機制(P.A. Attr),有助于目標(biāo)檢測器的訓(xùn)練。
感知模型的數(shù)據(jù)生成。在一些L2I方法中,合成數(shù)據(jù)對提升目標(biāo)檢測任務(wù)性能的效用得到了證明,例如GeoDiffusion。類似地,MagicDrive提出生成的圖像有助于3D感知,而TrackDiffusion為多目標(biāo)跟蹤生成數(shù)據(jù)。然而,它們沒有探索使用感知模型增強生成,或為特定檢測器量身定制數(shù)據(jù)。除了可控生成之外,一些工作通過從生成特征中提取標(biāo)注將生成器轉(zhuǎn)換為感知模型。DatasetDM使用了類似Mask2Former風(fēng)格的P-decoder與Stable Diffusion,而Li等人開發(fā)了一個用于開放詞匯分割的融合模塊。盡管這些技術(shù)能夠產(chǎn)生帶有標(biāo)注的數(shù)據(jù),但它們受限于對基于文本的生成的依賴、對預(yù)訓(xùn)練擴散模型的限制以及與專門模型(如SAM)相比的性能較低。
方法
本文的目標(biāo)是從感知的角度提高生成質(zhì)量,并促進下游的感知任務(wù)。在解決這一具有挑戰(zhàn)性的問題中,設(shè)計適當(dāng)而強有力的監(jiān)督非常重要,提議將易于訪問但以前被忽視的感知信息,即Perception-Aware屬性(P.A. Attr)和損失(P.A. loss),集成到生成框架中,以促進感知模型和生成模型之間的信息交互。首先介紹了預(yù)備知識,并詳細展開了Perception-Aware屬性(P.A. Attr),該屬性通過目標(biāo)檢測器生成,并設(shè)計為特殊的標(biāo)注以輔助擴散模型。再介紹了一個量身定制的Perception-Aware損失(P.A. loss)。整體架構(gòu)如下圖2所示。
預(yù)備知識
擴散模型(DMs)已經(jīng)成為突出的文本到圖像生成模型,以其在生成逼真圖像方面的有效性而聞名。一個顯著的變體,潛在擴散模型(LDM),將標(biāo)準(zhǔn)DMs的擴散過程創(chuàng)新地轉(zhuǎn)移到潛在空間中。這種轉(zhuǎn)變是重要的,因為LDMs表現(xiàn)出了保持原始模型質(zhì)量和靈活性的能力,但計算資源需求大大降低。這種效率的提升主要歸功于潛在空間維度的降低,這有助于更快的訓(xùn)練時間,而不影響模型的生成能力。
這個方程代表了原始噪聲ε和模型預(yù)測的噪聲之間的均方誤差,概括了Stable Diffusion模型的核心學(xué)習(xí)機制。
作為條件輸入的Perception-Aware屬性
為了增強檢測模型的性能,本研究引入了一種圍繞生成Perception-Aware逼真圖像的新方法。該方法涉及一個兩步過程:首先,從預(yù)訓(xùn)練的檢測器中提取目標(biāo)屬性。這些屬性封裝了對準(zhǔn)確目標(biāo)檢測至關(guān)重要的關(guān)鍵視覺特征。隨后,將提取的屬性集成到生成模型的訓(xùn)練方案中。這種集成旨在確保生成的圖像不僅表現(xiàn)出很高的逼真度,而且與對于有效檢測至關(guān)重要的感知標(biāo)準(zhǔn)密切對齊。通過這樣做,生成模型被定制為生成更有助于訓(xùn)練穩(wěn)健檢測器的圖像,可能會顯著提高檢測準(zhǔn)確性和可靠性。
此外,與現(xiàn)有方法[26, 52]使用標(biāo)題作為文本提示相比,我們設(shè)計了一個有效的文本提示,配備了多對Perception-Aware屬性。具體而言,提示是“一張帶有{目標(biāo)}的圖像”,其中目標(biāo)是,m是真實邊界框的數(shù)量。這個全面的屬性集和有效的提示旨在概括對每個目標(biāo)特征的更全面理解,可能為感知提供更豐富的描述。
Perception-Aware損失作為監(jiān)督
在訓(xùn)練擴散生成模型時,目標(biāo)是最小化預(yù)測圖像(或噪聲)與其真值之間的重構(gòu)距離。傳統(tǒng)的生成方法主要利用L1或L2損失來實現(xiàn)這一目的。然而,這些標(biāo)準(zhǔn)損失函數(shù)通常不能產(chǎn)生具有高分辨率細節(jié)和對圖像屬性具有精確控制的圖像。為了解決這一限制,提出了一種新穎的Perception-Aware損失(P.A. loss)。該損失函數(shù)的構(gòu)建是為了利用豐富的視覺特征,從而促進更加細致的圖像重構(gòu)。
目標(biāo)函數(shù)。最終,目標(biāo)函數(shù)將Perception-Aware損失與Latent Diffusion Model(LDM)的基本損失函數(shù)相結(jié)合。這個整合在數(shù)學(xué)上表示為:
為了這個模型,λ 被設(shè)定為 0.01,確保了對Perception-Aware組件的平衡整合,同時保持了 LDM 損失函數(shù)的主要結(jié)構(gòu)和目標(biāo)。這種校準(zhǔn)的方法允許對優(yōu)化進行細微調(diào)整,充分利用了兩種損失的優(yōu)勢,從而提高了模型生成高質(zhì)量、與感知對齊的圖像的性能。
實驗
實驗設(shè)置
數(shù)據(jù)集。采用了廣泛認可的 COCO-Thing-Stuff 基準(zhǔn)數(shù)據(jù)集用于 L2I 任務(wù),該數(shù)據(jù)集包括 118,287 張訓(xùn)練圖像和 5,000 張驗證圖像。每張圖像都標(biāo)注有 80 個目標(biāo)類別和 91 個材料類別的邊界框和像素級分割mask。與先前的研究 [7, 9, 52] 保持一致,忽略了屬于人群或占據(jù)圖像面積不到 2% 的目標(biāo)。
實現(xiàn)細節(jié)。從 Stable Diffusion v1.5 的checkpoint微調(diào) DetDiffusion。將位置tokens引入文本編碼器,并使用二維正弦-余弦嵌入初始化位置tokens的嵌入矩陣。在固定 VQ-VAE 的情況下,微調(diào)文本編碼器的所有參數(shù),并使用余弦學(xué)習(xí)率調(diào)度的 AdamW 優(yōu)化器,學(xué)習(xí)率為 。在前 3000 步采用線性預(yù)熱。文本提示被替換為空文本,以 10% 的概率進行無條件生成。模型在 8×32GB GPU 上進行訓(xùn)練,批量大小為 32,大約需要 20 小時進行 60 個時期的訓(xùn)練。我們使用 DPM-Solver 調(diào)度程序進行 50 步采樣,CFG 為 3.5。
屬性應(yīng)用策略。在訓(xùn)練過程完成后,可以靈活地在生成過程中應(yīng)用Perception-Aware屬性(P.A. Attr)。為了簡單而有效的驗證目的,我們在下圖3中采用了三種屬性策略:
主要結(jié)果
L2I 生成要求生成的目標(biāo)盡可能與原始圖像一致,同時確保高質(zhì)量的圖像生成。因此,首先全面分析保真度實驗。此外,生成目標(biāo)檢測數(shù)據(jù)的一個重要目的是其適用于下游目標(biāo)檢測。接下來展示了可訓(xùn)練性實驗。
保真度
設(shè)置。為了評估保真度,在 COCO-Thing-Stuff 驗證集上利用兩個主要指標(biāo)。Fréchet Inception 距離(FID)評估生成圖像的整體視覺質(zhì)量。它使用 ImageNet 預(yù)訓(xùn)練的 Inception-V3 網(wǎng)絡(luò)來測量真實圖像和生成圖像之間特征分布的差異。在 LAMA 中的 YOLO Score使用生成圖像上 80 個目標(biāo)類別邊界框的平均精度(mAP)。它使用預(yù)訓(xùn)練的 YOLOv4 模型來實現(xiàn),展示了生成模型中目標(biāo)檢測的精度。我們的模型在圖像尺寸為 256×256 上進行訓(xùn)練。與先前的工作一樣,我們利用包含 3 到 8 個目標(biāo)的圖像,在驗證期間共有 3,097 張圖像。
結(jié)果。在 COCO-Thing-Stuff 驗證集上使用了三種屬性策略來評估我們的模型,并將它們與 L2I 任務(wù)的最新模型進行了比較,例如 LostGAN、LAMA、TwFA、Frido、LayoutDIffuse、LayoutDiffusion、Reco、GLIGEN、GeoDiffusion 和 ControlNet。
可訓(xùn)練性
設(shè)置。本節(jié)探討了使用 DetDiffusion 生成的圖像來訓(xùn)練目標(biāo)檢測器的潛在優(yōu)勢??捎?xùn)練性的評估包括使用預(yù)先訓(xùn)練的 L2I 模型從原始標(biāo)注創(chuàng)建新的合成訓(xùn)練集。然后,使用原始和合成訓(xùn)練集來訓(xùn)練檢測器。
COCO 可訓(xùn)練性。為了建立可靠的基線,利用 COCO2017 數(shù)據(jù)集,選擇性地選擇包含 3 到 8 個目標(biāo)的圖像,以提高合成圖像的質(zhì)量并保持保真度。該過程產(chǎn)生了一個包含 47,429 張圖像和 210,893 個目標(biāo)的訓(xùn)練集。我們的目標(biāo)是展示 DetDiffusion 可以為下游任務(wù)帶來的改進,同時保持不同模型比較的固定標(biāo)注。為了提高訓(xùn)練效率并專注于數(shù)據(jù)質(zhì)量對訓(xùn)練的影響的評估,采用了修改后的 1× 計劃,將訓(xùn)練周期縮短為 6 個epoch。DetDiffusion 在調(diào)整到 800×456 的圖像上進行訓(xùn)練,這是其支持的最大分辨率,以解決與 COCO 的分辨率差異。
結(jié)果。如下表2 所示,ReCO、GeoDiffusion和我們的三種策略都有助于下游檢測器的訓(xùn)練,通過這些策略生成的合成圖像對檢測器的提升更為顯著(超過 35.0 mAP)。此外,與“origin”策略相比,“hard”策略在所有檢測器指標(biāo)上展現(xiàn)了最大的改進。這歸因于“hard”策略通過生成更具挑戰(zhàn)性的實例,這些實例通常代表真實數(shù)據(jù)集中的長尾數(shù)據(jù),或者作為更強大的數(shù)據(jù)增強形式??偟膩碚f,我們模型生成的數(shù)據(jù)顯著增強了下游檢測器的訓(xùn)練,超過了所有其他 L2I 模型,并表明通過感知獲得的信息可以進一步有益于下游訓(xùn)練。
為了驗證在相同的訓(xùn)練成本下的訓(xùn)練效果,繪制了訓(xùn)練損失曲線和驗證 mAP 曲線,分別在 圖6a 和 6b 中。我們的 DetDiffusion 在整個訓(xùn)練過程中表現(xiàn)最佳。
在下表 3 中展示了更多關(guān)于可訓(xùn)練性的結(jié)果,重點關(guān)注 COCO 數(shù)據(jù)集中較少出現(xiàn)的類別,如停車計時器、剪刀和微波爐,每個類別在數(shù)據(jù)集中的占比都不到 0.2%??梢钥吹?,我們的 hard 策略在所有類別上都取得了收益,尤其是長尾類別方面取得了顯著的改進。
定性結(jié)果
保真度。 下圖4展示了驗證我們模型在圖像生成中的忠實度和準(zhǔn)確性的示例。LayoutDiffusion的混亂結(jié)果源于其額外的控制模塊與擴散過程的沖突。依賴高質(zhì)量字幕的ReCo經(jīng)常遭受質(zhì)量降低和遺漏細節(jié)的困擾。GLlGEN和ControlNet,盡管輸出質(zhì)量很高,但缺乏精確的目標(biāo)監(jiān)督,導(dǎo)致細節(jié)不足和目標(biāo)數(shù)量不穩(wěn)定。我們對P.A.損失和P.A.屬性的實現(xiàn)增強了目標(biāo)質(zhì)量,確保了一致的數(shù)量和受控的生成,如與P.A.屬性對齊的生成目標(biāo)數(shù)量所反映的那樣。
簡單與困難。 在下圖5中,展示了perception-aware attribute(P.A. Attr)的選擇,比較了“簡單”和“困難”的實例。通過大象、馬、顯示器和鍵盤等示例來說明“簡單”圖像,這些圖像著重展示了內(nèi)在的目標(biāo)特征,確保了清晰度和缺乏噪音。相反,“困難”示例,如帶長牙的大象、馬鞍上的馬、昏暗的顯示器和反光的鼠標(biāo),引入了額外的元素,通過遮擋、光照和其他復(fù)雜性引入噪音。這些屬性使得目標(biāo)識別更具挑戰(zhàn)性。值得注意的是,既有明顯可區(qū)分的“簡單”和“困難”情況,也有微妙不同的情況,突顯了對檢測過程的微妙影響。這表明了在沒有先驗知識的情況下識別具有挑戰(zhàn)性的例子的重要性。有關(guān)更多示例,請參閱附錄D。
消融研究
模型組件。 按順序?qū)蓚€模塊集成到基線模型中,以評估我們模型的關(guān)鍵元素。為了清楚地展示P.A.損失的效果,所有屬性都被設(shè)置為[易]。正如表4所示,添加P.A. Attr顯著增強了圖像的保真度和YOLO Score。這意味著包含感知信息有助于產(chǎn)生更真實、更易識別的圖像。此外,實施P.A.損失,監(jiān)督中間生成圖像中的潛在特征,顯著提高了模型在圖像生成方面的精度,特別是在位置精度方面。
可訓(xùn)練性。 進一步對FCOS和ATSS進行實驗。如表5所示,不管是哪種檢測器模型,Det-Diffusion生成的圖像都取得了顯著的改善,這與表2中的結(jié)果一致。
檢測器。 探討了兩種廣泛認可的檢測器[1,39],用于在省略使用P.A.損失的情況下獲取P.A. Attr。表6展示了檢測器選擇對P.A. Attr質(zhì)量的顯著影響,YOLOv4在這方面表現(xiàn)出色。因此,YOLOv4作為保真度的主要檢測器,而Faster R-CNN則用于可訓(xùn)練性,因為它是訓(xùn)練后下游檢測器的角色。
結(jié)論
本文提出了DetDiffusion,這是一種簡單而有效的架構(gòu),利用了生成模型和感知模型之間的內(nèi)在協(xié)同作用。通過將檢測器感知性整合到幾何感知模型中,通過P.A. Attr作為條件輸入和P.A.損失作為監(jiān)督,Det-Diffusion可以生成針對檢測器定制的圖像,以獲得更好的識別性和可訓(xùn)練性。
本文轉(zhuǎn)自 AI生成未來 ,作者:Yibo Wang等
