自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集

發(fā)布于 2024-4-12 11:55
瀏覽
0收藏

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

文章:https://arxiv.org/pdf/2404.02790.pdf
數(shù)據(jù)集:???https://MuLAn-dataset.github.io/??


文本到圖像生成已經(jīng)取得了令人驚訝的成果,但精確的空間可控性和prompt的保真度仍然是極具挑戰(zhàn)性的。通常通過繁瑣的prompt工程、場景布局條件或圖像編輯技術(shù)來解決這一限制,這些技術(shù)通常需要手繪mask。然而,現(xiàn)有的工作往往難以利用場景的自然實(shí)例級組合性,因?yàn)闁鸥窕?RGB 輸出圖像通常是平面的。


為了解決這一挑戰(zhàn),本文介紹了MuLAn:一個新穎的數(shù)據(jù)集,包含超過 44K 個RGB圖像的MUlti-Layer ANnotations,作為多層、實(shí)例級別的RGBA分解,并包含超過100K個實(shí)例圖像。為了構(gòu)建MuLAn,本文開發(fā)了一個無需訓(xùn)練的pipeline,將單目RGB圖像分解為包含背景和孤立實(shí)例的RGBA層堆棧。通過使用預(yù)訓(xùn)練的通用模型,并開發(fā)了三個模塊:圖像分解用于實(shí)例發(fā)現(xiàn)和提取,實(shí)例補(bǔ)全用于重建被遮擋區(qū)域,以及圖像重組。使用pipeline創(chuàng)建了MuLAn-COCO和MuLAn-LAION數(shù)據(jù)集,這些數(shù)據(jù)集包含各種風(fēng)格、構(gòu)圖和復(fù)雜度的圖像分解。通過MuLAn,提供了第一個提供實(shí)例分解和遮擋信息的逼真資源,為高質(zhì)量圖像開辟了新的文本到圖像生成AI研究途徑。通過這一舉措,旨在鼓勵開發(fā)新型的生成和編輯技術(shù),特別是層級解決方案。

圖像分解可視化展示

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

介紹

大規(guī)模生成diffusion model 現(xiàn)在能夠根據(jù)文本prompt詞描述生成高質(zhì)量的圖像。這些模型通常在包含多種風(fēng)格和內(nèi)容的標(biāo)注RGB圖像的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。雖然這些技術(shù)已經(jīng)極大地推動了文本引導(dǎo)圖像生成領(lǐng)域的發(fā)展,但圖像外觀和構(gòu)成(例如局部圖像屬性、可計數(shù)性)的精確可控性仍然是一個挑戰(zhàn)。Prompt指令經(jīng)常缺乏精確性或被誤解(例如計數(shù)錯誤、空間位置錯誤、概念混淆、未能添加或刪除實(shí)例),因此需要復(fù)雜的prompt工程來獲得期望的結(jié)果。甚至稍微改變prompt都可以通過微調(diào)生成的圖像而導(dǎo)致顯著不同的樣本,需要進(jìn)一步的努力,才能獲取高質(zhì)量的所需圖像。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

為了解決這些限制,一些努力考慮了額外的條件,例如姿態(tài)、分割圖、邊緣圖以及基于模型的圖像編輯策略。前者改善了空間可控性,但仍需要繁瑣的prompt工程來調(diào)整圖像內(nèi)容;而后者通常無法理解空間指令,因此難以準(zhǔn)確修改所需的圖像區(qū)域,而不影響其他區(qū)域或引入不必要的形態(tài)學(xué)變化。


本文推測一個關(guān)鍵障礙是典型的柵格化RGB圖像通常具有平坦的特性,無法充分利用場景內(nèi)容的組成性質(zhì)。相反,將實(shí)例和背景隔離在單獨(dú)的RGBA層上具有潛力,可以精確控制圖像的組合,因?yàn)樵趩为?dú)的層上處理實(shí)例可以保證內(nèi)容的保留。這可以簡化圖像操作任務(wù),例如調(diào)整大小、移動或添加/刪除元素,而這些任務(wù)對于當(dāng)前的編輯方法仍然是一個挑戰(zhàn)。


Collage Diffusion 和 Text2Layer 已經(jīng)顯示出多層可組合圖像生成的好處的初步證據(jù)。Collage Diffusion 通過組合任意輸入層來控制圖像布局,例如通過采樣可組合的前景和背景層,而 Text2Layer 探索將圖像分解為兩個單獨(dú)的層(分組前景實(shí)例和背景)。盡管對無需訓(xùn)練的分層和復(fù)合生成越來越感興趣,但在這個有希望的方向上進(jìn)行研究開發(fā)的主要障礙是缺乏公開可用的逼真的多層數(shù)據(jù),以訓(xùn)練和評估生成和編輯方法。


在這項(xiàng)工作中,本文旨在填補(bǔ)這一空白,引入了一個名為MuLAN的新型數(shù)據(jù)集,其中包含自然圖像的多層RGBA分解標(biāo)注(請參見下圖中的RGBA分解示意圖)。為了實(shí)現(xiàn)這一目標(biāo),本文設(shè)計了一個圖像處理pipeline,它將單個RGB圖像作為輸入,并輸出其背景和單個對象實(shí)例的多層RGBA分解。本文提出利用大規(guī)模預(yù)訓(xùn)練的基礎(chǔ)模型來構(gòu)建一個強(qiáng)大的通用pipeline,而不產(chǎn)生額外的模型訓(xùn)練成本。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

本文將分解過程分為三個子模塊,重點(diǎn)放在:

  • 實(shí)例發(fā)現(xiàn)、排序和提取;
  • 遮擋外觀的實(shí)例補(bǔ)全;
  • 將圖像重新組裝為RGBA堆棧。

每個子模塊都經(jīng)過精心設(shè)計,以確保通用適用性、高實(shí)例和背景重建質(zhì)量,并確保輸入圖像與組合的RGBA堆棧之間的最大一致性。本文使用本文的新型pipeline處理了來自COCO 和 LAION Aesthetics 6.5 數(shù)據(jù)集的圖像,為超過44,000張圖像和超過100,000個實(shí)例生成了多層實(shí)例標(biāo)注。生成的分解示例如下圖所示:每個分解的圖像包括一個背景層,提取的實(shí)例是具有透明度 alpha 層的獨(dú)立RGBA圖像??梢詮腞GBA堆棧中刪除實(shí)例,產(chǎn)生幾種中間表示形式;其中通過修補(bǔ)完成結(jié)果遮擋的區(qū)域。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

本文發(fā)布MuLAn的目標(biāo)是通過提供全面的場景分解信息和場景實(shí)例一致性,促進(jìn)生成圖像作為RGBA堆棧的技術(shù)的開發(fā)和訓(xùn)練。本文旨在促進(jìn)尋求以下研究的進(jìn)展:(i) 提高生成圖像結(jié)構(gòu)的可控性,以及 (ii) 通過精確的逐層實(shí)例編輯來改善局部圖像修改質(zhì)量。本文通過兩個應(yīng)用案例展示了本數(shù)據(jù)集的潛在效用和逐層表示的優(yōu)勢:1) RGBA圖像生成和 2) 實(shí)例添加圖像編輯??傮w上,本文的主要貢獻(xiàn)是:

  • MuLAn的發(fā)布是一個新穎的多層標(biāo)注數(shù)據(jù)集,包括來自COCO和LAION Aesthetics 6.5的逾44,000張圖像的RGBA分解。據(jù)本文所知,MuLAn是其類別中的第一個數(shù)據(jù)集,為各種場景、風(fēng)格(包括逼真的真實(shí)圖像)、分辨率和目標(biāo)類型提供了實(shí)例分解和遮擋信息。
  • 本文提出了一種新穎的模塊化pipeline,將單個RGB圖像分解為實(shí)例化的RGBA堆棧,無需額外的訓(xùn)練成本。本文的想法以創(chuàng)新的方式利用了大型預(yù)訓(xùn)練模型,并包括排序和迭代修補(bǔ)策略,以實(shí)現(xiàn)本文的圖像分解目標(biāo)。這進(jìn)一步使本文能夠深入了解大模型在實(shí)際應(yīng)用中的行為。
  • 本文通過兩個應(yīng)用展示了MuLAn的潛力,這兩個應(yīng)用以不同的方式利用了本文豐富的標(biāo)注信息。

相關(guān)工作

Amodal completion 旨在自動估計部分遮擋對象的真實(shí)結(jié)構(gòu)和外觀。這項(xiàng)具有挑戰(zhàn)性的任務(wù)已經(jīng)得到了深入研究,通常建立在在合成或富有標(biāo)注的數(shù)據(jù)集上訓(xùn)練的模型基礎(chǔ)之上。這些數(shù)據(jù)集通常包括包含遮擋區(qū)域的實(shí)例分割mask。此外,與MuLAn最接近的數(shù)據(jù)集包括遮擋區(qū)域的外觀信息和實(shí)例排序信息。本文在下表中提供了這些數(shù)據(jù)集與本文的詳細(xì)比較。生成真實(shí)的遮擋標(biāo)注的時間和成本要求限制了先前研究僅限于合成、小型或高度專業(yè)化的數(shù)據(jù)集,如室內(nèi)場景、人類、車輛和目標(biāo)以及人類等。相比之下,MuLAn包括了各種場景、風(fēng)格(包括逼真的真實(shí)圖像)、分辨率和目標(biāo)類型的圖像,并且建立在流行數(shù)據(jù)集之上,以支持生成式 AI 研究。本文強(qiáng)調(diào)本文使用真實(shí)圖像相對于現(xiàn)有數(shù)據(jù)集對遮擋率的影響,其中合成場景被設(shè)計得有很高的遮擋率。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

RGBA圖像分解 需要在單獨(dú)的透明層上識別和隔離圖像實(shí)例,并估計遮擋區(qū)域的形狀和外觀。這項(xiàng)具有挑戰(zhàn)性的任務(wù)通常需要使用額外的輸入(超出單個RGB圖像),例如不完全遮擋的分割、立體圖像和時間視頻幀。后者極大地促進(jìn)了分解任務(wù),因?yàn)橐曨l幀可以提供缺失的遮擋信息。最近,基于層的生成建模受益于初步探索。


Text2Layer 將自然圖像分解為兩個層的RGBA分解。圖像被分解為背景和顯著的前景層,其中背景使用無prompt的最先進(jìn)的diffusion model進(jìn)行修補(bǔ)。與本文的方法相比,這種方法的主要限制在于兩層分解:所有實(shí)例都提取在同一個前景層中,這嚴(yán)重缺乏本文所需的實(shí)例分解的靈活性。本文的目標(biāo)是單獨(dú)分解每個實(shí)例,這帶來了額外的挑戰(zhàn),如實(shí)例排序、實(shí)例修補(bǔ)和不完全遮擋補(bǔ)全。與本文的分解目標(biāo)相鄰,PCNet 學(xué)習(xí)預(yù)測實(shí)例排序、不完全遮擋mask和對象補(bǔ)全。然而,該方法的適用性受限于前述的不完全遮擋完成數(shù)據(jù)集的限制。據(jù)本文所知,本文的分解流程是唯一能夠分解單目RGB圖像的通用技術(shù)。


與本文的工作相輔相成的是一種用于diffusion model 的圖像拼貼策略——Collage Diffusion,它具有類似的實(shí)例級模塊化目標(biāo)。雖然本文的目標(biāo)是從圖像中提取實(shí)例,但他們的方法旨在將單個實(shí)例組裝成一個同質(zhì)的復(fù)合圖像。這個先前工作的一個限制涉及到在拼貼實(shí)例的外觀保持和復(fù)合圖像的同質(zhì)性之間取得平衡的挑戰(zhàn),這可以被認(rèn)為是非平凡的,并且隨著實(shí)例數(shù)量的增加而變得更加困難。

圖像分解pipeline

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)


本文的流程概述如下圖所示,可以在補(bǔ)充材料中找到進(jìn)一步的詳細(xì)示意圖,它顯示了所有組件的實(shí)例化。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

圖像分解模塊

本文的分解模塊旨在提取并隔離圖像中的所有實(shí)例。本文首先使用目標(biāo)檢測和分割模型識別和分割實(shí)例。與此同時,本文依靠深度估計和遮擋排序模型構(gòu)建相對遮擋圖,并建立實(shí)例的提取、修補(bǔ)和重新組裝順序。


目標(biāo)檢測。準(zhǔn)確地檢測圖像中的所有相關(guān)實(shí)例是本文的pipeline的第一步。為了實(shí)現(xiàn)良好的質(zhì)量分解,本文必須能夠檢測和分離場景中的所有實(shí)例。為此,本文利用了視覺語言目標(biāo)檢測技術(shù),它輸入要檢測的類別列表以及輸入圖像。這樣的模型具有吸引力,因?yàn)樗鼈兛梢暂p松實(shí)現(xiàn)開放集檢測,意味著本文不限于特定數(shù)據(jù)的預(yù)先存在的類別集。本文使用了detCLIPv2,這是一個具有以下特點(diǎn)的最先進(jìn)的模型:它能夠利用類別定義(而不僅僅是類別名稱)來提高檢測準(zhǔn)確性。


本文精心構(gòu)建了文本輸入(類別列表),以確保從圖像中檢測和提取所有所需的類別。本文使用了來自THINGS 數(shù)據(jù)庫的概念列表,并手動更新和簡化它,以獲得更通用的類別名稱(例如,合并船型、飲料、堅果等),并刪除同音詞和本文不想提取的概念(例如,不可移動的目標(biāo)、服裝、螺栓和鉸鏈)。本文強(qiáng)調(diào),這個列表構(gòu)成了pipeline的一個輸入,可以輕松地定制要檢測的實(shí)例。除此之外,本文還使用了WordNet 數(shù)據(jù)庫的定義,以識別圖像中的所有相關(guān)實(shí)例。pipeline的這一步輸出了一系列帶有相應(yīng)類別名稱的邊界框。


分割。本文的下一步是精確分割檢測到的實(shí)例。為了處理大量的類別、領(lǐng)域和圖像質(zhì)量,本文尋求利用一個強(qiáng)大的通用分割模型。其中一個這樣的模型是SAM ,它已經(jīng)經(jīng)過了所需的多樣性和規(guī)模的訓(xùn)練,在大量領(lǐng)域中取得了良好的穩(wěn)健性和可轉(zhuǎn)移性。利用邊界框作為分割預(yù)測的基礎(chǔ)的能力,使得這類模型成為與本文的 detCLIPv2 檢測器結(jié)合的優(yōu)秀選擇。


深度估計。理解圖像中實(shí)例的相對位置對于實(shí)現(xiàn)本文的RGBA分解目標(biāo)至關(guān)重要。深度估計提供了關(guān)鍵信息,指示了拍攝時相機(jī)到目標(biāo)的距離。本文使用 MiDaS 模型,選擇它是因?yàn)樗姆€(wěn)健性:它在12個不同的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,使其在不同類型的場景和圖像質(zhì)量下都能可靠地工作。一旦計算完成,本文將深度圖分成多個寬度為250的相對深度單元的box,以便進(jìn)行跨實(shí)例的比較。


實(shí)例提取。本文將實(shí)例提取定義為將二進(jìn)制mask應(yīng)用到完整圖像上,以將檢測到的實(shí)例與圖像的其余部分隔離開來。本文采用一系列策略來增強(qiáng)這一關(guān)鍵步驟的穩(wěn)健性。首先,本文通過基于它們的邊界框重疊來對實(shí)例進(jìn)行聚類,估計一個原始順序,并使用邊界框大小和平均深度值(在分割mask內(nèi))來對它們進(jìn)行排序。其次,本文使用本文的原始順序來強(qiáng)制執(zhí)行不相交的實(shí)例分割mask,通過將后續(xù)實(shí)例的提取區(qū)域排除在分割mask之外。最后,如果實(shí)例的最大連通分量小于20像素或占整個圖像的0.1%,則不提取該實(shí)例。


圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)


實(shí)例排序。為了最大化實(shí)例補(bǔ)全的質(zhì)量,使用原始圖像的上下文信息對遮擋區(qū)域進(jìn)行修補(bǔ)是必要的。因此,建立精確的實(shí)例補(bǔ)全計劃對于逐步豐富圖像上下文而不遮擋相關(guān)區(qū)域至關(guān)重要。本文通過以下三個步驟生成實(shí)例排序,依賴于本文在分解步驟中獲取的深度排序和遮擋信息。首先,根據(jù)它們的深度信息對實(shí)例進(jìn)行排序,從最遠(yuǎn)到最近(根據(jù)實(shí)例的平均深度值)。這可以通過使用實(shí)例深度圖輕松實(shí)現(xiàn):通過計算節(jié)點(diǎn)出度,即離開節(jié)點(diǎn)的有向邊的數(shù)量,即在本文的節(jié)點(diǎn)后面的實(shí)例的數(shù)量。其次,本文依靠本文的遮擋圖來優(yōu)化本文的排序:如果實(shí)例A遮擋實(shí)例B,則實(shí)例B將系統(tǒng)地在實(shí)例A之前排序。最后,相互遮擋的實(shí)例根據(jù)它們的最大深度值重新排序。實(shí)例排序算法的詳細(xì)信息在原文補(bǔ)充材料中提供。

實(shí)例補(bǔ)全模塊

在實(shí)例補(bǔ)全之前,本文已成功地從背景圖像中檢測、隔離和排序了所有實(shí)例。但還存在一個重要挑戰(zhàn):對每個圖像層 li(包括背景)單獨(dú)重建遮擋區(qū)域,以便移除或隱藏任何圖層都能顯現(xiàn)出遮擋區(qū)域。由于本文正在分解自然圖像,這些信息并不對本文可見。本文依靠最先進(jìn)的生成模型,利用圖像補(bǔ)全技術(shù)從現(xiàn)有上下文中想象這些遮擋區(qū)域。


基于 Diffusion model 的圖像修補(bǔ)技術(shù)相比傳統(tǒng)的圖像修補(bǔ)技術(shù)已經(jīng)樹立了新的標(biāo)準(zhǔn),因?yàn)樗鼈儾粌H利用了圖像內(nèi)容,還利用了學(xué)習(xí)到的圖像先驗(yàn)和文本條件。即便如此,本文的設(shè)置也存在著獨(dú)特的困難:

  • 與精心設(shè)計手工prompt的常見策略相反,本文只能依靠自動生成的描述
  • 實(shí)例圖像包括具有均勻顏色背景的實(shí)例,這種圖像模式通常不會被這些模型所見
  • 本文尋求簡單、準(zhǔn)確且高質(zhì)量的補(bǔ)全,而不是獲得美麗或創(chuàng)意的圖像。接下來,將詳細(xì)介紹本文的圖像修補(bǔ)過程以及如何解決這些困難。

圖像修補(bǔ)過程。本文的圖像修補(bǔ)過程概述如下圖所示。給定預(yù)定義的實(shí)例順序,本文迭代地修補(bǔ)一個實(shí)例的遮擋區(qū)域,從背景圖像開始,直到最近的實(shí)例。對于給定的實(shí)例,本文的圖像修補(bǔ)過程如下進(jìn)行:首先,本文利用遮擋順序信息和遮擋實(shí)例的分割mask來估計一個修補(bǔ)mask。其次,本文通過將不完整的實(shí)例重新整合到中間背景圖像中來構(gòu)建一個上下文修補(bǔ)圖像。這個背景圖像包含了在先前迭代中處理的已修補(bǔ)實(shí)例。第三,利用最先進(jìn)的修補(bǔ)生成模型和自動生成的描述作為prompt,對實(shí)例進(jìn)行修補(bǔ)。第四,本文使用本文的分割模型和遮擋分割mask來重新提取已完成的實(shí)例,有效地獲取完整的實(shí)例圖像,這將成為本文多層表示的一部分。最后,本文通過將新修補(bǔ)的實(shí)例整合到背景修補(bǔ)圖像中來更新下一次迭代的背景修補(bǔ)圖像。


重要的是,本文的目標(biāo)是在最大程度地保留場景上下文和防止引入無關(guān)的圖像內(nèi)容之間取得平衡。這對于相互遮擋的實(shí)例尤為重要:例如,考慮一個人手持手機(jī),手是上下文,當(dāng)修補(bǔ)手機(jī)的遮擋區(qū)域時,手指將被重建。為了防止這種情況發(fā)生,本文通過用一個常數(shù)值替換具有比下一個實(shí)例的最大深度更高的像素的信息來“隱藏”潛在的誤導(dǎo)性上下文。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

修補(bǔ)mask。估計一個準(zhǔn)確的修補(bǔ)mask,即描述哪些圖像區(qū)域?qū)⒈桓采w,對于實(shí)現(xiàn)準(zhǔn)確的實(shí)例補(bǔ)全至關(guān)重要。如果未能包含關(guān)鍵的遮擋區(qū)域,則有可能產(chǎn)生不完整的結(jié)果,而mask過大則可能改變原始圖像的外觀。理想情況下,通過模態(tài)完成技術(shù)來估計一個準(zhǔn)確的完整實(shí)例形狀。然而,現(xiàn)有方法往往針對特定的數(shù)據(jù)集或?qū)ο箢悇e,具有有限的泛化能力。本文提出利用大型生成模型的內(nèi)在偏差,提供一個大的修補(bǔ)mask,包括遮擋對象可能存在的區(qū)域。這通過構(gòu)建一個包含所有遮擋實(shí)例的分割mask的修補(bǔ)mask來實(shí)現(xiàn)。


修補(bǔ)prompt保持簡單,因?yàn)楸疚膶で笠环N完全自動化的分解策略。對于實(shí)例修補(bǔ),本文利用自動生成的實(shí)例描述。對于背景圖像的修補(bǔ),本文使用一個簡單的通用prompt(“一個空場景”),確保生成的修補(bǔ)背景盡可能簡單。重要的是,在所有負(fù)面prompt中包含所有其他實(shí)例的類名,以避免重新引入已提取的實(shí)例。這增加了對不完美分割的魯棒性。

圖像重組模塊

最后一個也是最簡單的模塊將所有單獨(dú)的RGB圖像重新組裝成一個有序的RGBA堆棧,一旦展開,就會產(chǎn)生一個盡可能接近原始輸入圖像的圖像。實(shí)例RGB圖像根據(jù)本文的修補(bǔ)順序進(jìn)行排序,因此最后修補(bǔ)的實(shí)例位于堆棧的頂部,而背景位于底部。按照這個順序,本文通過細(xì)化實(shí)例分割mask來迭代地為每個堆棧元素生成Alpha層。


本文使用圖像摳圖模型VitMatte 對修補(bǔ)后的SAM分割進(jìn)行后處理,以改善Alpha混合質(zhì)量,處理透明對象,并解決SAM的欠分割傾向。雖然在前兩個模塊中欠分割是首選的,以避免在修補(bǔ)時引入鄰近內(nèi)容和錯誤的先驗(yàn),但是在這個最后階段,本文需要準(zhǔn)確的分割。VitMatte優(yōu)化了SAM的輸出,提供了更平滑的非二進(jìn)制分割,并允許本文以更自然的方式混合修補(bǔ)后的實(shí)例。在存在相互遮擋的情況下(即較低級別的實(shí)例創(chuàng)建遮擋),本文通過將遮擋區(qū)域設(shè)置為透明來進(jìn)一步調(diào)整Alpha層。這最后一個模塊最終輸出本文的RGBA堆棧圖像分解。

描述策略

本文為所有圖層(背景、實(shí)例)、中間展開的RGBA堆棧以及完整圖像生成描述。本文使用LLaVa 為標(biāo)準(zhǔn)圖像生成詳細(xì)的描述。由于實(shí)例圖像的獨(dú)特性(實(shí)例在統(tǒng)一的白色背景上),像LLaVa這樣冗長的描述模型往往會產(chǎn)生圖像特征的幻覺。為了解決這個問題,本文利用BLIP-2模型為實(shí)例生成描述,并進(jìn)行了參數(shù)搜索以選擇一組限制冗長和幻覺的參數(shù)集。此外,本文使用受限束搜索來生成多個描述,并使用CLIP 選擇最佳描述。使用LLaVa標(biāo)注的組件也會使用BLIP進(jìn)行標(biāo)注,以確保完整性。

MuLAn數(shù)據(jù)集

基礎(chǔ)數(shù)據(jù)集

本文在兩個數(shù)據(jù)集上運(yùn)行本文的完整方法,這些數(shù)據(jù)集提供了足夠的場景組合性來充分利用本文的流程:COCO 數(shù)據(jù)集和 LAION 數(shù)據(jù)集的 Aesthetic V2 6.5 子集。Aesthetic 子集對完整的 LAION 數(shù)據(jù)集進(jìn)行了篩選,僅選擇了美學(xué)分?jǐn)?shù)至少為 6.5 的圖像,包括 625K 張圖像。為了限制場景復(fù)雜性并且便于檢查,本文只考慮包含一到五個實(shí)例的圖像,這是通過本文的目標(biāo)檢測器的輸出來確定的。本文處理所有的 COCO 圖像(58K 張圖像),以及一個隨機(jī)子集的 100K 張 LAION 圖像,以限制計算成本。

數(shù)據(jù)篩選

本文的目標(biāo)是構(gòu)建一個包含高質(zhì)量分解的數(shù)據(jù)集,并排除潛在的失敗模式。為此,本文手動檢查和標(biāo)記本文處理過的數(shù)據(jù),確定了分解失敗的六個主要原因:

  • 目標(biāo)檢測:在圖像中缺少關(guān)鍵實(shí)例,或者同一對象多次檢測。
  • 分割:原始圖像上的不正確的實(shí)例分割,或修補(bǔ)后的分割。
  • 背景修補(bǔ):背景圖像的錯誤修補(bǔ)。這可能是由于不完美的分割造成的,以及本文的pipeline沒有考慮到場景中的因果視覺實(shí)例效果(例如陰影)。
  • 實(shí)例修補(bǔ):實(shí)例的不正確或不完整的修補(bǔ)。這通常是由于mask形狀或姿態(tài)偏差(例如人手持吉他)造成的。
  • 截斷實(shí)例:圖像摳圖過度侵蝕了非常小實(shí)例的 Alpha mask。
  • 無關(guān)分解:不適合實(shí)例逐個分解的場景(例如錯誤檢測到部分景觀的場景)。

此外,為了分析目的,本文標(biāo)注了一些例子,其中實(shí)例排序不正確,背景元素遮擋實(shí)例,并且實(shí)例完成受到本文邊界框約束重新分割的限制。本文在補(bǔ)充材料中提供了失敗模式的視覺示例。使用 Voxel FiftyOne ,本文從本文處理過的 LAION Aesthetic 6.5 圖像中隨機(jī)選擇了 5000 張圖像進(jìn)行標(biāo)注,為成功的分解添加了 “good” 標(biāo)簽。為了減少偏見,標(biāo)注由 3 位標(biāo)注者獨(dú)立完成。本文強(qiáng)調(diào),可以為單個圖像分配多個標(biāo)簽,并且當(dāng)缺陷較小且不影響分解的整體有效性時,特別將 “good” 標(biāo)簽與其他標(biāo)簽關(guān)聯(lián)。下圖中顯示了手動標(biāo)注集中各種失敗模式的分布,突出顯示總體成功率為 36%(帶有輕微缺陷的為 52%)。


本文可以看到,分割問題是最大的失敗模式,其次是修補(bǔ)和目標(biāo)檢測。本文的新排序失敗,以及邊界框限制和背景遮擋的失敗是最罕見的問題。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

本文利用本文的手動標(biāo)注來訓(xùn)練兩個分類器,以自動標(biāo)注本文處理過的其余數(shù)據(jù):一個圖像級別的分類器標(biāo)記背景和無關(guān)的分解問題,一個實(shí)例級別的多標(biāo)簽分類器標(biāo)識剩余的失敗模式。有關(guān)本文分類器架構(gòu)和訓(xùn)練過程的詳細(xì)信息,請參閱原文補(bǔ)充材料。下圖顯示了 LAION 和 COCO 數(shù)據(jù)集的結(jié)果標(biāo)簽分布。本文采取保守的方法,只選擇具有確信的 “good” 標(biāo)簽的圖像作為成功的分解,并且僅在圖6中報告此部分的 “good” 標(biāo)簽。這樣,在 COCO 數(shù)據(jù)集中獲得了 16K 個分解,而在 LAION 中獲得了 28.9K 個分解,總共為本文的 MuLAn 數(shù)據(jù)集提供了 44.8K 個標(biāo)注。


本文的 LAION 自動失敗模式分布與本文手動標(biāo)注的部分非常相似,其中分割和修補(bǔ)始終是突出的問題。COCO 的分布類似,但目標(biāo)檢測錯誤更多。這是預(yù)期的,因?yàn)楸娝苤?,COCO 是一個具有挑戰(zhàn)性的目標(biāo)檢測基準(zhǔn)(具有 COCO 和 LVIS 標(biāo)注),場景復(fù)雜。相比之下,LAION 包含了較簡單的場景,實(shí)例較少。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

數(shù)據(jù)集分析

通過本文精心策劃的高質(zhì)量標(biāo)注,本文進(jìn)一步分析了本文 44.8K 個已標(biāo)注圖像的場景分布和多樣性。下圖顯示了 MuLAn 中場景的分布情況,以每個圖像中的實(shí)例數(shù)量為單位。本文可以看到,LAION 數(shù)據(jù)集中大多數(shù)圖像都是單個實(shí)例圖像,這可能與高度美學(xué)化的圖像往往是簡單場景有關(guān)(例如肖像 - 這也在原文補(bǔ)充圖 S2 中有所突出)。盡管如此,MuLAn-LAION 包含足夠復(fù)雜的場景,其中 21%(約 6K)的圖像每個圖像都有三個以上的實(shí)例。MuLAn-COCO 實(shí)現(xiàn)了良好的場景多樣性,其中 10% 的數(shù)據(jù)集包含五個實(shí)例,幾乎一半的數(shù)據(jù)集(44% ? 7K)包含三個以上的實(shí)例,而僅有 28%(? 4.5K)的單實(shí)例圖像。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

接下來,本文將從實(shí)例類型的角度調(diào)查場景的多樣性。在 942 個檢測類別中,本文分別在 MuLAn-COCO 和 MuLAn-LAION 中獲得了 662 和 705 個類別,總共在 MuLAn 中有 759 個類別。下圖展示了每個數(shù)據(jù)集中前十個最常見的類別。雖然人類別在兩者中都是占主導(dǎo)地位的類別,但在 LAION 中占絕大多數(shù)。除了人類別外,MuLAn-LAION 主要包括無生命和裝飾目標(biāo),而 COCO 包括更活躍的場景,尤其是動物和體育運(yùn)動。在前十個類別中,只有三個類別同時出現(xiàn)在兩個數(shù)據(jù)集中(人、汽車和鳥類)。這些結(jié)果突顯了兩個數(shù)據(jù)集子集的互補(bǔ)性,MuLAn-LAION 專注于更簡單、高質(zhì)量和視覺上令人愉悅的場景,而 MuLAn-COCO 展示了更多樣化的場景類型。每個子數(shù)據(jù)集的完整、排序的類別列表詳見補(bǔ)充材料。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

最后,圖12 展示了來自 MuLAn 的 RGBA 分解的其他視覺示例,展示了各種場景組成、風(fēng)格和類別類型。額外的示例可在補(bǔ)充材料中找到。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

數(shù)據(jù)集應(yīng)用

為了展示本文的 MuLAn 數(shù)據(jù)集的潛在用途,本文提供了兩個實(shí)驗(yàn),展示了不同的示例場景,可以在這些場景下利用本文的數(shù)據(jù)集。


RGBA 圖像生成。本文的第一個應(yīng)用利用 MuLAn 實(shí)例,通過微調(diào) Stable Diffusion (SD) v1.5 模型的 VAE 和 Unet,使其能夠生成具有透明通道的圖像。在下圖中,本文提供了使用附加了“在黑色背景上”的prompt,并在本文的數(shù)據(jù)集上進(jìn)行微調(diào)的 SD v1.5 生成的圖像的視覺比較,與一個在多個摳圖數(shù)據(jù)集中微調(diào)了 15,791 個實(shí)例的模型進(jìn)行比較。本文可以看到,本文的數(shù)據(jù)集能夠生成質(zhì)量更好的 RGBA 實(shí)例,因?yàn)樗鼘ν该魍ǖ赖睦斫飧谩?/p>

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

實(shí)例添加。本文的第二個應(yīng)用考慮了一項(xiàng)圖像編輯任務(wù),其目標(biāo)是向圖像中添加實(shí)例。本文微調(diào)了InstructPix2Pix 模型,利用本文能夠無縫地向本文的 RGBA 堆棧中添加或移除實(shí)例的能力。本文為InstructPix2Pix 的訓(xùn)練數(shù)據(jù)包括三元組,,,其中是第 i + 1 層的實(shí)例描述,是通過將不完整的 RGBA 堆棧展平到第  層得到的 RGB 圖像。為了評估性能,本文使用 EditVal 的實(shí)例添加評估策略。本文引入的基準(zhǔn)測試上報告結(jié)果(該測試在沒有屬性的情況下添加對象),并構(gòu)建了一個額外的屬性驅(qū)動的評估基準(zhǔn)。有關(guān)評估指標(biāo)和本文基準(zhǔn)測試的詳細(xì)信息,請參閱原文補(bǔ)充材料。下圖1強(qiáng)調(diào)了本文的模型在整個光譜中具有更好且更一致的性能,特別是在場景保護(hù)方面。這在下圖2中進(jìn)一步得到了證明,可以清楚地看到本文的模型具有更低的屬性滲漏和更好的背景保留。這可以歸因于本文的訓(xùn)練設(shè)置保證了背景的保留,而 InstructPix2Pix 使用 Prompt-to-prompt 編輯結(jié)果。

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

圖像生成/編輯應(yīng)用落地必不可少!MuLAn:首個實(shí)例級RGBA分解數(shù)據(jù)集-AI.x社區(qū)

結(jié)論

本文介紹了 MuLAn,這是一個包含超過 44,000 個 RGB 圖像的多層標(biāo)注的新型數(shù)據(jù)集,旨在用于生成式人工智能開發(fā)。本文通過使用一種新穎的pipeline處理 LAION Aesthetic 6.5 和 COCO 數(shù)據(jù)集中的圖像來構(gòu)建 MuLAn,這種pipeline能夠?qū)?RGB 圖像分解為多層 RGBA 堆棧。MuLAn 提供了各種場景類型、圖像風(fēng)格、分辨率和對象類別。通過發(fā)布 MuLAn,旨在為構(gòu)圖性文本到圖像生成研究開辟新的可能性。構(gòu)建 MuLAn 的關(guān)鍵在于本文的圖像分解pipeline。詳細(xì)分析了pipeline的失敗模式,尤其是分割、檢測和修補(bǔ)。未來的工作將探索改進(jìn)性能并增加 MuLAn 大小的解決方案。本文可以利用pipeline的模塊化特性來引入性能更好的模型,例如分割器或修補(bǔ)器。此外,該pipeline可以作為一個獨(dú)立的解決方案來分解圖像,并利用常見軟件來進(jìn)行編輯。為了支持這一點(diǎn),本文還研究了人機(jī)循環(huán)擴(kuò)展。


本文轉(zhuǎn)自AI生成未來 ,作者:Yongxin Yang等


原文鏈接:??https://mp.weixin.qq.com/s/DF2z5dYpDJcZpIBNEJXoKw??

已于2024-4-12 12:02:08修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦