人人都是藝術(shù)家!斯坦福提出擴散自蒸餾:定制圖像生成,任意上下文下擴展到任意實例! 精華
文章鏈接:https://arxiv.org/pdf/2411.18616
項目鏈接:https://primecai.github.io/dsd
亮點直擊
- 提出了Diffusion Self-Distillation,一種zero-shot身份保持定制圖像生成模型,能夠在任何上下文下擴展到任意實例,其性能與推理階段調(diào)優(yōu)方法相當(dāng);
- 提供了一條自蒸餾pipeline,利用預(yù)訓(xùn)練的文本到圖像擴散模型、LLMs和VLMs,完全不依賴人工參與,獲取身份保持的數(shù)據(jù)配對,用于整個數(shù)據(jù)創(chuàng)建過程;
- 設(shè)計了一個統(tǒng)一的架構(gòu),用于處理涉及身份和結(jié)構(gòu)保持編輯的圖像到圖像翻譯任務(wù),包括個性化、重光照、深度控制和指令跟隨。
總結(jié)速覽
解決的問題
- Text-to-image擴散模型生成效果令人印象深刻,但難以滿足藝術(shù)家對精細化控制的需求。
- 在“保持身份一致性”的生成任務(wù)(如將特定概念放置于新背景)以及其他任務(wù)(如重光照)中,缺乏高質(zhì)量的圖像+文本配對數(shù)據(jù)來直接訓(xùn)練模型。
提出的方案
- Diffusion Self-Distillation:利用預(yù)訓(xùn)練的文本到圖像擴散模型自生成數(shù)據(jù)集,用于文本條件下的圖像到圖像任務(wù)。
- 1.利用擴散模型的上下文生成能力生成圖像網(wǎng)格。
- 2.使用視覺-語言模型輔助篩選,構(gòu)建大規(guī)模高質(zhì)量的配對數(shù)據(jù)集。
- 3.使用篩選后的配對數(shù)據(jù)集對擴散模型進行微調(diào),將其轉(zhuǎn)化為支持文本+圖像條件的圖像生成模型。
應(yīng)用的技術(shù)
- 預(yù)訓(xùn)練的文本到圖像擴散模型的上下文生成能力。
- 視覺-語言模型對生成數(shù)據(jù)進行篩選和過濾。
- 基于篩選數(shù)據(jù)的擴散模型微調(diào)技術(shù)。
達到的效果
- 在保持身份一致性生成任務(wù)中優(yōu)于現(xiàn)有的零樣本方法。
- 在不需要測試時優(yōu)化的情況下,性能可與逐實例調(diào)優(yōu)技術(shù)相媲美。
- 方法適用于多種文本條件圖像生成任務(wù),具有廣泛適應(yīng)性和有效性。
Diffusion Self-Distillation
最近的文本到圖像生成模型提供了令人驚訝的能力,能夠生成上下文一致的圖像網(wǎng)格(見圖2,左側(cè))。受到這一洞察的啟發(fā),本文開發(fā)了一種zero-shot適應(yīng)網(wǎng)絡(luò),能夠快速、豐富、高質(zhì)量且保持身份一致性,即在參考圖像的條件下生成一致的圖像。首先利用預(yù)訓(xùn)練的文本到圖像擴散模型、大語言模型(LLMs)和視覺語言模型(VLMs)生成并篩選出展示所需一致性的圖像集。然后,使用這些一致性的圖像集對同一預(yù)訓(xùn)練擴散模型進行微調(diào),采用本文新提出的并行處理架構(gòu)創(chuàng)建一個條件模型。通過這種方式,Diffusion Self-Distillation以監(jiān)督方式將預(yù)訓(xùn)練的文本到圖像擴散模型微調(diào)為zero-shot定制圖像生成器。
生成配對數(shù)據(jù)集
為了創(chuàng)建用于監(jiān)督Diffusion Self-Distillation訓(xùn)練的配對數(shù)據(jù)集,利用預(yù)訓(xùn)練的文本到圖像擴散模型的新興多圖像生成能力,生成可能一致的基礎(chǔ)圖像,這些圖像由LLM生成的提示創(chuàng)建。然后,使用VLMs篩選這些基礎(chǔ)樣本,獲得共享所需身份一致性的干凈圖像集。數(shù)據(jù)生成和篩選pipeline如下圖2左側(cè)所示。
通過教師模型生成基礎(chǔ)數(shù)據(jù)
為了生成符合所需身份保持的圖像集,我們提示預(yù)訓(xùn)練的教師文本到圖像擴散模型創(chuàng)建包含多個面板的圖像,每個面板展示相同的主題,并在表情、姿勢、光照條件等方面有所變化,用于訓(xùn)練目的。這種提示可以簡單地指定輸出中的身份保持要求,如“一個包含4張圖像的網(wǎng)格,展示相同的<物體/角色/場景等>”,“4個均勻分隔的面板,描繪相同的<物體/角色/場景等>”等。還會指定每個子圖像/面板中的預(yù)期內(nèi)容。完整的提示集在我們的補充材料第A節(jié)中提供。分析表明,目前最先進的文本到圖像擴散模型(如SD3、DALL·E 3、FLUX)展示了這一身份保持能力,這可能源于它們的訓(xùn)練數(shù)據(jù),包括漫畫、漫畫書、照片集和視頻幀。這種上下文生成能力對于我們的數(shù)據(jù)生成流程至關(guān)重要。
通過LLMs生成提示
依賴LLM來“頭腦風(fēng)暴”生成一個多樣化的提示大數(shù)據(jù)集,從中提取我們的圖像網(wǎng)格數(shù)據(jù)集。通過定義提示結(jié)構(gòu),提示LLM生成描述圖像網(wǎng)格的文本提示。遇到的一個挑戰(zhàn)是,當(dāng)提示生成大量提示時,LLM往往生成低多樣性的提示。例如,如果沒有額外的引導(dǎo),GPT-4o傾向于生成包含汽車和機器人內(nèi)容的提示,導(dǎo)致輸出內(nèi)容高度重復(fù)。為了解決這個問題,利用LAION數(shù)據(jù)集中的可用圖像標(biāo)題,將它們作為內(nèi)容參考輸入到LLM中。這些來自真實圖像標(biāo)題的參考大大提高了生成提示的多樣性。還可以選擇使用LLM過濾這些參考標(biāo)題,確保它們包含明確的身份保持目標(biāo)。我們發(fā)現(xiàn),這顯著提高了生成一致的多圖像輸出的命中率。
使用VLMs進行數(shù)據(jù)篩選和標(biāo)題生成
盡管上述數(shù)據(jù)生成方案提供了具有良好質(zhì)量和數(shù)量的身份保持的多圖像樣本,但這些初步的“未經(jīng)篩選”圖像通常噪聲較多,不適合直接使用。因此,利用VLMs的強大能力來篩選出清潔的數(shù)據(jù)集。從生成的樣本中提取出意圖保持身份的一對圖像,并詢問VLM這兩張圖像是否描繪了相同的物體、角色、場景等。我們發(fā)現(xiàn),在這種情況下,使用思維鏈(Chain-of-Thought)提示特別有幫助。具體而言,首先提示VLM識別兩張圖像中共同存在的物體、角色或場景,然后讓其詳細描述每一張圖像,最后分析它們是否相同,給出結(jié)論性回答。這個過程產(chǎn)生了共享相同身份的圖像對。
并行處理架構(gòu)
需要一個適用于通用圖像到圖像任務(wù)的條件架構(gòu),包括結(jié)構(gòu)保持變換和保持概念/身份但不保持圖像結(jié)構(gòu)的變換。這是一個具有挑戰(zhàn)性的問題,因為它可能需要轉(zhuǎn)移精細細節(jié),而不保證空間對應(yīng)關(guān)系。盡管ControlNet架構(gòu)在結(jié)構(gòu)保持編輯(如深度到圖像或分割圖到圖像)方面表現(xiàn)出色,但在更復(fù)雜的身份保持編輯下,它難以保持細節(jié),其中源圖像和目標(biāo)圖像沒有像素對齊。另一方面,IP-Adapter可以從輸入圖像中提取某些概念,如風(fēng)格,但它強烈依賴于任務(wù)特定的圖像編碼器,并且常常無法保持更復(fù)雜的概念和身份。受到多視角和視頻擴散模型成功的啟發(fā) ,本文提出了一種簡單而有效的方法,將基礎(chǔ)擴散變換器模型擴展為圖像條件擴散模型。具體而言,我們將輸入圖像視為視頻的第一幀,并生成一個兩幀的視頻作為輸出。最終的損失是在兩幀視頻上計算的,建立了第一幀的身份映射和第二幀的條件編輯目標(biāo)。我們的架構(gòu)設(shè)計使其對于通用的圖像到圖像翻譯任務(wù)具有普遍性,因為它能夠有效地在兩幀之間交換信息,使模型能夠捕捉復(fù)雜的語義并執(zhí)行復(fù)雜的編輯,如圖2右側(cè)所示。
實驗
實現(xiàn)細節(jié) 使用FLUX1.0 DEV作為教師模型和學(xué)生模型,實現(xiàn)自蒸餾。為了生成提示,使用GPT-4o;用于數(shù)據(jù)集篩選和標(biāo)題生成,使用Gemini-1.5。在8個NVIDIA H100 80GB GPU上訓(xùn)練所有模型,采用160的有效批量大小進行100k次迭代,使用AdamW優(yōu)化器,學(xué)習(xí)率為10^-4。并行處理架構(gòu)使用LoRA,基模型的秩為512。
數(shù)據(jù)集 最終訓(xùn)練數(shù)據(jù)集包含約40萬個主題一致的圖像對,這些圖像是從我們的教師模型FLUX1.0 DEV生成的。數(shù)據(jù)集的生成和篩選是完全自動化的,不需要人工干預(yù),因此其規(guī)??梢赃M一步擴展。使用公開的DreamBench++數(shù)據(jù)集并遵循其評估協(xié)議。
DreamBench++是一個綜合性且多樣化的數(shù)據(jù)集,用于評估個性化圖像生成,包含150張高質(zhì)量圖像和1,350個提示,比以前的基準(zhǔn)(如DreamBench)要多得多。該數(shù)據(jù)集涵蓋了各種類別,如動物、人物、物體等,包括照片寫實和非照片寫實圖像,且提示設(shè)計涵蓋不同難度級別(簡單/富有創(chuàng)意)。相比之下,提示是使用GPT-4o生成的,并通過人工標(biāo)注員進行精煉,以確保多樣性和倫理合規(guī)性。
基準(zhǔn) 遵循DreamBench++的設(shè)置,將我們的模型與兩類基準(zhǔn)進行比較:推理階段調(diào)整模型和zero-shot模型。對于推理階段的模型,將其與Textual Inversion、DreamBooth及其LoRA版本進行比較。對于zero-shot模型,與BLIP-Diffusion、Emu2、IP-Adapter、IP-Adapter+進行比較。
評估指標(biāo) 先前工作的評估協(xié)議通常包括比較CLIP和DINO特征相似度。然而,上述指標(biāo)僅捕捉到全局語義相似度,且噪聲非常大,容易偏向于“復(fù)制粘貼”輸入圖像。這在輸入圖像或提示較為復(fù)雜時尤其成問題。參考DreamBench++中的詳細分析,指出了這些指標(biāo)的局限性。因此,遵循DreamBench++設(shè)計的指標(biāo),并報告GPT-4o在更為多樣化的DreamBench++基準(zhǔn)上針對不同類別主題的概念保持(CP)和真實(Real.)與富有創(chuàng)意(Imag.)提示下的提示遵循(PF)的得分,最后用其乘積作為最終評估得分。該評估協(xié)議模擬了使用VLMs的人類用戶研究。此外,對GPT評估提示進行了輕微修改,以便在生成的內(nèi)容未顯示出內(nèi)部理解和創(chuàng)意輸出,而是天真地復(fù)制了參考圖像中的組件時,可以應(yīng)用懲罰。這些修改后的指標(biāo)被命名為“去偏概念保持(Debiased CP)”和“去偏提示遵循(Debiased PF)”。完整的GPT評估提示集將在我們的補充材料Sec. B中提供。
定性結(jié)果下圖4展示了定性比較結(jié)果,表明本文的模型在主題適應(yīng)性和概念一致性方面顯著優(yōu)于所有基準(zhǔn),同時在輸出中表現(xiàn)出出色的提示對齊性和多樣性。作為早期概念提取方法的Textual Inversion僅捕捉到輸入圖像中的模糊語義,因此不適用于需要精確主題適應(yīng)的zero-shot定制任務(wù)。DreamBooth和DreamBooth-LoRA在保持一致性方面面臨挑戰(zhàn),主要因為它們在多張輸入圖像下表現(xiàn)更好。這一依賴性限制了它們在僅有單張參考圖像時的有效性。相反,本文的方法即使只使用一張輸入圖像,也能取得穩(wěn)健的結(jié)果,突顯了其效率和實用性。
BLIP-Diffusion 作為一個自監(jiān)督表示學(xué)習(xí)框架,可以以zero-shot方式從輸入中提取概念,但僅限于捕捉整體語義概念,無法定制特定主題。同樣,Emu2作為一個多模態(tài)基礎(chǔ)模型,擅長提取語義概念,但缺乏針對特定主題定制的機制,限制了它在個性化圖像生成中的應(yīng)用。IP-Adapter和IP-Adapter+ 采用自監(jiān)督學(xué)習(xí)方案,旨在通過編碼信號重建輸入。雖然在提取全局概念方面有效,但它們遭遇了明顯的“復(fù)制粘貼”效應(yīng),生成的圖像與輸入非常相似,缺乏有意義的轉(zhuǎn)化。值得注意的是,IP-Adapter+ 利用更強的輸入圖像編碼器,導(dǎo)致這一問題加劇,輸出的多樣性和適應(yīng)性降低。
與之相比,本文的方法有效地保留了主題的核心身份,同時允許多樣且符合上下文的轉(zhuǎn)化。如下圖5所示,擴散自蒸餾方法展示了出色的多功能性,能夠熟練處理各種定制目標(biāo)(角色、物體等)和風(fēng)格(照片寫實、動畫等)。此外,擴散自蒸餾能夠很好地推廣到各種提示,包括與InstructPix2Pix類似的指令,進一步證明了它在各種定制任務(wù)中的魯棒性和適應(yīng)性。
定量結(jié)果與基準(zhǔn)模型的定量比較見下表1,報告了按照DreamBench++的GPT評估結(jié)果。該評估協(xié)議類似于人工評分,但使用自動化的多模態(tài)大語言模型(LLMs)。我們的模型在概念保持和提示跟隨方面均表現(xiàn)最佳,僅在概念保持方面略遜于IP-Adapter+(主要由于“復(fù)制粘貼”效應(yīng)),在提示跟隨方面則略遜于每實例調(diào)整的DreamBooth-LoRA。
DreamBench++的概念保持評估仍然偏向于支持“復(fù)制粘貼”效應(yīng),尤其是在更具挑戰(zhàn)性和多樣性的提示上。例如,IP-Adapter系列在概念保持方面的優(yōu)異表現(xiàn),主要得益于其強大的“復(fù)制粘貼”效應(yīng),該效應(yīng)直接復(fù)制輸入圖像,而未考慮提示中的相關(guān)變化。這也部分體現(xiàn)在其較差的提示跟隨得分上,表明它們偏向于參考輸入,未能有效適應(yīng)輸入提示。因此,我們還展示了“去偏”版本的GPT得分,簡單地要求GPT對生成的圖像與參考圖像過于相似的情況進行懲罰。IP-Adapter+ 的優(yōu)勢不再顯現(xiàn)??傮w而言,Diffusion Self-Distillation是表現(xiàn)最好的模型。
消融研究
- 數(shù)據(jù)整理:在數(shù)據(jù)集生成過程中,首先使用凍結(jié)的預(yù)訓(xùn)練FLUX模型合成網(wǎng)格,然后通過VLM整理篩選圖像。為什么不對FLUX模型進行微調(diào)以提高命中率?為了解決這個問題,使用超過7000個一致性網(wǎng)格擬合了LoRA(下圖6左)。盡管更多的樣本是一致性網(wǎng)格,但發(fā)現(xiàn)教師模型失去了輸出的多樣性。因此,選擇完全依賴VLMs幫助我們從大量多樣但潛在噪聲的網(wǎng)格中進行整理。
- 并行處理架構(gòu):將并行處理架構(gòu)與三種替代的圖像到圖像架構(gòu)進行比較:1)將源圖像與噪聲圖像進行拼接(“拼接”);2)基于ControlNet的設(shè)計;3)基于IP-Adapter 的設(shè)計。使用與并行處理模型相同的數(shù)據(jù)訓(xùn)練每個架構(gòu)(圖6中)。對于ControlNet,得出與先前工作 [14]相同的結(jié)論,它在結(jié)構(gòu)對齊編輯時表現(xiàn)最好,但當(dāng)源圖像和目標(biāo)圖像的相機姿勢不同時,通常難以保持細節(jié)。IP-Adapter由于其圖像編碼器的容量限制,在有效傳遞源圖像的細節(jié)和風(fēng)格方面存在困難。
- 其他圖像到圖像任務(wù):盡管不是“自蒸餾”,因為它需要外部來源的配對數(shù)據(jù)集(通過Depth Anything生成),我們還在深度到圖像任務(wù)上訓(xùn)練了我們的架構(gòu),以展示其在更一般的圖像到圖像任務(wù)中的應(yīng)用(圖6右)。
用戶研究為了評估本文生成圖像的保真度和提示一致性,在DreamBench++測試集的一個隨機子集上進行了用戶研究,選取了20個樣本。共有25名女性和29名男性標(biāo)注員,年齡從22歲到78歲(平均34歲),獨立地根據(jù)以下三個標(biāo)準(zhǔn)對每個圖像進行1到5分的評分:(1)概念保持—與參考圖像的一致性;(2)提示一致性—與給定提示的一致性;(3)創(chuàng)造力—內(nèi)部理解和轉(zhuǎn)化的水平。
下表2中展示了平均分數(shù)。人工標(biāo)注與GPT評估結(jié)果高度一致,表明Diffusion Self-Distillation在概念保持方面略遜于IP-Adapter+,在提示一致性方面略遜于推理階段調(diào)優(yōu)方法DreamBooth-LoRA。值得注意的是,本文的模型在創(chuàng)造力評分上取得了最高分,而IP-Adapter+由于其“復(fù)制粘貼”效應(yīng),在這一指標(biāo)上得分較低。這些結(jié)果進一步確認了Diffusion Self-Distillation提供了最平衡且優(yōu)越的整體表現(xiàn)。
討論
本文提出了Diffusion Self-Distillation,這是一種zero-shot方法,旨在使用文本到圖像的擴散模型,在無需人工干預(yù)的情況下實現(xiàn)廣泛上下文中的身份適應(yīng)。本文的方法有效地將zero-shot定制圖像生成轉(zhuǎn)化為監(jiān)督任務(wù),顯著降低了其難度。實證評估表明,Diffusion Self-Distillation在保持zero-shot方法效率的同時,與推理階段調(diào)優(yōu)技術(shù)相當(dāng)。
局限性與未來工作
本文的工作專注于角色、物體和場景重光的身份保持編輯。未來的方向可以探索更多任務(wù)和應(yīng)用場景。例如,與ControlNet的集成可以提供身份和結(jié)構(gòu)的細粒度獨立控制。此外,將我們的方法從圖像擴展到視頻生成是未來工作的一個有前景的方向。
結(jié)論
Diffusion Self-Distillation使內(nèi)容創(chuàng)作普適化,能夠進行身份保持、高質(zhì)量且快速的定制圖像生成,并能夠無縫適應(yīng)不斷發(fā)展的基礎(chǔ)模型,極大地拓展了藝術(shù)、設(shè)計和數(shù)字故事講述的創(chuàng)造性邊界。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
