自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架

發(fā)布于 2024-4-22 09:59
瀏覽
0收藏

過去幾年里,基于文本來生成圖像的擴(kuò)散模型得到了飛速發(fā)展,生成能力有了顯著的提升,可以很容易地生成逼真的肖像畫,以及各種天馬行空的奇幻畫作。


近期的相關(guān)研究主要集中在控制模型生成「個(gè)性化」的內(nèi)容,即用戶先提供一個(gè)最小概念圖像集,然后對預(yù)訓(xùn)練的文本轉(zhuǎn)圖像擴(kuò)散模型進(jìn)行增強(qiáng),從而使模型可以生成包含個(gè)性化概念的新場景。


現(xiàn)有的一些工作可以增強(qiáng)用戶對生成過程的控制,并衍生出許多量身定制的應(yīng)用場景;但要同時(shí)對多個(gè)概念進(jìn)行個(gè)性化處理,并控制圖像生成以準(zhǔn)確遵循給定的文本描述,仍然具有挑戰(zhàn)性。


最近,來自加州大學(xué)伯克利分校、牛津大學(xué)、哈佛大學(xué)、卡內(nèi)基梅隆大學(xué)、香港大學(xué)、加州大學(xué)戴維斯分校的研究人員聯(lián)合發(fā)表了一篇論文,討論了「圖像生成個(gè)性化」領(lǐng)域下的兩個(gè)關(guān)鍵問題。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)

論文鏈接:??https://arxiv.org/abs/2402.15504??

項(xiàng)目主頁:??https://danielchyeh.github.io/Gen4Gen/??


1. 當(dāng)前的個(gè)性化技術(shù)無法可靠地?cái)U(kuò)展到多個(gè)概念,研究人員推測是由于預(yù)訓(xùn)練數(shù)據(jù)集(如 LAION)中復(fù)雜場景和簡單文本描述之間的不匹配造成的。


2. 對于包含多個(gè)個(gè)性化概念的圖像,缺乏一種全面的衡量標(biāo)準(zhǔn),不僅評估個(gè)性化概念的相似程度,還評估圖像中是否包含所有概念,以及圖像是否準(zhǔn)確反映了整體文本描述。


為了解決上述問題,研究人員提出了一種半自動數(shù)據(jù)集創(chuàng)建管道Gen4Gen,利用生成模型將個(gè)性化概念與文本描述結(jié)合成復(fù)雜的組合;并且創(chuàng)建了一個(gè)可用于多概念個(gè)性化任務(wù)的基準(zhǔn)測試數(shù)據(jù)集MyCanvas。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


此外,研究人員還設(shè)計(jì)了一個(gè)由兩個(gè)分?jǐn)?shù)(CP-CLIP 和 TI-CLIP)組成的綜合指標(biāo),用于更好地量化多概念、個(gè)性化文本到圖像擴(kuò)散方法的性能。


我們在 Custom Diffusion 的基礎(chǔ)上提供了一個(gè)簡單的基線,其中包含經(jīng)驗(yàn)性提示策略,供未來的研究人員在MyCanvas上進(jìn)行評估。


實(shí)驗(yàn)結(jié)果表明,通過改進(jìn)數(shù)據(jù)質(zhì)量和提示策略,可以顯著提高多概念個(gè)性化圖像生成的質(zhì)量,而無需對模型架構(gòu)或訓(xùn)練算法進(jìn)行任何修改。


結(jié)果也證明,chaining基礎(chǔ)模型可能是生成高質(zhì)量數(shù)據(jù)集的一個(gè)有前途的方向,主要面向計(jì)算機(jī)視覺領(lǐng)域的各種挑戰(zhàn)性任務(wù)。


Gen4Gen:面向多概念個(gè)性化的數(shù)據(jù)驅(qū)動方法


給定一組由用戶提供的、多個(gè)概念的照片,多概念個(gè)性化的目標(biāo)是學(xué)習(xí)每個(gè)概念的特征,以便能合成由多個(gè)概念組成的、背景和構(gòu)圖各不相同的新圖像。


但隨著要注入圖像的個(gè)性化概念數(shù)量的增加,問題的難度也會大大增加。


之前的研究主要集中在優(yōu)化訓(xùn)練策略上,而這篇論文證明了在整個(gè)訓(xùn)練過程中提高數(shù)據(jù)質(zhì)量可以提高多概念個(gè)性化圖像的生成質(zhì)量。


1. 數(shù)據(jù)集設(shè)計(jì)原則


從 LAION 數(shù)據(jù)集中最具美感的子集(LAION-2B-en improved Aesthetics)中,可以清楚地看到圖像的復(fù)雜程度與簡單描述之間的不匹配。


由于該數(shù)據(jù)集主要通過網(wǎng)絡(luò)檢索,因此可能會出現(xiàn)差異:例如,圖像可能存在不準(zhǔn)確的大量文本描述,以及包含多個(gè)對象的圖像分辨率較低。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


研究人員從這些差異中汲取靈感,并提供了三個(gè)關(guān)鍵的設(shè)計(jì)原則:


1)詳細(xì)的文字描述和圖像配對:文本必須與相應(yīng)的圖像對齊,為前景和背景對象提供信息;


2)合理的物體布局和背景生成:為了避免圖像看起來像人工剪切混合圖像(Cut-Mixes),并充分利用 LAION 數(shù)據(jù)集已有的信息,必須確保只有在現(xiàn)實(shí)生活中有可能捕捉到物體時(shí),這些物體才會同時(shí)出現(xiàn)在一張圖像中,而且它們在圖像中的位置也要合理;


3)高分辨率:確保數(shù)據(jù)集能夠滿足生成高質(zhì)量、多概念個(gè)性化圖像的最終目標(biāo)。


2. Gen4Gen管道


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


如上圖所示,Gen4Gen主要包括三個(gè)階段:


1)對象關(guān)聯(lián)(object association)和前景分割;


2)LLM 引導(dǎo)的對象組合;


3)背景重繪和圖像重構(gòu)。


3. 數(shù)據(jù)集統(tǒng)計(jì)


對于MyCanvas數(shù)據(jù)集,研究人員收集了150個(gè)對象(每個(gè)對象有一張或多張圖片),并創(chuàng)建了41個(gè)可能的組合(composition)和 10,000 多張圖片,然后手動篩選出 2684 張重繪結(jié)果質(zhì)量最好的圖片。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


在該數(shù)據(jù)集中,圖像描述的平均單詞長度為17.7個(gè),大約30%的描述長度超過了20個(gè)單詞。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


與之前的基準(zhǔn)(如 DreamBooth 和 Custom Diffusion)相比,新數(shù)據(jù)集涵蓋了更多種類的對象和多概念組合,因此是衡量個(gè)性化任務(wù)的更全面的數(shù)據(jù)集。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


4. 提升訓(xùn)練時(shí)間的文本提示


除了設(shè)計(jì)與數(shù)據(jù)集中的圖像完全一致的提示外,研究人員在訓(xùn)練過程中進(jìn)一步探索最佳提示設(shè)計(jì)。


全局合成token


之前的工作(如DreamBooth)已經(jīng)表明,模型可以學(xué)會將一個(gè)新token映射到非常困難的概念上,如莫奈藝術(shù)這樣的抽象風(fēng)格。


研究人員將這一概念應(yīng)用于復(fù)雜的合成:通過引入全局token和每個(gè)物體的單獨(dú)token,該模型在描述詳細(xì)場景安排方面的能力得到了增強(qiáng),從而生成的圖像更加逼真、更加連貫


在訓(xùn)練過程中重復(fù)概念token提示


可以注意到,在很多情況下,涉及多個(gè)概念的復(fù)雜組合往往會導(dǎo)致一個(gè)或兩個(gè)概念缺失,可能是由于模型有時(shí)會忘記冗長提示中的細(xì)節(jié);所以在訓(xùn)練過程中采用了重復(fù)概念token提示的策略,可以促使模型確保生成的圖像中存在每個(gè)指定的概念,從而提高整體對象的持久性和完整性。


結(jié)合背景提示


研究人員觀察到一個(gè)問題,即在token特征空間中,背景會無意中與object identity一起學(xué)習(xí)。


為了區(qū)分背景和概念的構(gòu)成,必須確保在訓(xùn)練提示中說明背景,以鼓勵(lì)concept tokens只學(xué)習(xí)object identity


5. 個(gè)性化組合指標(biāo)(composition metric)


為了克服這一問題,我們從文獻(xiàn)[3, 18]中汲取靈感,提出了兩個(gè)指標(biāo)。第一個(gè)指標(biāo)是合成個(gè)性化 CLIP 分?jǐn)?shù)(CP-CLIP),用于評估合成和個(gè)性化的準(zhǔn)確性。第二個(gè)指標(biāo)是文本-圖像對齊 CLIP 分?jǐn)?shù)(TI-CLIP),通過評估模型在不同文本背景下的泛化質(zhì)量,作為潛在過擬合的指標(biāo)。


組合個(gè)性化CLIP評分(CP-CLIP)


用于評估組合和個(gè)性化的準(zhǔn)確率。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


該指標(biāo)主要解決兩個(gè)問題:


1)文本中提到的每個(gè)個(gè)性化概念是否都在圖像生成過程中得到了反映?(組合準(zhǔn)確性)


2)生成的個(gè)性化概念是否與其源對應(yīng)概念相似?(忠實(shí)度)


文本圖像對齊CLIP評分(TI-CLIP)


通過評估模型在不同文本背景下的泛化質(zhì)量,作為潛在過擬合的指標(biāo)。


為了定量衡量過度擬合的程度,研究人員將TI-CLIP計(jì)算為「生成圖像」與「提示詞」之間的 CLIP 分?jǐn)?shù)。


雖然 TI-CLIP 的表述與 CP-CLIP 非常相似(即可以將 TI-CLIP 視為個(gè)性化剪輯得分的一種特例,其邊界框?yàn)檎麄€(gè)圖像,個(gè)性化目標(biāo)為文本),但其評估的是模型泛化質(zhì)量的一個(gè)正交概念,因此應(yīng)作為一個(gè)單獨(dú)的指標(biāo)來衡量。


從高層次來看,TI-CLIP 衡量的是整個(gè)生成圖像的背景提示(不包括對象),在提高CP-CLIP分?jǐn)?shù)時(shí),其目標(biāo)應(yīng)該是維持 TI-CLIP 的評分,也能表明模型并沒有過度擬合訓(xùn)練集的背景。


評分解釋


在實(shí)踐中,研究人員發(fā)現(xiàn)CP-CLIP的理想分?jǐn)?shù)約為0.5,而TI-CLIP的分?jǐn)?shù)應(yīng)保持不變,不會增加。


實(shí)驗(yàn)結(jié)果


定量分析


研究人員使用了 41 個(gè)文本提示,每個(gè)提示有 6 個(gè)樣本,共生成 246 幅圖像。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


很明顯,在使用原始源圖像進(jìn)行學(xué)習(xí)時(shí),Custom Diffusion的性能比使用 MyCanvas 數(shù)據(jù)集的同類產(chǎn)品降低了 50%。


將我們的提示策略應(yīng)用于自定義擴(kuò)散后,CP-CLIP 分?jǐn)?shù)進(jìn)一步提高。


值得注意的是,TI-CLIP 分?jǐn)?shù)(表示背景泛化)在所有方法中都保持一致,可以確保組合準(zhǔn)確率的提高不是因?yàn)檫^擬合。


定性分析


研究人員精心設(shè)計(jì)了多個(gè)prompt來測試模型在不同于訓(xùn)練場景的新場景中生成概念、將概念與其他已知對象(如獨(dú)木舟上的貓、漂浮物上的獅子)組合在一起以及描述概念相對位置(如并排、背景中)的能力。


主要對比了三種設(shè)置下的定性結(jié)果:


1)使用原始源圖像進(jìn)行自定義擴(kuò)散;


2)使用MyCanvas(由源圖像組成的數(shù)據(jù)集)進(jìn)行自定義擴(kuò)散;


3)提示策略建立在使用MyCanvas進(jìn)行自定義擴(kuò)散的基礎(chǔ)之上。


「個(gè)性化」圖像生成時(shí)代來了!六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架-AI.x社區(qū)


可以看到,即使背景描述極具挑戰(zhàn)性,組合策略也能成功分離出潛在空間中相似的物體(如獅子和貓、兩輛拖拉機(jī))。


此外,隨著組合的難度增加(即每一行的下降會增加組合中對象的數(shù)量),提示方法可確保在生成過程中不會遺漏任何概念。


值得注意的是,結(jié)果證明了通過使用 MyCanvas 數(shù)據(jù)集,現(xiàn)有個(gè)性化模型(如自定義擴(kuò)散模型)的生成質(zhì)量可以顯著提高。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/t1LYaIGgDIRHdAoB0KpNyQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦