自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成

發(fā)布于 2025-2-6 11:12
瀏覽
0收藏

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2501.13554
GitHub代碼:https://github.com/byliutao/1Prompt1Story
項目主頁:https://byliutao.github.io/1Prompt1Story.github.io/


亮點直擊

  • 首次分析了語言模型維持固有上下文一致性的能力,能夠在一個提示中讓多個幀的描述天然指代同一主體身份。?
  • 基于上下文一致性特性,提出了一種新穎的免訓(xùn)練方法——One Prompt One Story,用于實現(xiàn)一致的文本到圖像生成。更具體地,進一步提出了提示加權(quán)(SVR)和交叉注意一致性(IPCA)技術(shù),以改善文本與圖像之間的對齊和主體一致性,使得每個幀提示能夠在單個提示內(nèi)獨立表達,同時保持與身份提示一致的身份。
  • 方法在生成圖像時能夠在長篇敘述中有效維護身份一致性,并在擴展基準(zhǔn)測試中表現(xiàn)優(yōu)異。

效果先睹為快

下圖為One Prompt One Story的故事生成效果,在無需任何訓(xùn)練下就可以實現(xiàn)具有ID一致的多幀圖片生成。

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)


總結(jié)速覽

解決的問題

  • 文本到圖像生成模型在支持故事敘述時難以保持身份一致性。
  • 現(xiàn)有解決方案通常需要大量訓(xùn)練或?qū)δP图軜?gòu)進行修改,限制了其適用性。

提出的方案

  • 提出“單提示單故事”(1Prompt1Story)作為一種無需訓(xùn)練的方法,通過單一提示實現(xiàn)一致的文本到圖像生成。

應(yīng)用的技術(shù)

  • 奇異值重加權(quán)(Singular-Value Reweighting)
  • 身份保持的交叉注意力(Identity-Preserving Cross-Attention)

達到的效果

  • 改善了文本-圖像對齊和主體一致性。
  • 在與現(xiàn)有方法的比較中,通過定量指標(biāo)和定性評估展示了其在長篇敘述中保持身份一致性的有效性,并在擴展的ConsiStory+基準(zhǔn)上進行了驗證。

研究背景

基于文本的圖像生成(T2I)旨在從文本提示中生成高質(zhì)量的圖像,以展示不同場景中的各種主題。在動畫、故事敘述、視頻生成模型及其他敘事驅(qū)動的視覺應(yīng)用中,T2I擴散模型在多種場景中保持主體一致性的能力至關(guān)重要。然而,現(xiàn)有模型在生成一致性主體方面仍然面臨挑戰(zhàn)。最近基于訓(xùn)練的方法比如IP-Adapter, PhotoMaker通過訓(xùn)練一個Image encoder來注入身份信息,但這通常需要耗費大量時間,依賴于大型數(shù)據(jù)集進行訓(xùn)練或微調(diào),并容易破壞基礎(chǔ)模型本身的生成能力和文體圖像一致性。


最近出現(xiàn)的無訓(xùn)練方法比如Consistory, StoryDiffusion通過在推理階段的self-attention模塊中共享不同圖像之間的圖像特征來生成具有強一致性的圖像,取得了顯著成果,但這類方法往往需要大量的顯存資源或復(fù)雜的模塊設(shè)計,并未充分考慮長提示中身份信息自然保持的固有特性。在這樣的背景下,我們提出了一種名為“單提示單故事”(One-Prompt-One-Story)的新方法,通過將所有所需提示整合為一個更長的句子,實現(xiàn)了在無需額外調(diào)優(yōu)或復(fù)雜設(shè)計情況下的圖像生成一致性。通過進一步引入的技巧以改善文本和圖像之間的對齊和主題一致性,1Prompt1Story在生成圖像時能夠有效維護長敘述中的身份一致性。

如下圖所示,現(xiàn)有方法在一致的文本到圖像生成方面面臨挑戰(zhàn)。像SDXL(Podell等,2023)和Juggernaut-X-v10(RunDiffusion,2024)這樣的T2I模型在生成的圖像中常常表現(xiàn)出明顯的身份不一致。盡管包括IP-Adapter和ConsiStory在內(nèi)的最新方法已改善了身份一致性,但它們在生成圖像與相應(yīng)輸入提示之間的對齊性上有所缺失。我們的方法1Prompt1Story(倒數(shù)第一列)所示的額外結(jié)果證明了在不影響文本與圖像之間對齊的情況下,能夠?qū)崿F(xiàn)更優(yōu)越的身份一致性生成。

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

單個prompt中的身份一致性分析

在文本嵌入一致性的分析中,本文比較了single prompt生成與multi prompt生成在語義距離上的差異,并通過t-SNE進行二維可視化。研究結(jié)果顯示,single prompt生成中的各幀提示的文本嵌入更加緊密,平均L2距離為46.42,而multi prompt生成的散布更廣,距離為71.25。這表明single prompt生成在語義信息和身份一致性方面更具優(yōu)勢。


在圖像生成方面,采用multi prompt生成的SDXL模型往往會生成缺乏身份一致性的角色。相較之下,通過“Naive Prompt Reweighting(NPR)”方法,利用串聯(lián)的single prompt生成可以在圖像幀中保持主體身份的一致性。這種方法在身份一致性和文本-圖像對齊上比multi prompt生成表現(xiàn)更佳。此外,1Prompt1Story方法在保持身份特征一致性方面更加出色,通過DINO-v2提取的視覺特征并使用t-SNE進行可視化證實了這一點。這些發(fā)現(xiàn)也在ConsiStory+基準(zhǔn)中得到驗證,表明single prompt生成在身份一致性上明顯優(yōu)于multi prompt生成。這說明在生成內(nèi)容時,通過采用合適的方法整合提示,可以顯著增強語義和身份的一致性。

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

上面左圖顯示了SDXL通過multi-prompt生成方法生成的圖像幀,而Naive Prompt Reweighting(NPR)和我們的方法則采用了single-prompt設(shè)置。中圖展示了通過DINO-v2提取的圖像特征,并通過t-SNE可視化。Naive Prompt Reweighting和1Prompt1Story相比SDXL模型表現(xiàn)出更一致的身份生成。右圖展示了我們擴展的ConsiStory+基準(zhǔn)中生成圖像特征的平均距離統(tǒng)計,進一步確認(rèn)了1Prompt1Story在身份一致性方面表現(xiàn)更加出色。

方法

Naive Prompt Reweighting

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

我們可以輕松實現(xiàn)一種基礎(chǔ)方法,稱為Naive Prompt Reweighting(NPR),以提高文本到圖像(T2I)生成的性能。通過放大需要表達的幀對應(yīng)的prompt embedding的權(quán)重,縮小需要抑制的幀對應(yīng)的prompt embedding的權(quán)重,生成的圖像即可具備一定的身份一致性。然而,這種方法存在兩個明顯的問題:一是生成的圖片之間背景較為相似,二是身份的一致性還不夠。這是因為在text encoder的因果掩碼機制下,每個單詞對應(yīng)的embedding都會包含前面所有單詞的信息,而EOT則包含整個句子的信息。因此,NPR無法完全消除其它幀prompt的影響,并且簡單的權(quán)重調(diào)整也會對embedding中的身份信息產(chǎn)生干擾。為了解決這些問題,我們提出了SVR和IPCA方法,可以更有效地剔除無關(guān)幀的prompt信息影響,并提高身份一致性。

1Prompt1Story

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

如上圖所示,a區(qū)域展示了1Prompt1Story的整體流程。我們將身份提示和幀提示結(jié)合為一個single prompt,隨后應(yīng)用奇異值重新加權(quán)(SVR)和身份保持交叉注意(IPCA)以生成身份一致的圖像。b區(qū)域描述了SVR的過程,我們首先增強需要表達的frame prompt的語義信息(紅色箭頭所示),然后迭代地弱化抑制需要抑制的frame prompt的語義信息(藍色箭頭所示)。c區(qū)域則展示了IPCA的過程,我們通過在cross attention中引入原始single prompt的embedding中的ID信息,與當(dāng)前生成的幀的embedding feature進行融合(也就是對KV進行concat),從而提升身份一致性。

實驗

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

在上圖中,我們展示了定性比較結(jié)果。我們的1Prompt1Story方法在多個關(guān)鍵方面表現(xiàn)出色,包括身份保留、精確的幀描述以及物體姿態(tài)的多樣性。相比之下,其他方法在這些方面存有不足。具體來說,PhotoMaker、ConsiStory和StoryDiffusion在左側(cè)示例中生成的“龍”這一主體顯示出身份不一致的問題。此外,IP-Adapter傾向于生成姿態(tài)重復(fù)、背景相似的圖像,常常忽略幀提示的細(xì)節(jié)描述。ConsiStory在一致的文本到圖像生成過程中也表現(xiàn)出背景重復(fù)的現(xiàn)象。此外,我們還與其他方法進行了定量比較。我們的方法1Prompt1Story在CLIP-T(文本-圖像對齊)得分上接近于原始SDXL模型。在身份一致性方面(通過DreamSim指標(biāo)衡量),我們的效果僅次于IP-Adapter。然而,IP-Adapter的高身份相似性主要是因為它傾向于生成姿態(tài)和布局相似的角色圖像。如下圖所示,我們的方法1Prompt1Story位于圖的右上角,顯示出在文本-圖像對齊和身份一致性方面都有良好的表現(xiàn)。

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

應(yīng)用

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

1Prompt1Story不僅能夠身份一致性生成,還能與現(xiàn)有的基于控制的生成方法(如ControlNet (Zhang & Agrawala, 2023))進行結(jié)合。如上圖(左)所示,我們的方法通過ControlNet有效通過控制生成角色的姿態(tài)。此外,我們的方法可以與其他基于訓(xùn)練的方法(如PhotoMaker (Li et al., 2023b))相結(jié)合,以提高圖像與真實參考圖像的身份一致性。通過采用我們的方法,所生成的圖像更貼近于真實身份,如上圖(右)所示。

結(jié)論與展望

在這篇論文中,我們通過利用自然語言中固有的上下文一致性特性,解決了文本到圖像(T2I)生成中保持主體一致性的關(guān)鍵挑戰(zhàn)。我們提出的“One-Prompt-One-Story(1Prompt1Story)”方法,采用單一擴展提示,確保在多樣化的場景中實現(xiàn)身份的一致性。通過整合奇異值重加權(quán)和身份保持交叉注意力等技術(shù),該方法不僅優(yōu)化了幀描述,還在注意力層面增強了一致性。實驗結(jié)果在ConsiStory+基準(zhǔn)測試中顯示出1Prompt1Story優(yōu)于當(dāng)前最先進技術(shù),展現(xiàn)了其在動畫、互動敘事和視頻生成中的應(yīng)用潛力。我們的研究強調(diào)了在T2I擴散模型中理解上下文的重要性,為實現(xiàn)更連貫和敘述一致的視覺輸出開辟了新路徑。

附加消融實驗

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)


ICLR 2025 | One Prompt One Story!基于單個prompt實現(xiàn)免訓(xùn)練身份一致圖像生成-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/FySD3zgA4Ca6yLO4LnzJeA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦