南開提出1Prompt1Story,無需訓(xùn)練,可通過單個(gè)連接提示實(shí)現(xiàn)一致的文本到圖像生成
(1Prompt1Story)是一種無訓(xùn)練的文本到圖像生成方法,通過整合多個(gè)提示為一個(gè)長句子,并結(jié)合奇異值重加權(quán)(SVR)和身份保持交叉注意力(IPCA)技術(shù),解決了生成圖像中身份不一致的問題,同時(shí)保持了文本描述的精準(zhǔn)對齊。
相關(guān)鏈接
- 論文:https://arxiv.org/abs/2501.13554
- 代碼:https://github.com/byliutao/1Prompt1Story
- 主頁:https://byliutao.github.io/1Prompt1Story.github.io/
論文介紹
論文出了一種無需訓(xùn)練的方法1Prompt1Story,通過單個(gè)連接提示實(shí)現(xiàn)一致的文本到圖像生成。我們的方法可以應(yīng)用于所有基于文本嵌入的文本到圖像模型。此外,它還支持多字符生成、ControlNet 引導(dǎo)生成和個(gè)性化生成逼真的圖像。
方法
(a):1Prompt1Story 的整體流程。將身份提示和框架提示合并為一個(gè)提示,然后應(yīng)用奇異值重加權(quán) (SVR) 和身份保留交叉注意力 (IPCA) 來生成身份一致的圖像。(b):在SVR期間,首先增強(qiáng)表達(dá)集X_exp的語義信息(紅色箭頭),然后迭代地削弱抑制集X_sup的語義(藍(lán)色箭頭)。(c):在IPCA中將 K_tilde 與 K_bar 連接,將 V_tilde 與 V_bar 連接,以提高身份一致性。
(左):1Prompt1Story 可以與 ControlNet 集成,以實(shí)現(xiàn)空間控制,從而實(shí)現(xiàn)一致的角色生成。(右):此外,提出的方法還可以與其他方法(例如 PhotoMaker)結(jié)合使用,以實(shí)現(xiàn)真實(shí)圖像個(gè)性化,同時(shí)提高身份一致性。
結(jié)果展示
現(xiàn)有方法(上)在 T2I 生成一致性方面面臨挑戰(zhàn)。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的圖像之間經(jīng)常表現(xiàn)出明顯的身份不一致。盡管包括 IP-Adapter 和 ConsiStory 在內(nèi)的最新方法已經(jīng)提高了身份一致性,但它們失去了生成的圖像與相應(yīng)輸入提示之間的一致性。提出的方法的其他結(jié)果(下)展示了卓越的一致性,同時(shí)不損害文本和圖像之間的一致性。
對幀提示順序的魯棒性。使用同一組幀提示但不同的順序,提出的方法 1Prompt1Story 可以一致地生成具有統(tǒng)一標(biāo)識的圖像。
多主題故事生成。通過在身份提示中定義多個(gè)主題,提出的方法生成具有多個(gè)角色的圖像,每個(gè)圖像都保持良好的身份一致性。
與不同的基礎(chǔ)模型相結(jié)合。