南開提出1Prompt1Story，無需訓(xùn)練，可通過單個(gè)連接提示實(shí)現(xiàn)一致的文本到圖像生成

作者：AIGC Studio 2025-03-14 10:02:38

論文出了一種無需訓(xùn)練的方法1Prompt1Story，通過單個(gè)連接提示實(shí)現(xiàn)一致的文本到圖像生成。

（1Prompt1Story）是一種無訓(xùn)練的文本到圖像生成方法，通過整合多個(gè)提示為一個(gè)長句子，并結(jié)合奇異值重加權(quán)（SVR）和身份保持交叉注意力（IPCA）技術(shù)，解決了生成圖像中身份不一致的問題，同時(shí)保持了文本描述的精準(zhǔn)對齊。

論文介紹

論文出了一種無需訓(xùn)練的方法1Prompt1Story，通過單個(gè)連接提示實(shí)現(xiàn)一致的文本到圖像生成。我們的方法可以應(yīng)用于所有基于文本嵌入的文本到圖像模型。此外，它還支持多字符生成、ControlNet 引導(dǎo)生成和個(gè)性化生成逼真的圖像。

方法

(a)：1Prompt1Story 的整體流程。將身份提示和框架提示合并為一個(gè)提示，然后應(yīng)用奇異值重加權(quán) (SVR) 和身份保留交叉注意力 (IPCA) 來生成身份一致的圖像。(b)：在SVR期間，首先增強(qiáng)表達(dá)集X_exp的語義信息（紅色箭頭），然后迭代地削弱抑制集X_sup的語義（藍(lán)色箭頭）。(c)：在IPCA中將 K_tilde 與 K_bar 連接，將 V_tilde 與 V_bar 連接，以提高身份一致性。

（左）：1Prompt1Story 可以與 ControlNet 集成，以實(shí)現(xiàn)空間控制，從而實(shí)現(xiàn)一致的角色生成。（右）：此外，提出的方法還可以與其他方法（例如 PhotoMaker）結(jié)合使用，以實(shí)現(xiàn)真實(shí)圖像個(gè)性化，同時(shí)提高身份一致性。

結(jié)果展示

現(xiàn)有方法（上）在 T2I 生成一致性方面面臨挑戰(zhàn)。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的圖像之間經(jīng)常表現(xiàn)出明顯的身份不一致。盡管包括 IP-Adapter 和 ConsiStory 在內(nèi)的最新方法已經(jīng)提高了身份一致性，但它們失去了生成的圖像與相應(yīng)輸入提示之間的一致性。提出的方法的其他結(jié)果（下）展示了卓越的一致性，同時(shí)不損害文本和圖像之間的一致性。