阿里通義實驗室提出AnyStory:開啟個性化文本到圖像生成的新篇章!
在這個數(shù)字化時代,生成式AI技術(shù)正以前所未有的速度改變著我們的創(chuàng)作方式。近期,阿里通義實驗室發(fā)表了一篇題為《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的論文,該論文提出了一種創(chuàng)新的框架,旨在通過統(tǒng)一的路徑實現(xiàn)單個及多個主體的個性化文本到圖像生成,為故事可視化、藝術(shù)創(chuàng)作乃至更多領(lǐng)域帶來了革命性的突破。
論文中深入探討了當前文本到圖像生成技術(shù)面臨的挑戰(zhàn),如主體一致性、細節(jié)保留以及多主體個性化等方面的不足。為了解決這些問題,他們提出了AnyStory框架,該框架結(jié)合了增強的主體表示編碼器和解耦的實例感知主體路由器,實現(xiàn)了前所未有的個性化生成效果。
上圖為AnyStory的示例。該方法在保留主題細節(jié)、對齊文本描述和個性化多個主題方面表現(xiàn)出色。其中純白色背景的圖像作為參考。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2501.09503v1
- 主頁:https://aigcdesigngroup.github.io/AnyStory/
論文介紹
最近,大規(guī)模生成模型已經(jīng)展示了出色的文本到圖像生成能力。 然而,生成具有特定主題的高保真?zhèn)€性化圖像仍然存在挑戰(zhàn),特別是在涉及多個主題的情況下。論文出了一種統(tǒng)一的個性化主題生成方法 AnyStory。AnyStory 不僅可以實現(xiàn)單個主題的高保真?zhèn)€性化,還可以實現(xiàn)多個主題的高保真?zhèn)€性化,而不會犧牲主題保真度。具體來說,AnyStory 以“編碼然后路由”的方式對主題個性化問題進行建模。在編碼步驟中,AnyStory 利用通用且強大的圖像編碼器 ReferenceNet 與 CLIP 視覺編碼器結(jié)合實現(xiàn)主題特征的高保真編碼。在路由步驟中, AnyStory 利用解耦的實例感知主題路由器 準確感知和預測潛在空間中相應主題的潛在位置,并指導主題條件的注入。詳細的實驗結(jié)果證明了我們的方法在保留主題細節(jié)、對齊文本描述和針對多個主題進行個性化方面的出色表現(xiàn)。
方法
AnyStory 遵循“編碼后路由”的條件生成范式,首先利用簡化的 ReferenceNet 結(jié)合 CLIP 視覺編碼器對主體進行編碼,然后利用解耦的實例感知主體路由器引導主體條件注入。訓練過程分為兩個階段:主體編碼器訓練階段和路由器訓練階段。為簡潔起見省略了文本條件分支。
效果展示
論文中的大量實驗結(jié)果驗證了AnyStory在單個及多個主體個性化生成方面的卓越性能。無論是生動的動漫場景、逼真的電影畫面,還是充滿想象力的奇幻世界,AnyStory都能根據(jù)文本提示,生成高度一致且個性化的圖像序列。此外,通過可視化路由圖,我們可以直觀地看到框架如何精確地預測和定位每個主體的潛在位置。