廈門大學(xué)聯(lián)合網(wǎng)易提出StoryWeaver,可根據(jù)統(tǒng)一模型內(nèi)給定的角色實現(xiàn)高質(zhì)量的故事可視化
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
廈門大學(xué)聯(lián)合網(wǎng)易提出StoryWeaver,可以根據(jù)統(tǒng)一模型內(nèi)給定的角色實現(xiàn)高質(zhì)量的故事可視化。可根據(jù)故事文本生成與之匹配的圖像,并且確保每個角色在不同的場景中保持一致。本文的方法主要包括以下幾個步驟:
- 1. 角色圖構(gòu)建:設(shè)計一個角色圖(CG),將故事中的角色、事件和屬性節(jié)點結(jié)構(gòu)化表示。角色作為對象節(jié)點,屬性節(jié)點則附加在角色上,角色之間的關(guān)系通過邊連接,形成一個全面的知識網(wǎng)絡(luò)。
- 2. 定制化生成:通過角色圖(C-CG)進行定制化,生成詳細的場景描述,捕捉角色的細節(jié)和它們之間的互動。使用視覺語言模型(VLM)提取圖像的豐富語義信息,并通過場景圖解析器提取事件相關(guān)的語義。
- 3. 知識增強的空間引導(dǎo):在交叉注意力機制中引入知識增強的空間引導(dǎo),以修改注意力圖,確保角色在生成過程中的一致性。通過分配外部知識來優(yōu)化角色在圖像中的位置和關(guān)系,從而改善多角色生成的質(zhì)量。
StoryWeaver 可以根據(jù)統(tǒng)一模型內(nèi)給定的角色實現(xiàn)高質(zhì)量的故事可視化。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.07375v2
- 主頁:https://github.com/Aria-Zhangjl/StoryWeaver
論文閱讀
StoryWeaver:知識增強型故事角色定制的統(tǒng)一世界模型
摘要
故事可視化在人工智能領(lǐng)域越來越受到關(guān)注。然而,現(xiàn)有的方法仍然難以在角色身份保存和文本語義對齊之間保持平衡,這主要是由于缺乏對故事場景的詳細語義建模。
為了應(yīng)對這一挑戰(zhàn),論文提出了一種新的知識圖譜即角色圖譜(CG),它全面代表了各種與故事相關(guān)的知識,包括角色、與角色相關(guān)的屬性以及角色之間的關(guān)系。然后介紹了StoryWeaver,這是一個通過角色圖譜 (CCG) 實現(xiàn)定制的圖像生成器,能夠?qū)崿F(xiàn)具有豐富文本語義的一致故事可視化。為了進一步提高多角色生成性能,論文將知識增強空間引導(dǎo) (KE-SG) 結(jié)合到 StoryWeaver 中,以精確地將角色語義注入生成中。
為了驗證提出方法的有效性,文中使用一個名為 TBC-Bench 的新基準進行了廣泛的實驗。實驗證實 StoryWeaver 不僅擅長創(chuàng)造生動的視覺故事情節(jié),而且還擅長在各種場景中準確傳達人物身份,并且具有相當(dāng)高的存儲效率,例如,DINO-I 平均提升了 9.03%,CLIP-T 平均提升了 13.44%。此外,還進行了消融實驗以驗證所提模塊的優(yōu)越性。
方法
StoryWeaver 的整體框架。
a. 論文提出 Character-Graph 來表示故事世界中的語義豐富知識。
b. 通過提出的空間指導(dǎo)增強了 StoryWeaver,以進一步提高多角色生成的性能
通過字符圖 (C-CG) 和知識增強空間引導(dǎo) (KE-SG) 進行定制的影響的視覺示例。
a. 如果沒有 C-CG,生成器將難以捕捉角色的更細粒度的細節(jié)。
b. 如果沒有 KESG,生成器傾向于在所有區(qū)域均勻分配注意力,從而導(dǎo)致身份混合。
結(jié)果
不同方法在單角色和多角色視覺敘事上的視覺比較。StoryWeaver 擅長角色身份定制和匹配良好的語義對齊。
(a)單字符生成示例
(b)多字符生成示例
Pororo 數(shù)據(jù)集上的多角色故事可視化示例。
收集的角色和樣本集中于兩部動畫片,即《波魯魯》和《冰雪奇緣》。這些樣本包括對單個角色的詳細描述以及展示多個角色之間互動的場景。
結(jié)論
論文提出了一個統(tǒng)一的模型StoryWeaver,該框架具有復(fù)雜的角色定制功能,可用于故事可視化。論文首先提出了一種新穎的角色圖,它將故事世界中的豐富語義知識封裝起來以增強StoryWeaver。然后引入知識增強的空間指導(dǎo)來改進交叉注意力圖,以實現(xiàn)精確的多角色生成。實驗結(jié)果表明,與一組單一和多重定制方法相比,StoryWeaver 在身份定制方面實現(xiàn)了更好的保真度,并實現(xiàn)了更好的語義對齊。