自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

長篇故事可視化方法Story-Adapter:能夠生成更高質量、更具細膩交互的故事圖像

人工智能 新聞
本文介紹的Story-Adapter是一個迭代框架,它調整了預先訓練的穩(wěn)定擴散模型以進行長篇故事可視化。

字節(jié)&南開提出StoryDiffusion:生成一致的圖像和視頻來講述復雜故事,圖靈獎得主Yann LeCun親自轉載!

騰訊開源SEED-Story:AI續(xù)寫小說還能自動配圖!

今天給大家介紹一個最新的長篇故事可視化方法Story-Adapter,它的工作原理可以想象成一個畫家在創(chuàng)作一幅長畫卷。首先,畫家根據故事的文本提示畫出初步的圖像。這些圖像就像是畫卷的草圖。接下來,畫家會不斷回顧這些草圖,逐步添加細節(jié)和修正錯誤。在每一次修改中,畫家不僅參考之前的草圖,還會結合文本提示來確保每個細節(jié)都符合故事的內容。這種方法讓畫家的創(chuàng)作更加連貫,避免了由于錯誤累積而導致的畫面不一致。通過這種迭代的方式,Story-Adapter能夠生成更高質量、更具細膩交互的故事圖像,確保每一幀都能準確地傳達故事情節(jié)。

圖片

相關鏈接

論文地址:http://arxiv.org/abs/2410.06244v1

項目主頁:https://jwmao1.github.io/storyadapter

代碼地址:https://jwmao1.github.io/storyadapter

論文閱讀

故事可視化是一項基于敘述生成連貫圖像的任務,隨著文本到圖像模型(尤其是擴散模型)的出現,該任務取得了重大進展。然而,保持語義一致性、生成高質量的細粒度交互以及確保計算可行性仍然具有挑戰(zhàn)性,尤其是在長篇故事可視化(即最多 100 幀)中。

本文工作提出了一個無需訓練且計算效率高的框架,稱為 Story-Adapter,以增強長篇故事的生成能力。具體來說提出了一個迭代范式來細化每個生成的圖像,利用文本提示和上一次迭代生成的所有圖像。我們框架的核心是一個無需訓練的全局參考交叉注意模塊,它聚合了上一次迭代生成的所有圖像,以保持整個故事的語義一致性,同時通過全局嵌入最大限度地降低計算成本。這個迭代過程通過反復合并文本約束逐步優(yōu)化圖像生成,從而產生更精確和更細粒度的交互。大量實驗驗證了 Story-Adapter 在提高語義一致性和細粒度交互生成能力方面的優(yōu)勢,尤其是在長篇故事場景中。

方法

圖片Story-Adapter 框架。 所提出的迭代范式的說明,包括初始化、Story-Adapter 中的迭代和全局參考交叉注意 (GRCA) 的實現。Story-Adapter 首先僅根據故事的文本提示對每幅圖像進行可視化,并將所有結果用作下一輪的參考圖像。在迭代范式中,Story-Adapter 將 GRCA 插入 SD。對于每次圖像可視化的第 i 次迭代,GRCA 將通過交叉注意在去噪過程中聚合所有參考圖像的信息流。本次迭代的所有結果將用作參考圖像,以指導下一次迭代中故事可視化的動態(tài)更新。

與常規(guī)長度的故事相比,長篇故事包含更多角色和更復雜的交互,因此對語義一致性和細粒度交互生成的要求更高。為了解決上述挑戰(zhàn),文中采用了一種迭代范式,該范式在多輪中逐步完善所有生成的圖像,包括語義一致性和視覺細節(jié)。我們通過為固定的穩(wěn)定擴散 (SD) 模型配備交叉注意機制(稱為 Story-Adapter)來實例化迭代范式。

實驗

不同方法的定性比較

圖片

故事可視化的定性比較表明,AR-LDM 和 StoryGen 可生成連貫的圖像序列,但由于自回歸誤差,其質量會隨著故事長度而下降。StoryDiffusion 和 Story-Adapter 表現良好,盡管 StoryDiffusion 由于計算要求高而難以解決主題一致性和 ID 圖像缺陷問題。Story-Adapter 更能滿足有效故事可視化的要求。

圖片

長篇故事可視化的定性比較。 橙色和藍色框中的圖像序列分別由 StoryDiffusion 和 Story-Adapter 生成。Story-Adapter 在生成語義一致性和角色交互方面表現出優(yōu)勢。

圖片

迭代范式的消融研究:迭代范式的效果和不同固定λ的影響。

圖片

初始化和 GRCA 的定性消融研究。

圖片

Story-Adapter 對不同迭代的故事進行可視化,準確的交互用綠色表示,錯誤或缺失的交互用紅色表示。

圖片

StoryDiffusion 對“鋼琴家”故事的可視化結果。

結論

本文介紹的Story-Adapter是一個迭代框架,它調整了預先訓練的穩(wěn)定擴散模型以進行長篇故事可視化。通過使用以前迭代生成的圖像作為參考,該方法保持了語義一致性并提高了整個故事中細粒度交互的生成質量,有效地減少了錯誤積累并避免了缺陷的傳播。

為了提高效率,文中提出了一個即插即用的全局參考交叉注意 (GRCA) 模塊,它利用全局圖像嵌入來降低計算成本,同時保留必要的圖像信息流。大量實驗表明,Story-Adapter 在常規(guī)長度的故事可視化數據集上的表現優(yōu)于現有方法,并在長篇故事可視化中表現出色。這些發(fā)現凸顯了我們的迭代范式在提高文本到圖像故事可視化的質量和連貫性方面的潛力。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2023-11-30 13:04:56

LCM圖像

2025-01-07 09:30:00

模型論文AI

2023-09-25 12:02:34

AI模型

2024-07-03 11:02:41

2023-10-11 09:53:27

人工智能AI 圖像

2024-11-25 14:30:00

2016-12-04 09:11:39

可視化數據挖掘

2025-01-07 13:19:48

模型AI訓練

2020-12-30 15:14:46

人工智能數據技術

2017-07-14 09:54:47

代碼函數程序

2020-05-26 14:58:56

數據可視化數據數據故事

2021-08-08 14:26:24

SQL數據庫開發(fā)

2011-05-31 13:43:46

外鏈

2010-03-10 16:07:23

Ubuntu安裝Dyn

2023-10-04 09:56:33

圖片AI

2012-09-13 10:44:18

Python代碼

2011-03-04 10:11:09

JavascriptAPI
點贊
收藏

51CTO技術棧公眾號