北大提出定制化漫畫生成新框架DiffSensei,可生成具有動態(tài)多角色控制的漫畫圖像
由北京大學(xué)、上海人工智能實驗室、南洋理工大學(xué)提出了一種新框架DiffSensei可以實現(xiàn)定制化漫畫生成,解決現(xiàn)有方法在多角色場景中對角色外觀和互動控制不足的問題。DiffSensei結(jié)合了基于擴散的圖像生成器和多模態(tài)大語言模型(MLLM),其核心任務(wù)是生成具有動態(tài)多角色控制的漫畫圖像。
DiffSensei 的結(jié)果。(a)具有可控角色圖像、面板標題和布局條件的定制漫畫生成。DiffSensei 成功地根據(jù)面板標題生成了詳細的角色表情和狀態(tài)。(b)為真實人類圖像創(chuàng)作漫畫。對話由人類后期編輯。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2412.07589v1
- 主頁:https://jianzongwu.github.io/projects/diffsensei/
- 代碼:https://github.com/jianzongwu/DiffSensei
- 數(shù)據(jù)集:https://huggingface.co/datasets/jianzongwu/MangaZero
論文閱讀
DiffSensei:連接多模態(tài) LLM 和擴散模型以實現(xiàn)定制漫畫生成
摘要
故事可視化是從文本描述創(chuàng)建視覺敘事的任務(wù),文本到圖像生成模型已取得進展。然而,這些模型通常缺乏對角色外觀和互動的有效控制,尤其是在多角色場景中。
為了解決這些限制,論文提出了一項新任務(wù):定制漫畫生成,并引入了 DiffSensei,這是一個專為生成具有動態(tài)多角色控制的漫畫而設(shè)計的創(chuàng)新框架。DiffSensei 將基于擴散的圖像生成器與充當文本兼容身份適配器的多模態(tài)大語言模型 (MLLM) 集成在一起。該方法采用掩蔽交叉注意來無縫整合角色特征,無需直接像素傳輸即可實現(xiàn)精確的布局控制。
此外,基于 MLLM 的適配器會調(diào)整角色特征以與面板特定的文本提示保持一致,從而可以靈活調(diào)整角色表情、姿勢和動作。論文還推出了 MangaZero,這是一個專為此任務(wù)量身定制的大型數(shù)據(jù)集,包含 43,264 頁漫畫和 427,147 個帶注釋的面板,支持可視化連續(xù)幀中各種角色的互動和動作。大量實驗表明 DiffSensei 的表現(xiàn)優(yōu)于現(xiàn)有模型,通過實現(xiàn)文本自適應(yīng)角色定制,標志著漫畫生成取得了重大進步。
模型架構(gòu)
DiffSensei 的架構(gòu)。 在第一階段,論文訓(xùn)練一個具有布局控制的多角色定制漫畫圖像生成模型。在第一個卷積層之后,將對話嵌入添加到噪聲隱含層中。U-Net 和特征提取器中的所有參數(shù)都經(jīng)過訓(xùn)練。在第二階段,微調(diào) MLLM 的 LoRA 和重采樣器權(quán)重,以適應(yīng)與文本提示相對應(yīng)的源角色特征。使用第一階段的模型作為圖像生成器并凍結(jié)其權(quán)重。