北大提出定制化漫畫生成新框架DiffSensei，可生成具有動態(tài)多角色控制的漫畫圖像

作者：Jianzong Wu等 2025-01-26 10:27:50

論文提出了一項新任務(wù)：定制漫畫生成，并引入了 DiffSensei，這是一個專為生成具有動態(tài)多角色控制的漫畫而設(shè)計的創(chuàng)新框架。

由北京大學(xué)、上海人工智能實驗室、南洋理工大學(xué)提出了一種新框架DiffSensei可以實現(xiàn)定制化漫畫生成，解決現(xiàn)有方法在多角色場景中對角色外觀和互動控制不足的問題。DiffSensei結(jié)合了基于擴散的圖像生成器和多模態(tài)大語言模型（MLLM），其核心任務(wù)是生成具有動態(tài)多角色控制的漫畫圖像。

DiffSensei 的結(jié)果。（a）具有可控角色圖像、面板標題和布局條件的定制漫畫生成。DiffSensei 成功地根據(jù)面板標題生成了詳細的角色表情和狀態(tài)。（b）為真實人類圖像創(chuàng)作漫畫。對話由人類后期編輯。

論文閱讀

DiffSensei：連接多模態(tài) LLM 和擴散模型以實現(xiàn)定制漫畫生成

摘要

故事可視化是從文本描述創(chuàng)建視覺敘事的任務(wù)，文本到圖像生成模型已取得進展。然而，這些模型通常缺乏對角色外觀和互動的有效控制，尤其是在多角色場景中。

為了解決這些限制，論文提出了一項新任務(wù)：定制漫畫生成，并引入了 DiffSensei，這是一個專為生成具有動態(tài)多角色控制的漫畫而設(shè)計的創(chuàng)新框架。DiffSensei 將基于擴散的圖像生成器與充當文本兼容身份適配器的多模態(tài)大語言模型 (MLLM) 集成在一起。該方法采用掩蔽交叉注意來無縫整合角色特征，無需直接像素傳輸即可實現(xiàn)精確的布局控制。

此外，基于 MLLM 的適配器會調(diào)整角色特征以與面板特定的文本提示保持一致，從而可以靈活調(diào)整角色表情、姿勢和動作。論文還推出了 MangaZero，這是一個專為此任務(wù)量身定制的大型數(shù)據(jù)集，包含 43,264 頁漫畫和 427,147 個帶注釋的面板，支持可視化連續(xù)幀中各種角色的互動和動作。大量實驗表明 DiffSensei 的表現(xiàn)優(yōu)于現(xiàn)有模型，通過實現(xiàn)文本自適應(yīng)角色定制，標志著漫畫生成取得了重大進步。

模型架構(gòu)

DiffSensei 的架構(gòu)。 在第一階段，論文訓(xùn)練一個具有布局控制的多角色定制漫畫圖像生成模型。在第一個卷積層之后，將對話嵌入添加到噪聲隱含層中。U-Net 和特征提取器中的所有參數(shù)都經(jīng)過訓(xùn)練。在第二階段，微調(diào) MLLM 的 LoRA 和重采樣器權(quán)重，以適應(yīng)與文本提示相對應(yīng)的源角色特征。使用第一階段的模型作為圖像生成器并凍結(jié)其權(quán)重。