CVPR 2025|北大開源多模態(tài)驅(qū)動(dòng)的定制化漫畫生成框架DiffSensei,還有4.3萬(wàn)頁(yè)漫畫數(shù)據(jù)集
隨著生成式人工智能技術(shù)(AIGC)的突破,文本到圖像模型在故事可視化領(lǐng)域展現(xiàn)出巨大潛力,但在多角色場(chǎng)景中仍面臨角色一致性差、布局控制難、動(dòng)態(tài)敘事不足等挑戰(zhàn)。
為此,北京大學(xué)、上海人工智能實(shí)驗(yàn)室、南洋理工大學(xué)聯(lián)合推出 DiffSensei,首個(gè)結(jié)合多模態(tài)大語(yǔ)言模型(MLLM)與擴(kuò)散模型的定制化漫畫生成框架。
- 論文地址:https://arxiv.org/pdf/2412.07589
- GitHub 倉(cāng)庫(kù):https://github.com/jianzongwu/DiffSensei
- 項(xiàng)目主頁(yè) - https://jianzongwu.github.io/projects/diffsensei/
- 數(shù)據(jù)鏈接 - https://huggingface.co/datasets/jianzongwu/MangaZero
該框架通過創(chuàng)新的掩碼交叉注意力機(jī)制與文本兼容的角色適配器,實(shí)現(xiàn)了對(duì)多角色外觀、表情、動(dòng)作的精確控制,并支持對(duì)話布局的靈活編碼。同時(shí),團(tuán)隊(duì)發(fā)布了首個(gè)專為漫畫生成設(shè)計(jì)的 MangaZero 數(shù)據(jù)集(含 4.3 萬(wàn)頁(yè)漫畫與 42.7 萬(wàn)標(biāo)注面板),填補(bǔ)了該領(lǐng)域的數(shù)據(jù)空白。實(shí)驗(yàn)表明,DiffSensei 在角色一致性、文本跟隨能力與圖像質(zhì)量上顯著優(yōu)于現(xiàn)有模型,為漫畫創(chuàng)作、教育可視化、廣告設(shè)計(jì)等場(chǎng)景提供了高效工具。
團(tuán)隊(duì)公開了訓(xùn)練,測(cè)試代碼、預(yù)訓(xùn)練模型及 MangaZero 數(shù)據(jù)集,支持本地部署。開發(fā)者可通過 Hugging Face 獲取資源,并利用 Gradio 界面快速體驗(yàn)生成效果。
1.DiffSensei 效果及應(yīng)用
DiffSensei 功能
DiffSensei 生成漫畫的技術(shù)優(yōu)勢(shì):
- 角色一致性:跨面板保持角色特征穩(wěn)定,支持連續(xù)敘事,可根據(jù)文本動(dòng)態(tài)調(diào)整任務(wù)狀態(tài)和動(dòng)作。
- 布局精準(zhǔn):通過掩碼機(jī)制與邊界框標(biāo)注,實(shí)現(xiàn)多角色與對(duì)話框的像素級(jí)定位。
- 動(dòng)態(tài)適應(yīng)性:MLLM 適配器使角色可依據(jù)文本提示調(diào)整狀態(tài)(如 “憤怒表情” 或 “揮手動(dòng)作”),突破傳統(tǒng)模型的靜態(tài)生成限制。
2.DiffSensei 應(yīng)用場(chǎng)景
真人長(zhǎng)篇故事生成
DiffSensei 真人長(zhǎng)篇故事生成效果
定制漫畫生成
DiffSensei 定制漫畫生成效果
更多結(jié)果
DiffSensei 生成整頁(yè)漫畫結(jié)果,每頁(yè)漫畫的故事梗概在其上方,更多結(jié)果在項(xiàng)目主頁(yè)
4. 模型框架
DiffSensei 方法框架
DiffSensei 的技術(shù)架構(gòu)以 “動(dòng)態(tài)角色控制” 和 “高效布局生成” 為核心,通過以下模塊實(shí)現(xiàn)端到端的漫畫生成:
- 多模態(tài)特征融合:
- 結(jié)合 CLIP 圖像編碼器 與 漫畫專用編碼器(Magi),提取角色語(yǔ)義特征,避免直接復(fù)制像素細(xì)節(jié)導(dǎo)致的 “粘貼效應(yīng)”。
- 通過重采樣模塊將特征壓縮為低維 token,適配擴(kuò)散模型的交叉注意力機(jī)制,增強(qiáng)生成靈活性。
- 掩碼交叉注意力機(jī)制:復(fù)制擴(kuò)散模型的鍵值矩陣,創(chuàng)建獨(dú)立的角色注意力層,僅允許角色在指定邊界框內(nèi)參與注意力計(jì)算,實(shí)現(xiàn)布局的像素級(jí)控制。
- 引入對(duì)話布局嵌入,將對(duì)話框位置編碼為可訓(xùn)練的嵌入向量,與噪聲潛在空間融合,支持后期人工文本編輯。
- MLLM 驅(qū)動(dòng)的動(dòng)態(tài)適配器:以多模態(tài)大語(yǔ)言模型(如 LLaVA)為核心,接收面板標(biāo)題與源角色特征,生成與文本兼容的 目標(biāo)角色特征,動(dòng)態(tài)調(diào)整表情、姿勢(shì)等屬性。訓(xùn)練中結(jié)合 語(yǔ)言模型損失(LM Loss) 與 擴(kuò)散損失,確保生成特征既符合文本語(yǔ)義,又與圖像生成器兼容。
- 多階段訓(xùn)練優(yōu)化
- 第一階段:基于 MangaZero 數(shù)據(jù)集訓(xùn)練擴(kuò)散模型,學(xué)習(xí)角色與布局的聯(lián)合生成。
- 第二階段:凍結(jié)圖像生成器,微調(diào) MLLM 適配器,強(qiáng)化文本驅(qū)動(dòng)的角色動(dòng)態(tài)調(diào)整能力 813,從而適應(yīng)與文本提示對(duì)應(yīng)的源特征。在第一階段使用模型作為圖像生成器,并凍結(jié)其權(quán)重。
5.MangaZero 數(shù)據(jù)集
MangaZero 數(shù)據(jù)集統(tǒng)計(jì)信息
上圖展示了 MangaZero 數(shù)據(jù)集的基本信息,該數(shù)據(jù)集中包含最著名的日本黑白漫畫系列。圖 a 顯示了所有 48 系列的封面。這些漫畫系列之所以被選中,主要是因?yàn)樗鼈兊氖軞g迎程度、獨(dú)特的藝術(shù)風(fēng)格和廣泛的人物陣容,為該模型提供了發(fā)展強(qiáng)大而靈活的 IP 保持能力。
圖 b 展示了一些人物和對(duì)話標(biāo)注的示例。
圖 c 描繪了數(shù)據(jù)集中的面板分辨率分布。為了提高清晰度,其中包括三條參考線,分別表示 1024×1024、512×512 和 256×256 的分辨率。大多數(shù)漫畫畫板都集中在第二行和第三行周圍,這表明與最近研究中通常強(qiáng)調(diào)的分辨率相比,大多數(shù)畫板的分辨率相對(duì)較低。這一特性是漫畫數(shù)據(jù)所固有的,該工作專門針對(duì)漫畫數(shù)據(jù)。因此,可變分辨率訓(xùn)練對(duì)于有效處理漫畫數(shù)據(jù)集至關(guān)重要。
MangaZero 數(shù)據(jù)集和同類數(shù)據(jù)集對(duì)比
MangaZero 數(shù)據(jù)集相比同類數(shù)據(jù),規(guī)模更大,來源更新,標(biāo)注更豐富,漫畫以及畫面分辨率更多樣。與廣為人知的黑白漫畫數(shù)據(jù)集 Manga109 相比,MangaZero 數(shù)據(jù)集收錄了更多在 2000 年之后出版的漫畫,這也正是其名稱的由來。此外,MangaZero 還包含一些 2000 年之前發(fā)行、但并未收錄于 Manga109 的著名作品,例如《哆啦 A 夢(mèng)》(1974 年)。
MangaZero 數(shù)據(jù)集標(biāo)注流程
上圖展示了 MangaDex 數(shù)據(jù)集的構(gòu)建過程,作者通過三個(gè)步驟構(gòu)建 MangaZero 數(shù)據(jù)集。
- 步驟 1 - 從互聯(lián)網(wǎng)中下載一些現(xiàn)有的漫畫頁(yè)面。
- 步驟 2 - 使用預(yù)先訓(xùn)練好的模型自主為漫畫面板添加相關(guān)標(biāo)注。
- 步驟 3 - 利用人工來校準(zhǔn)人物 ID 標(biāo)注結(jié)果。
MangaZero 數(shù)據(jù)集應(yīng)用潛力
- 多 ID 保持,靈活可控的圖片生成訓(xùn)練。漫畫數(shù)據(jù)天然擁有同一個(gè)人物多個(gè)狀態(tài)的圖像,對(duì)可根據(jù)文本靈活控制人物狀態(tài)的定制化生成訓(xùn)練有很大幫助。
- 風(fēng)格可控的漫畫生成。MangaZero 中包含的漫畫系列多樣且具有代表性,可以在模型結(jié)構(gòu)中增加風(fēng)格定制模塊,實(shí)現(xiàn)畫風(fēng)可控的漫畫生成。例如生成龍珠風(fēng)格的柯南。
6. 結(jié)論
DiffSensei 通過多模態(tài)技術(shù)的深度融合,重新定義了 AI 輔助創(chuàng)作的邊界。其開源屬性與行業(yè)適配性,將加速漫畫生成從實(shí)驗(yàn)工具向產(chǎn)業(yè)級(jí)應(yīng)用的跨越。未來,研究方向可擴(kuò)展至彩色漫畫與動(dòng)畫生成,進(jìn)一步推動(dòng)視覺敘事技術(shù)的普惠化。