自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大提出定制化漫畫生成新框架DiffSensei,可生成具有動態(tài)多角色控制的漫畫圖像

人工智能 新聞
論文提出了一項新任務(wù):定制漫畫生成,并引入了 DiffSensei,這是一個專為生成具有動態(tài)多角色控制的漫畫而設(shè)計的創(chuàng)新框架。

由北京大學(xué)、上海人工智能實驗室、南洋理工大學(xué)提出了一種新框架DiffSensei可以實現(xiàn)定制化漫畫生成,解決現(xiàn)有方法在多角色場景中對角色外觀和互動控制不足的問題。DiffSensei結(jié)合了基于擴散的圖像生成器和多模態(tài)大語言模型(MLLM),其核心任務(wù)是生成具有動態(tài)多角色控制的漫畫圖像。

圖片DiffSensei 的結(jié)果。(a)具有可控角色圖像、面板標題和布局條件的定制漫畫生成。DiffSensei 成功地根據(jù)面板標題生成了詳細的角色表情和狀態(tài)。(b)為真實人類圖像創(chuàng)作漫畫。對話由人類后期編輯。

相關(guān)鏈接

  • 論文:http://arxiv.org/abs/2412.07589v1
  • 主頁:https://jianzongwu.github.io/projects/diffsensei/
  • 代碼:https://github.com/jianzongwu/DiffSensei
  • 數(shù)據(jù)集:https://huggingface.co/datasets/jianzongwu/MangaZero

論文閱讀

圖片DiffSensei:連接多模態(tài) LLM 和擴散模型以實現(xiàn)定制漫畫生成

摘要

故事可視化是從文本描述創(chuàng)建視覺敘事的任務(wù),文本到圖像生成模型已取得進展。然而,這些模型通常缺乏對角色外觀和互動的有效控制,尤其是在多角色場景中。

為了解決這些限制,論文提出了一項新任務(wù):定制漫畫生成,并引入了 DiffSensei,這是一個專為生成具有動態(tài)多角色控制的漫畫而設(shè)計的創(chuàng)新框架。DiffSensei 將基于擴散的圖像生成器與充當文本兼容身份適配器的多模態(tài)大語言模型 (MLLM) 集成在一起。該方法采用掩蔽交叉注意來無縫整合角色特征,無需直接像素傳輸即可實現(xiàn)精確的布局控制。

此外,基于 MLLM 的適配器會調(diào)整角色特征以與面板特定的文本提示保持一致,從而可以靈活調(diào)整角色表情、姿勢和動作。論文還推出了 MangaZero,這是一個專為此任務(wù)量身定制的大型數(shù)據(jù)集,包含 43,264 頁漫畫和 427,147 個帶注釋的面板,支持可視化連續(xù)幀中各種角色的互動和動作。大量實驗表明 DiffSensei 的表現(xiàn)優(yōu)于現(xiàn)有模型,通過實現(xiàn)文本自適應(yīng)角色定制,標志著漫畫生成取得了重大進步。

模型架構(gòu)

圖片DiffSensei 的架構(gòu)。 在第一階段,論文訓(xùn)練一個具有布局控制的多角色定制漫畫圖像生成模型。在第一個卷積層之后,將對話嵌入添加到噪聲隱含層中。U-Net 和特征提取器中的所有參數(shù)都經(jīng)過訓(xùn)練。在第二階段,微調(diào) MLLM 的 LoRA 和重采樣器權(quán)重,以適應(yīng)與文本提示相對應(yīng)的源角色特征。使用第一階段的模型作為圖像生成器并凍結(jié)其權(quán)重。

結(jié)果展示

關(guān)于 LeCun、Hinton 和 Benjio 獲得諾貝爾獎的故事……

圖片圖片圖片圖片圖片圖片圖片圖片圖片圖片

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-03-10 07:00:00

模型數(shù)據(jù)訓(xùn)練

2010-03-16 14:37:39

瀏覽器對比

2025-04-03 09:27:44

2025-01-03 10:30:00

2025-01-26 10:50:00

模型視頻生成

2022-11-28 08:47:33

AI圖片GAN

2022-01-05 15:53:08

互聯(lián)網(wǎng)大佬騰訊馬云

2010-04-06 16:20:14

多角色管理上網(wǎng)行為管理萊克斯科技

2024-09-30 09:35:55

圖像生成AI

2024-04-01 08:40:00

AI框架

2024-09-12 12:46:36

2024-08-08 17:07:26

2025-04-24 09:35:00

2024-07-08 13:07:24

AI數(shù)據(jù)

2021-04-27 13:56:49

內(nèi)存.映射地址

2021-04-29 18:11:03

虛擬IPKeeplived

2023-03-14 14:10:00

圖像檢測

2013-08-22 09:55:14

2013-08-20 10:19:38

點贊
收藏

51CTO技術(shù)棧公眾號