騰訊混元文生圖大模型開源訓練代碼，發(fā)布LoRA與ControlNet插件

2024-06-21 11:44:17

6月21日，騰訊混元文生圖大模型（以下簡稱為混元DiT模型）宣布全面開源訓練代碼，同時對外開源混元DiT LoRA 小規(guī)模數(shù)據(jù)集訓練方案與可控制插件ControlNet。

這意味著，全球的企業(yè)與個人開發(fā)者、創(chuàng)作者們，都可以基于混元DiT訓練代碼進行精調，創(chuàng)造更具個性化的專屬模型，進行更大自由度的創(chuàng)作；或基于混元DiT的代碼進行修改和優(yōu)化，基于此構建自身應用，推動技術的快速迭代和創(chuàng)新。

作為中文原生模型，用戶在通過混元DiT的訓練代碼進行精調時，可以直接使用中文的數(shù)據(jù)與標簽，無需再將數(shù)據(jù)翻譯成英文。

此前，騰訊混元文生圖大模型宣布全面升級并對外開源，已在 Hugging Face 平臺及 Github 上發(fā)布，可供企業(yè)與個人開發(fā)者免費商用。這是業(yè)內首個中文原生的DiT架構文生圖開源模型，支持中英文雙語輸入及理解。模型開源僅一個月，Github Star數(shù)達到2.4k，位于開源社區(qū)熱門DiT模型前列。

混元DiT Github項目頁面

在開源訓練代碼的同時， LoRA小規(guī)模數(shù)據(jù)集訓練方案與可控制插件ControlNet的發(fā)布也讓混元DiT模型的開源生態(tài)更具想象力。

LoRA模型，全稱Low-Rank Adaptation of Large Language Models，是一種用于微調大型語言模型的技術。在文生圖模型中，LoRA被用作一種插件，允許用戶在不修改原有模型與增加模型大小的情況下，利用少量數(shù)據(jù)訓練出具有特定畫風、IP或人物特征的模型。

LoRA技術在文生圖開源領域十分受歡迎，大量的創(chuàng)作者利用這種技術創(chuàng)造出多種多樣的模型，比如使用幾張個人照片，生成一個專屬于某個人的高精度照相館；或創(chuàng)造出盲盒、黏土等風格模型。

AI圖像社區(qū)LiblibAI上的LoRA模型

混元DiT本次發(fā)布的專屬LoRA插件，支持開發(fā)者最少僅需一張圖即可創(chuàng)作出專屬的模型。比如，導入四張青花瓷圖片與相應的提示詞，即可完成模型訓練，創(chuàng)建了一個“青花瓷”生成模型：用戶輸入簡單提示詞，即可生成想要的青花瓷圖像。

部分訓練數(shù)據(jù)：

訓練后模型的推理結果示例：

使用混元DiT LoRA訓練的青花瓷生成模型

本次上線的另一個插件ControlNet，則是一種應用于文生圖領域的可控化生成算法，它允許用戶通過添加額外條件來更好地控制圖像的生成。

目前，騰訊混元提供了能提取與應用圖像的邊緣（canny）、深度（depth）、人體姿勢（pose）等條件的三個首發(fā)ControlNet模型，讓開發(fā)者直接使用其進行推理。該三個ControlNet插件能實現(xiàn)通過線稿生成全彩圖、生成具有同樣深度結構的圖、生成具有同樣姿態(tài)的人等能力。同時，混元DiT也開源了ControlNet的訓練方案，開發(fā)者與創(chuàng)作者可以訓練自定義的ControlNet模型。

騰訊混元DiT上線的三個ControlNet插件效果演示

自混元DiT模型開源以來，得到了眾多開發(fā)者的支持和反饋，騰訊混元團隊也一直在持續(xù)完善和優(yōu)化基于混元DiT的開源組件，與行業(yè)共建下一代視覺生成開源生態(tài)。本月初，混元DiT發(fā)布的專屬加速庫，可將推理效率進一步提升，生圖時間縮短75%。同時模型易用性大幅提升，用戶可以基于ComfyUI的圖形化界面，使用混元DiT，或者通過Hugging Face Diffusers通用模型庫，僅用三行代碼即可調用混元DiT模型，無需下載原始代碼庫。

據(jù)了解，騰訊混元文生圖能力已廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項業(yè)務及場景中。今年初，騰訊廣告基于騰訊混元大模型發(fā)布了一站式AI廣告創(chuàng)意平臺騰訊廣告妙思。《央視新聞》《新華日報》等20余家媒體也已經將騰訊混元文生圖用于新聞內容生產。

責任編輯：鳶瑋來源：騰訊

騰訊混元文生圖大模型混元大模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊混元文生圖大模型開源訓練代碼，發(fā)布LoRA與ControlNet插件

騰訊混元文生圖大模型開源訓練代碼，發(fā)布LoRA與ControlNet插件