首個中文原生DiT架構(gòu)!騰訊混元文生圖大模型全面開源,免費商用
中文 AI 社區(qū)迎來了一個好消息:與 Sora 同架構(gòu)的開源文生圖大模型來了!
5 月 14 日,騰訊宣布旗下混元文生圖大模型全面升級并全面開源,目前已在 Hugging Face 平臺及 GitHub 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費商用。
- 官網(wǎng)地址:https://dit.hunyuan.tencent.com/
- GitHub 項目地址:https://github.com/Tencent/HunyuanDiT
- Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
- 技術(shù)報告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
據(jù)了解,這是業(yè)內(nèi)首個中文原生的 DiT 架構(gòu)文生圖開源模型,支持中英文雙語輸入及理解,參數(shù)量 15 億。
升級后的混元文生圖大模型采用了與 Sora 一致的 DiT 架構(gòu),即全新的 Hunyuan-DiT 架構(gòu),不僅可以支持文生圖,也可以作為視頻等多模態(tài)視覺生成的基礎(chǔ)。
為了全面比較 Hunyuan-DiT 與其他文生圖模型的生成能力,騰訊混元團隊構(gòu)建 4 個維度的測試集,邀請超過 50 名專業(yè)評估人員進行評估,包括文本圖像一致性、排除 AI 偽影、主題清晰度、審美。
從下表結(jié)果可以看到,采用 Hunyuan-DiT 架構(gòu)的騰訊混元文生圖模型效果遠超開源的 Stable Diffusion 模型,是目前效果最好的開源文生圖模型,整體能力屬于國際領(lǐng)先水平。
與其他 SOTA 模型的比較。
與這些 SOTA 模型的定性比較結(jié)果如下圖所示。
全新 DiT 架構(gòu)
騰訊混元文生圖要做開源模型 No.1
大模型的優(yōu)異表現(xiàn),離不開領(lǐng)先的技術(shù)架構(gòu)。
升級后的騰訊混元文生圖大模型采用了全新的 DiT 架構(gòu)(DiT 即 Diffusion With Transformer),這是 OpenAI Sora 和 Stable Diffusion 3 的同款架構(gòu)和關(guān)鍵技術(shù),是一種基于 Transformer 架構(gòu)的擴散模型。
過去,視覺生成擴散模型主要基于 U-Net 架構(gòu),但隨著參數(shù)量增加,基于 Transformer 架構(gòu)的擴散模型展現(xiàn)了更好的擴展性,有助于進一步提升模型生成質(zhì)量及效率。Sora 很好地說明了這一點。
騰訊混元是業(yè)界最早探索并應(yīng)用大語言模型結(jié)合 DiT 結(jié)構(gòu)的文生圖模型之一。從 2023 年 7 月起,騰訊混元文生圖團隊就明確了基于 DiT 架構(gòu)的模型方向,并啟動了新一代模型研發(fā)。今年初,混元文生圖大模型已全面升級為 DiT 架構(gòu)。
Hunyuan-DiT 的模型結(jié)構(gòu)如下圖 7 所示,采用了創(chuàng)新的網(wǎng)絡(luò)架構(gòu),結(jié)合了雙語 CLIP 和多語言 T5 編碼器,通過精心設(shè)計的數(shù)據(jù)管道進行訓(xùn)練和優(yōu)化,支持多輪對話,能夠根據(jù)上下文生成并完善圖像。
在 DiT 架構(gòu)之上,騰訊混元團隊支持了中英雙語文本提示生成圖像,并在算法層面優(yōu)化模型的長文本理解能力,能夠支持最多 256 字符的內(nèi)容輸入,達到行業(yè)領(lǐng)先水平。
此外,混元文生圖大模型在算法層面創(chuàng)新實現(xiàn)了多輪生圖和對話能力,可實現(xiàn)在一張初始生成圖片的基礎(chǔ)上,通過自然語言描述進行調(diào)整,從而達到更滿意的效果。
更多多輪對話生成示例如下圖所示。
中文原生也是騰訊混元文生圖大模型的一大亮點。此前,像 Stable Diffusion 等主流開源模型核心數(shù)據(jù)集以英文為主,對中國的語言、美食、文化、習(xí)俗都理解不夠。
作為首個中文原生的 DiT 模型,混元文生圖具備了中英文雙語理解及生成能力,在古詩詞、俚語、傳統(tǒng)建筑、中華美食等中國元素的生成上表現(xiàn)出色。我們可以看以下一些生成示例。
騰訊混元文生圖還更擅長細粒度文本提示生成。
評測結(jié)果顯示,新一代騰訊混元文生圖大模型視覺生成整體效果,相比前代提升超過了 20%,不僅在語義理解、畫面質(zhì)感與真實性方面全面提升,而且在多輪對話、多主體、中國元素、真實人像生成等場景下效果提升顯著。
這一次
騰訊混元選擇全面開源文生圖模型
騰訊混元文生圖能力,已經(jīng)廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項業(yè)務(wù)及場景中。今年初,騰訊廣告基于騰訊混元大模型,發(fā)布了一站式 AI 廣告創(chuàng)意平臺騰訊廣告妙思,可為廣告主提供文生圖、圖生圖、商品背景合成等多場景創(chuàng)意工具,有效提高了廣告生產(chǎn)及投放效率。
騰訊混元文生圖大模型的開源,填補了中文原生 DiT 文生圖架構(gòu)的缺失,有助于更多的開發(fā)者和創(chuàng)作者參與進來,一起探索、共創(chuàng)基于 DiT 架構(gòu)的視覺生成生態(tài),更好地去驗證、挖掘這個技術(shù)架構(gòu)的潛力。
騰訊文生圖負責(zé)人蘆清林表示:「騰訊混元文生圖的研發(fā)思路就是實用,堅持從實踐中來,到實踐中去。此次把最新一代模型完整開源出來,是希望與行業(yè)共享騰訊在文生圖領(lǐng)域的實踐經(jīng)驗和研究成果,豐富中文文生圖開源生態(tài),共建下一代視覺生成開源生態(tài),推動大模型行業(yè)加速發(fā)展?!?/span>
基于騰訊開源的文生圖模型,開發(fā)者及企業(yè)無需從頭訓(xùn)練,即可以直接用于推理,并可基于混元文生圖打造專屬的 AI 繪畫應(yīng)用及服務(wù),能夠節(jié)約大量人力及算力。透明公開的算法,也讓模型的安全性和可靠性得到保障。
此外,基于開放、前沿的混元文生圖基礎(chǔ)模型,也有利于在以 Stable Diffusion 等為主的英文開源社區(qū)之外,豐富以中文為主的文生圖開源生態(tài),形成更多樣原生插件,推動中文文生圖技術(shù)研發(fā)和應(yīng)用。