首個(gè)中文Stable Diffusion模型開源，IDEA研究院封神榜團(tuán)隊(duì)開啟中文AI藝術(shù)時(shí)代

作者：機(jī)器之心 2022-11-02 13:47:13

IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言研究中心（IDEA CCNL）開源了第一個(gè)中文版本的 stable diffusion 模型“太乙 Stable Diffusion”

生成內(nèi)容一直被視為 AI 領(lǐng)域中最具有挑戰(zhàn)性的能力，最近大火的 AI 繪畫背后，是 Stable Diffusion 模型的開源，催生了眾多 AI 繪畫的應(yīng)用，得益于 Stability AI 的開源精神，這一創(chuàng)變推動(dòng)了整個(gè)以英文為主的下游文生圖生態(tài)的蓬勃發(fā)展。

然而在國(guó)內(nèi)，目前大部分團(tuán)隊(duì)主要是基于翻譯 API + 英文 stable diffusion 模型進(jìn)行開發(fā)，但由于中英文之間所得存在文化差異導(dǎo)致遇到中文獨(dú)特的敘事和表達(dá)時(shí)，這種模型就很難給出正確匹配的圖片內(nèi)容。因此，IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言研究中心（IDEA CCNL）開源了第一個(gè)中文版本的 stable diffusion 模型“太乙 Stable Diffusion”，讓中文的世界真正擁有具備中國(guó)文化內(nèi)核的 AIGC 模型。

太乙 Stable Diffusion 純中文版本：https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
太乙 Stable Diffusion 中英雙語(yǔ)版本：https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

中文運(yùn)筆，意境浮現(xiàn)

君不見黃河之水天上來(lái) ，唯美，油畫

滔滔江水，連綿不絕，唯美，插畫

飛流直下三千尺，唯美，插畫

長(zhǎng)城，清晨，朦朧，唯美，插畫

夢(mèng)回江南，中國(guó)古代小鎮(zhèn)，唯美，插畫

云南苗家古寨，原始森林，鳥語(yǔ)花香，唯美，插畫

中國(guó)的未來(lái)城市，科幻插畫

中文 vs 英文的圖片生成

?????

中文指導(dǎo)的特定風(fēng)格生成

小橋流水人家，水彩

（Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1）

小橋流水人家，Van Gogh style

（Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1）

太乙系列文本生成圖像模型技術(shù)揭秘

第一個(gè)開源中文 CLIP 模型?

2022 年 7 月，IDEA CCNL開源了第一個(gè)中文 CLIP 模型，目前已經(jīng)有 4 個(gè)版本。

Taiyi-CLIP-Roberta-102M-Chinese：https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
Taiyi-CLIP-Roberta-large-326M-Chinese：https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese：https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese：https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese

以 Taiyi-CLIP-Roberta-large-326M-Chinese 為例，IDEA CCNL用中文語(yǔ)言模型替換了開源的英文 CLIP 中語(yǔ)言編碼器，在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個(gè)中文語(yǔ)言模型，在 1 億級(jí)別的中文數(shù)據(jù)上訓(xùn)練了 24 個(gè) epoch，一共過了約 30 億中文圖文數(shù)據(jù)，得到了這個(gè)包含圖片信息的中文表征語(yǔ)言模型，為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)。

第一個(gè)開源中文 Disco Diffusion 模型?

2022 年 10 月，IDEA CCNL開源了第一個(gè)中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese，該模型由 Katherine Crowson's 的無(wú)條件擴(kuò)散模型在自然風(fēng)景圖上微調(diào)而來(lái)。結(jié)合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以實(shí)現(xiàn)中文生成各種風(fēng)格的風(fēng)景圖片。

東臨碣石，以觀滄海，水何澹澹，山島竦峙：

第一個(gè)開源中文 Stable Diffusion 的模型?

2022 年 11 月，IDEA CCNL開源了第一個(gè)中文 Stable Diffusion 的模型和中英雙語(yǔ) Stable Diffusion 模型。

太乙 Stable Diffusion 純中文版本（Taiyi-Stable-Diffusion-1B-Chinese-v0.1）

該模型利用已經(jīng)開源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替換了英文 stable-diffusion-v1-4 中的語(yǔ)言編碼器，因?yàn)樘?CLIP 模型已經(jīng)具備了很強(qiáng)的中文圖文概念，所以直接凍結(jié)英文 stable diffusion 的生成模型部分，在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語(yǔ)言編碼器，調(diào)整學(xué)習(xí)率等超參數(shù)，將太乙 CLIP 模型理解的中文圖文概念與 stable diffusion 生成能力對(duì)齊。

太乙 Stable Diffusion 中英雙語(yǔ)版本（Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1）

不同于太乙 Stable Diffusion 純中文版本，這個(gè)模型希望在支持中文的情況下，同時(shí)能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有語(yǔ)言模型不具備太乙 CLIP 模型強(qiáng)大的中文圖文概念，IDEA CCNL希望在它的基礎(chǔ)上增加了中文數(shù)據(jù)訓(xùn)練，這里采取了兩階段的訓(xùn)練。第一階段也是凍住 stable-diffusion-v1-4 的生成模型部分，在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語(yǔ)言編碼器，調(diào)整學(xué)習(xí)率等超參數(shù)，訓(xùn)練語(yǔ)言模型中文部分的表征。第二階段放開 stable-diffusion-v1-4 的生成模型部分，增強(qiáng)中文引導(dǎo)圖片生成的能力，目前訓(xùn)練中的一個(gè) checkpoint 已取得不錯(cuò)的效果并進(jìn)行了開源。

使用方法

如果需要進(jìn)行古詩(shī)場(chǎng)景、中文概念生成，建議嘗試中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用場(chǎng)景和概念的生成，尤其是有中文混合英文需要，建議嘗試中英雙語(yǔ)版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。

中文版本：

中英雙語(yǔ)版本：

太乙 - 中文 Stable Diffusion 的未來(lái)

目前在龐大的中國(guó)市場(chǎng)中，有將近 10 億的文化產(chǎn)業(yè)正在被 AIGC 沖擊并快速創(chuàng)新發(fā)展，也有更多的新機(jī)遇在裂變中產(chǎn)生。由于此前的 AIGC 模型還無(wú)法和特殊的中國(guó)文化背景相結(jié)合，致力于成為中文認(rèn)知智能的基礎(chǔ)設(shè)施的 IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言中心，希望通過推出太乙模型，助力加快在 AIGC 全球市場(chǎng)化中中國(guó)的文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展，促進(jìn)各個(gè)相關(guān)行業(yè)的升級(jí)。而太乙所在的封神榜預(yù)訓(xùn)練模型開源體系，已經(jīng)開源 80 個(gè)模型，覆蓋 AIGC、自然語(yǔ)言理解、受控文本生成等多個(gè)領(lǐng)域，成為中文最大的預(yù)訓(xùn)練模型開源體系?；诜馍癜衲Ｐ偷?GTS 模型生產(chǎn)平臺(tái)，自動(dòng)生產(chǎn)的 1 億參數(shù)模型，擊敗眾多百億千億參數(shù)模型，進(jìn)入 FewCLUE 榜單前三名，機(jī)器自動(dòng)化生成模型的能力達(dá)到了算法專家水平，AI 生產(chǎn) AI 的時(shí)代正在到來(lái)。

IDEA CCNL認(rèn)為，在 AIGC 中，人的作用是更為重要的，生成式 AI 應(yīng)悄無(wú)聲息地融入大眾生活中并更好地幫助拓展人類的想象力邊界。所以，與 AI 互動(dòng)生產(chǎn)的內(nèi)容，是幫助AIGC走向下一個(gè)生產(chǎn)力階段的關(guān)鍵。因此，IDEA CCNL除了基礎(chǔ)模型和基礎(chǔ)算法的研究之外，還在研究更精準(zhǔn)的文本生成和基中文于文本的交互式圖片編輯。以太乙為核心的 AIGC 模型會(huì)持續(xù)更新和升級(jí)，敬請(qǐng)期待。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心