首個(gè)中文Stable Diffusion模型開源,IDEA研究院封神榜團(tuán)隊(duì)開啟中文AI藝術(shù)時(shí)代
生成內(nèi)容一直被視為 AI 領(lǐng)域中最具有挑戰(zhàn)性的能力,最近大火的 AI 繪畫背后,是 Stable Diffusion 模型的開源,催生了眾多 AI 繪畫的應(yīng)用,得益于 Stability AI 的開源精神,這一創(chuàng)變推動(dòng)了整個(gè)以英文為主的下游文生圖生態(tài)的蓬勃發(fā)展。
然而在國(guó)內(nèi),目前大部分團(tuán)隊(duì)主要是基于翻譯 API + 英文 stable diffusion 模型進(jìn)行開發(fā),但由于中英文之間所得存在文化差異導(dǎo)致遇到中文獨(dú)特的敘事和表達(dá)時(shí),這種模型就很難給出正確匹配的圖片內(nèi)容。因此,IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言研究中心(IDEA CCNL)開源了第一個(gè)中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,讓中文的世界真正擁有具備中國(guó)文化內(nèi)核的 AIGC 模型。
- 太乙 Stable Diffusion 純中文版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
- 太乙 Stable Diffusion 中英雙語(yǔ)版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
中文運(yùn)筆,意境浮現(xiàn)
君不見黃河之水天上來(lái) ,唯美,油畫
滔滔江水,連綿不絕 ,唯美,插畫
飛流直下三千尺 ,唯美,插畫
長(zhǎng)城,清晨,朦朧,唯美,插畫
夢(mèng)回江南,中國(guó)古代小鎮(zhèn),唯美,插畫
云南苗家古寨,原始森林,鳥語(yǔ)花香,唯美,插畫
中國(guó)的未來(lái)城市,科幻插畫
中文 vs 英文的圖片生成
?????
?????
中文指導(dǎo)的特定風(fēng)格生成
小橋流水人家,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小橋流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
太乙系列文本生成圖像模型技術(shù)揭秘
第一個(gè)開源中文 CLIP 模型?
2022 年 7 月,IDEA CCNL開源了第一個(gè)中文 CLIP 模型,目前已經(jīng)有 4 個(gè)版本。
- Taiyi-CLIP-Roberta-102M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
- Taiyi-CLIP-Roberta-large-326M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
- Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
- Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以 Taiyi-CLIP-Roberta-large-326M-Chinese 為例,IDEA CCNL用中文語(yǔ)言模型替換了開源的英文 CLIP 中語(yǔ)言編碼器,在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個(gè)中文語(yǔ)言模型,在 1 億級(jí)別的中文數(shù)據(jù)上訓(xùn)練了 24 個(gè) epoch,一共過了約 30 億中文圖文數(shù)據(jù),得到了這個(gè)包含圖片信息的中文表征語(yǔ)言模型,為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)。
第一個(gè)開源中文 Disco Diffusion 模型?
2022 年 10 月,IDEA CCNL開源了第一個(gè)中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,該模型由 Katherine Crowson's 的無(wú)條件擴(kuò)散模型在自然風(fēng)景圖上微調(diào)而來(lái)。結(jié)合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以實(shí)現(xiàn)中文生成各種風(fēng)格的風(fēng)景圖片。
東臨碣石,以觀滄海,水何澹澹,山島竦峙:
第一個(gè)開源中文 Stable Diffusion 的模型?
2022 年 11 月,IDEA CCNL開源了第一個(gè)中文 Stable Diffusion 的模型和中英雙語(yǔ) Stable Diffusion 模型。
- 太乙 Stable Diffusion 純中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
該模型利用已經(jīng)開源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替換了英文 stable-diffusion-v1-4 中的語(yǔ)言編碼器,因?yàn)樘?CLIP 模型已經(jīng)具備了很強(qiáng)的中文圖文概念,所以直接凍結(jié)英文 stable diffusion 的生成模型部分,在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語(yǔ)言編碼器,調(diào)整學(xué)習(xí)率等超參數(shù),將太乙 CLIP 模型理解的中文圖文概念與 stable diffusion 生成能力對(duì)齊。
- 太乙 Stable Diffusion 中英雙語(yǔ)版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
不同于太乙 Stable Diffusion 純中文版本,這個(gè)模型希望在支持中文的情況下,同時(shí)能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有語(yǔ)言模型不具備太乙 CLIP 模型強(qiáng)大的中文圖文概念,IDEA CCNL希望在它的基礎(chǔ)上增加了中文數(shù)據(jù)訓(xùn)練,這里采取了兩階段的訓(xùn)練。第一階段也是凍住 stable-diffusion-v1-4 的生成模型部分,在億級(jí)別的高質(zhì)量數(shù)據(jù)上微調(diào)語(yǔ)言編碼器,調(diào)整學(xué)習(xí)率等超參數(shù),訓(xùn)練語(yǔ)言模型中文部分的表征。第二階段放開 stable-diffusion-v1-4 的生成模型部分,增強(qiáng)中文引導(dǎo)圖片生成的能力,目前訓(xùn)練中的一個(gè) checkpoint 已取得不錯(cuò)的效果并進(jìn)行了開源。
使用方法
如果需要進(jìn)行古詩(shī)場(chǎng)景、中文概念生成,建議嘗試中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用場(chǎng)景和概念的生成,尤其是有中文混合英文需要,建議嘗試中英雙語(yǔ)版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。
中文版本:
中英雙語(yǔ)版本:
太乙 - 中文 Stable Diffusion 的未來(lái)
目前在龐大的中國(guó)市場(chǎng)中,有將近 10 億的文化產(chǎn)業(yè)正在被 AIGC 沖擊并快速創(chuàng)新發(fā)展,也有更多的新機(jī)遇在裂變中產(chǎn)生。由于此前的 AIGC 模型還無(wú)法和特殊的中國(guó)文化背景相結(jié)合,致力于成為中文認(rèn)知智能的基礎(chǔ)設(shè)施的 IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言中心,希望通過推出太乙模型,助力加快在 AIGC 全球市場(chǎng)化中中國(guó)的文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展,促進(jìn)各個(gè)相關(guān)行業(yè)的升級(jí)。而太乙所在的封神榜預(yù)訓(xùn)練模型開源體系,已經(jīng)開源 80 個(gè)模型,覆蓋 AIGC、自然語(yǔ)言理解、受控文本生成等多個(gè)領(lǐng)域,成為中文最大的預(yù)訓(xùn)練模型開源體系?;诜馍癜衲P偷?GTS 模型生產(chǎn)平臺(tái),自動(dòng)生產(chǎn)的 1 億參數(shù)模型,擊敗眾多百億千億參數(shù)模型,進(jìn)入 FewCLUE 榜單前三名,機(jī)器自動(dòng)化生成模型的能力達(dá)到了算法專家水平,AI 生產(chǎn) AI 的時(shí)代正在到來(lái)。
IDEA CCNL認(rèn)為,在 AIGC 中,人的作用是更為重要的,生成式 AI 應(yīng)悄無(wú)聲息地融入大眾生活中并更好地幫助拓展人類的想象力邊界。所以,與 AI 互動(dòng)生產(chǎn)的內(nèi)容,是幫助AIGC走向下一個(gè)生產(chǎn)力階段的關(guān)鍵。因此,IDEA CCNL除了基礎(chǔ)模型和基礎(chǔ)算法的研究之外,還在研究更精準(zhǔn)的文本生成和基中文于文本的交互式圖片編輯。以太乙為核心的 AIGC 模型會(huì)持續(xù)更新和升級(jí),敬請(qǐng)期待。