超懂中國傳統(tǒng)文化的AI繪畫模型,畫作有形更有神,傳達儒釋道思想
最近 AI 作畫火爆出圈,國內(nèi)外掀起了一波 AI 繪畫熱潮,各種社交媒體上用 AI 繪畫模型生成的各種圖片屢見不鮮。上個月,一位游戲設(shè)計師用 AI 作畫工具 Midjourney(中途)創(chuàng)作的作品《太空歌劇院》獲得了美國科羅拉多州博覽會藝術(shù)比賽的金獎。
受此啟發(fā),中國人民大學(xué)盧志武教授團隊將自身研發(fā)的多模態(tài)預(yù)訓(xùn)練模型文瀾與最新的圖像生成技術(shù)進行創(chuàng)新結(jié)合,打造了一款最懂中國傳統(tǒng)文化的 AI 繪畫生成模型。
文瀾模型是中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長文繼榮教授、盧志武教授、宋睿華長聘副教授等領(lǐng)銜研發(fā)的大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型。文瀾模型經(jīng)過 6.5 億弱相關(guān)中文圖文對的預(yù)訓(xùn)練,學(xué)習(xí)到獨特的中文語義理解能力并能很好地將中文語義與視覺信息聯(lián)系起來,尤其擅長讀取中文獨有的含蓄語義與圖片中的抽象概念。
今年 6 月,相關(guān)研究成果 “Towards artificial general intelligence via a multimodal foundation model” 已經(jīng)發(fā)表在 Nature Communications(《自然 · 通訊》)上。
?
論文鏈接:https://www.nature.com/articles/s41467-022-30761-2
文瀾與生成模型的結(jié)合
該研究團隊通過挖掘文瀾模型的潛力,將其與最新的生成技術(shù)進行創(chuàng)新性的結(jié)合,融合文瀾的抽象語義理解能力與生成模型的強大生成能力,確保得到的模型能夠出色地解讀輸入文本的語義并生成具有對應(yīng)語義的圖片。
團隊專注于挖掘文瀾在中國傳統(tǒng)文化上的潛力,借用最新的生成模型架構(gòu),并在所搜集的國畫數(shù)據(jù)集上進行訓(xùn)練,得到的模型能根據(jù)輸入文本生成對應(yīng)風(fēng)格的圖片。詳細架構(gòu)圖如下所示。
?
具體來說,團隊在國畫數(shù)據(jù)集上訓(xùn)練了一個無條件生成模型,并通過迭代生成的方式用文瀾模型對生成過程進行引導(dǎo)。
該方法首先隨機初始化一張噪聲圖片。在每一步生成中,模型都會將生成的圖片沿著與輸入文本接近的方向調(diào)整生成圖片的內(nèi)容,使得每一步生成的圖片內(nèi)容與輸入文本在文瀾模型的隱空間中趨于一致。該步驟可描述為:
其中 x 和 y 分別表示圖片和文本,IE 和 TE 分別表示文瀾的圖片編碼器和文本編碼器。通過不斷迭代,該模型能夠?qū)崿F(xiàn)根據(jù)文本語義生成高質(zhì)量符圖片的功能。
文瀾繪畫模型的評測結(jié)果
由于文瀾模型本身的特點,文瀾繪畫模型能夠根據(jù)輸入的中國古詩詞生成對應(yīng)的圖片。從下述的例子可以看出,模型生成的圖片與古詩詞的內(nèi)容和意境都非常契合。
同時,團隊還發(fā)現(xiàn)文瀾繪畫模型甚至對晦澀難懂的儒釋道思想也有獨到的解讀。
為了更好地展現(xiàn)文瀾繪畫模型在解讀儒釋道思想上的特色,團隊挑選了國內(nèi)外最熱門的 AI 繪畫模型進行對比分析,包含盜夢師、文心、Disco Diffusion、Midjourney 和 Stable Diffusion。其中對 Disco Diffusion、Midjourney 和 Stable Diffusion 而言,中文文本需要先經(jīng)過百度翻譯。
從下圖生成的結(jié)果來看,盜夢師、Disco Diffusion、Midjourney 和 Stable Diffusion 偏向于生成句子中的一些具象物體或者生成一些畫面較好但內(nèi)容與句子并無太大關(guān)系的圖片。文心則是傾向于生成帶有人物的圖片,甚至將光明直接對應(yīng)成點燃的蠟燭。
而文瀾繪畫模型能夠更好地讀取整句話的意思以及其中蘊含的儒家思想,從而生成更契合該思想的圖片。
其次對于含有釋家思想的文本輸入,目前最火的繪畫生成模型均只能抓住其中的一些具象物體并進行針對性生成,有的繪畫模型甚至有可能誤解其中的思想。
如下圖生成結(jié)果所示,文心將 “見道忘山者人間亦寂也,見山忘道者山中也喧也” 理解成道家的思想(生成了一個道士的形象)。文瀾繪畫模型則很好地解讀輸入文本的釋家思想并將之反映在生成的圖片中。
最后在道家思想方面,團隊挑選了道德經(jīng)中最核心的三句話。文心相對于盜夢師、Disco Diffusion、Midjourney 和 Stable Diffusion,對道德經(jīng)有較好的解讀能力。
但整體來說,文瀾繪畫模型對道家思想解讀得更加到位,生成的圖片更具有道家的意境。
總結(jié)
文瀾團隊將近期大火的 AI 繪畫生成技術(shù)與中文多模態(tài)預(yù)訓(xùn)練模型文瀾相結(jié)合,深度挖掘文瀾模型在中國傳統(tǒng)文化上的潛力,并通過生成模型以圖片的形式展現(xiàn)出來,從而讓普通大眾對一些深奧的中國傳統(tǒng)文化思想有了更直觀的了解。