自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華唐杰團(tuán)隊(duì)造了個(gè)“中文ai設(shè)計(jì)師”,效果超Dall·E

新聞 人工智能
最近清華大學(xué)唐杰團(tuán)隊(duì)打造了一個(gè)“中文版Dall·E”——CogView,它可以將中文文字轉(zhuǎn)圖像。

[[402579]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

要說2021年OpenAI最熱最有創(chuàng)意的產(chǎn)品,那么非Dall·E莫屬了,這是一個(gè)可以從“AI設(shè)計(jì)師”,只要給它一段文字,就能按要求生成圖像。但可惜的是Dall·E并不支持中文。

現(xiàn)在好了,最近清華大學(xué)唐杰團(tuán)隊(duì)打造了一個(gè)“中文版Dall·E”——CogView,它可以將中文文字轉(zhuǎn)圖像。

CogView可以生成現(xiàn)實(shí)中真實(shí)存在場(chǎng)景,如“一條小溪在山澗流淌”:

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

也可以制造不存在的虛擬事物,如“貓豬”:

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

有時(shí)候還有點(diǎn)黑色幽默,如“一個(gè)心酸的博士生”:

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

CogView現(xiàn)在還提供了試玩網(wǎng)頁,你可以在那里輸入任何文字去轉(zhuǎn)成圖形,不像OpenAI的Dall·E只提供幾個(gè)關(guān)鍵詞修改選項(xiàng)。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

能指定畫風(fēng),能設(shè)計(jì)服裝

CogView的能力可不僅僅是從文字輸入圖像,它還能處理不同微調(diào)策略的下游任務(wù),例如風(fēng)格學(xué)習(xí)、超分辨率、文本圖像排名和時(shí)裝設(shè)計(jì)。

在使用CogView的時(shí)候,可以加入不同風(fēng)格限定,從而生成不同的繪畫效果。在微調(diào)期間,圖像對(duì)應(yīng)的文本也是“XX風(fēng)格的圖像”。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

CogView設(shè)計(jì)的服裝也像模像樣,看起來就像電商展示頁,沒有虛假痕跡。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

原理

CogView是一個(gè)帶有VQ-VAE分詞器40億參數(shù)的Transfomer,它的總體結(jié)構(gòu)如下:

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

CogView使用GPT模型處理離散字典上的token序列。然后將學(xué)習(xí)過程分為兩個(gè)階段:編碼器和解碼器學(xué)習(xí)最小化重建損失,單個(gè)GPT通過串聯(lián)文本優(yōu)化兩個(gè)負(fù)對(duì)數(shù)似然 (NLL) 損失。

結(jié)果是,第一階段退化為純離散自動(dòng)編碼器,作為圖像tokenizer將圖像轉(zhuǎn)換為標(biāo)記序列;第二階段的GPT承擔(dān)了大部分建模任務(wù)。

圖像tokenizer的訓(xùn)練非常重要,方法有最近鄰映射、Gumbel采樣、softmax逼近三種,Dall·E使用的是第三種,而對(duì)于CogView來說三者差別不大。

CogView的主干是一個(gè)單向Transformer,共有48層、40個(gè)注意力頭、40億參數(shù),隱藏層的大小為2560。

在訓(xùn)練中,作者發(fā)現(xiàn)CogView有兩種不穩(wěn)定性:溢出(以NaN損失為特征)和下溢(以發(fā)散損失為特征),然后他們提出了用PB-Relax、Sandwich-LN來解決它們。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

最后,CogView在MS COCO實(shí)現(xiàn)了最低的FID,其性能優(yōu)于以前基于GAN的模型和以及類似的Dall·E。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

而在人工評(píng)估的測(cè)試中,CogView被選為最好的概率為37.02%,遠(yuǎn)遠(yuǎn)超過其他基于GAN的模型,已經(jīng)可以與Ground Truth(59.53%)競爭。

清華唐杰團(tuán)隊(duì)造了個(gè)“中文AI設(shè)計(jì)師”,效果超Dall·E,可在線試玩

另外作者已經(jīng)放出了GitHub項(xiàng)目頁,不過目前還沒有代碼,感興趣的朋友可以關(guān)注一下等代碼放出。

論文地址:
https://arxiv.org/abs/2105.13290

試用Demo:
https://lab.aminer.cn/cogview/index.html

GitHub頁:
https://github.com/THUDM/CogView

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-09-09 09:29:03

AI 數(shù)據(jù)模型

2023-09-21 10:31:06

人工智能模型

2023-12-29 13:47:00

AI奧特曼

2013-01-18 17:00:20

設(shè)計(jì)師創(chuàng)業(yè)團(tuán)隊(duì)

2024-01-09 08:00:00

人工智能工具設(shè)計(jì)師

2022-05-24 14:47:55

AI技術(shù)

2023-04-19 15:15:02

辦公AI

2015-07-27 15:26:47

設(shè)計(jì)

2022-08-31 08:54:57

AIDALL-E 2OpenAI

2019-12-10 16:50:01

人工智能設(shè)計(jì)Philipe Sta

2022-09-13 15:56:48

AI創(chuàng)造藝術(shù)谷歌

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2018-04-16 08:30:07

AI設(shè)計(jì)師蘇寧

2022-08-17 15:52:24

AI

2013-09-09 15:29:50

設(shè)計(jì)師圖標(biāo)集

2023-10-23 09:25:08

模型AI

2013-09-25 09:51:24

設(shè)計(jì)UI工具

2018-10-16 09:54:59

代碼開發(fā)AI

2018-06-07 16:56:29

AI設(shè)計(jì)師藝術(shù)

2011-07-22 13:31:18

用戶研究用戶體驗(yàn)用戶理解
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)