自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

新聞 人工智能 算法
這次AI生成的圖像,之所以與此前我們見(jiàn)到的GAN模型的風(fēng)格大不一樣,是DeepMind使用了一種新算法。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

 根據(jù)文字生成圖片,AI早就會(huì)了。

而如今,和以往的“寫(xiě)實(shí)派”不同,AI要開(kāi)始進(jìn)軍“抽象派”藝術(shù)了!

話(huà)不多說(shuō),下面是AI畫(huà)的一些輸入文字為“叢林中的老虎”的作品:

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

AI的“藝術(shù)細(xì)胞”你get到了嗎?這離真正的抽象派大師畫(huà)作還有多遠(yuǎn)?

而這次AI生成的圖像,之所以與此前我們見(jiàn)到的GAN模型的風(fēng)格大不一樣,是DeepMind使用了一種新算法。

該算法最終允許用戶(hù)輸入一串文本,AI就能對(duì)這個(gè)字符串做出創(chuàng)造性的反應(yīng),輸出一個(gè)解釋該字符串的藝術(shù)作品。

再比如輸入“云”,生成如下作品:

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

輸入“一張臉”,“尖叫”,“一只貓”,“一個(gè)笑臉”,“著火的房子”,“一個(gè)人走路”,“叢林中的老虎”,“洞穴壁畫(huà)”:

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

……

如此不同凡響的新技能,有什么技術(shù)創(chuàng)新嗎?

神經(jīng)視覺(jué)語(yǔ)法系統(tǒng)與雙重編碼器

總的來(lái)說(shuō),DeepMind的這個(gè)算法與使用GAN生成圖像有3種不同

首先,此算法的圖像是“進(jìn)化”(evolve)而來(lái),而不是使用反向傳播直接生成。

使用進(jìn)化搜索 (evolutionary-search),可以生成一個(gè)與眾不同的“美學(xué)輸出”,也允許人為進(jìn)行更多輸出控制。

其次,該算法不直接進(jìn)化圖像,而是進(jìn)化一種生成圖像的視覺(jué)語(yǔ)法。這才能生成有趣的結(jié)構(gòu)化圖像。

最后,該算法使用了一個(gè)預(yù)訓(xùn)練的多模態(tài)“評(píng)判器” (critic),它接受了網(wǎng)上大量圖片和說(shuō)明文字(captions)的訓(xùn)練。這個(gè)算法“理解”文字的視覺(jué)意義的能力很重要。

[[401465]]

下面就來(lái)詳細(xì)說(shuō)一下用于演化出圖像的神經(jīng)視覺(jué)語(yǔ)法系統(tǒng)和用來(lái)評(píng)估圖像合適度的圖像文本雙重編碼器“評(píng)判器”。

神經(jīng)語(yǔ)法系統(tǒng)采用了分層結(jié)構(gòu),可大大擴(kuò)展核心神經(jīng)發(fā)生器的功能。

它將用戶(hù)輸入的字符串輸入到頂級(jí)的LSTM中,LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))可為每個(gè)筆劃(stroke)指定一個(gè)中間輸入字符串(intermediate input string )。

這個(gè)中間輸入字符串的作用與原始輸入字符串非常相似。然后這個(gè)中間字符串又被輸入到底層的的LSTM以輸出最終圖像的筆劃描述。如下圖所示。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

具體細(xì)節(jié)如,中間向量的第二個(gè)位置決定了編碼的筆劃是不透明的還是透明的。

第三個(gè)位置決定是使用頂層指定的位置還是中間層指定的位置來(lái)確定筆劃的原點(diǎn)。

第四個(gè)位置確定筆劃中要產(chǎn)生的行數(shù)。

……

為了發(fā)揮評(píng)判的作用,需要一種評(píng)分機(jī)制,給圖像與句子的相似程度評(píng)分。

為此,他們選擇了Frome的雙編碼器方法,該方法最近在大量網(wǎng)絡(luò)數(shù)據(jù)集上獲得了巨大成功。

該雙編碼器模型由兩個(gè)分別對(duì)文本和圖像進(jìn)行操作的編碼器組成。該團(tuán)隊(duì)在ALIGN(A Large ImaGe and Noisy-text)數(shù)據(jù)集上訓(xùn)練它。

視覺(jué)編碼器基于NF-Net-F0模型,以224x224分辨率的RGB圖像作為輸入;文本編碼器是一個(gè)80M參數(shù)因果轉(zhuǎn)換器(causal Transformer)。

該文本編碼器保留了單詞的順序以及大小寫(xiě)之間的區(qū)別,會(huì)將“Jungle in the Tiger”和“a tiger in the jungle”生成不一樣的圖像。

此外,得益于進(jìn)化搜索,可使用修剪程序來(lái)確定有助于圖像得分(合適度)的關(guān)鍵標(biāo)記。在整個(gè)進(jìn)化過(guò)程中,也可以刪除多余的標(biāo)記,“調(diào)教”出盡量滿(mǎn)意的圖像。下圖為“一顆蘋(píng)果樹(shù)”的標(biāo)記修剪。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

可繼續(xù)改進(jìn):初始畫(huà)布不必空白

那這樣一種技術(shù)有什么實(shí)際用處呢?

團(tuán)隊(duì)介紹到,它可以用于輔助藝術(shù)創(chuàng)作、發(fā)明新的標(biāo)記制作方法或者將其生成過(guò)程作用于3D模型等。

而且畫(huà)布的背景初始條件不必空白,沒(méi)準(zhǔn)可以從照片或現(xiàn)有圖像開(kāi)始,在每次迭代中用不同的文本來(lái)調(diào)節(jié),最終讓圖像一點(diǎn)點(diǎn)演變成層次更豐富的作品!

當(dāng)然,他們的算法也有一些需要改進(jìn)的地方,所生成的圖像有時(shí)讓人感到驚喜,而有時(shí)卻看起來(lái)平平無(wú)奇甚至混亂,由于過(guò)擬合產(chǎn)生了越來(lái)越抽象的作品。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」,那得成什么樣?|DeepMind新算法

而在允許背景顏色進(jìn)化得更豐富時(shí),也會(huì)造成圖像其他方面多樣性的降低。

目前這個(gè)算法還存在一些“偏見(jiàn)”,比如要求生成“自畫(huà)像”時(shí),最終大多數(shù)肖像都是白人男性。

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2013-09-24 09:52:24

2015-04-08 10:40:09

2022-03-01 07:00:00

AI架構(gòu)師人工智能

2021-11-11 15:17:36

人工智能IT技術(shù)

2022-03-21 11:42:27

AI抽象畫(huà)模型

2012-07-04 10:18:37

服務(wù)器

2022-07-12 14:56:30

AI模型研究

2013-06-26 10:49:09

云端大腦科技技術(shù)

2013-01-28 10:02:39

Wi-Fi無(wú)線(xiàn)網(wǎng)絡(luò)3D模型

2009-08-02 22:32:44

綜合布線(xiàn)系統(tǒng)

2020-04-09 16:16:33

新基建智慧城市物聯(lián)網(wǎng)

2021-01-07 13:08:27

AI 數(shù)據(jù)人工智能

2019-05-13 15:45:29

程序員面試招聘

2020-09-23 08:55:16

交換機(jī)配置網(wǎng)絡(luò)vlan

2012-06-18 09:33:03

云計(jì)算IBM惠普

2022-10-30 15:03:25

人工智能倉(cāng)庫(kù)管理機(jī)器人

2010-09-01 15:27:40

DHCP工作流程

2009-10-26 13:36:10

BSM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)