自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="lfndb"><p id="lfndb"></p></blockquote>
<em id="lfndb"><rt id="lfndb"></rt></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

作者：豐色 2021-05-25 15:07:15

新聞人工智能算法

這次AI生成的圖像，之所以與此前我們見(jiàn)到的GAN模型的風(fēng)格大不一樣，是DeepMind使用了一種新算法。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

根據(jù)文字生成圖片，AI早就會(huì)了。

而如今，和以往的“寫(xiě)實(shí)派”不同，AI要開(kāi)始進(jìn)軍“抽象派”藝術(shù)了！

話(huà)不多說(shuō)，下面是AI畫(huà)的一些輸入文字為“叢林中的老虎”的作品：

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

AI的“藝術(shù)細(xì)胞”你get到了嗎？這離真正的抽象派大師畫(huà)作還有多遠(yuǎn)？

而這次AI生成的圖像，之所以與此前我們見(jiàn)到的GAN模型的風(fēng)格大不一樣，是DeepMind使用了一種新算法。

該算法最終允許用戶(hù)輸入一串文本，AI就能對(duì)這個(gè)字符串做出創(chuàng)造性的反應(yīng)，輸出一個(gè)解釋該字符串的藝術(shù)作品。

再比如輸入“云”，生成如下作品：

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

輸入“一張臉”，“尖叫”，“一只貓”，“一個(gè)笑臉”，“著火的房子”，“一個(gè)人走路”，“叢林中的老虎”，“洞穴壁畫(huà)”：

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

……

如此不同凡響的新技能，有什么技術(shù)創(chuàng)新嗎？

神經(jīng)視覺(jué)語(yǔ)法系統(tǒng)與雙重編碼器

總的來(lái)說(shuō)，DeepMind的這個(gè)算法與使用GAN生成圖像有3種不同：

首先，此算法的圖像是“進(jìn)化”（evolve）而來(lái)，而不是使用反向傳播直接生成。

使用進(jìn)化搜索 （evolutionary-search），可以生成一個(gè)與眾不同的“美學(xué)輸出”，也允許人為進(jìn)行更多輸出控制。

其次，該算法不直接進(jìn)化圖像，而是進(jìn)化一種生成圖像的視覺(jué)語(yǔ)法。這才能生成有趣的結(jié)構(gòu)化圖像。

最后，該算法使用了一個(gè)預(yù)訓(xùn)練的多模態(tài)“評(píng)判器” （critic），它接受了網(wǎng)上大量圖片和說(shuō)明文字（captions）的訓(xùn)練。這個(gè)算法“理解”文字的視覺(jué)意義的能力很重要。

下面就來(lái)詳細(xì)說(shuō)一下用于演化出圖像的神經(jīng)視覺(jué)語(yǔ)法系統(tǒng)和用來(lái)評(píng)估圖像合適度的圖像文本雙重編碼器“評(píng)判器”。

神經(jīng)語(yǔ)法系統(tǒng)采用了分層結(jié)構(gòu)，可大大擴(kuò)展核心神經(jīng)發(fā)生器的功能。

它將用戶(hù)輸入的字符串輸入到頂級(jí)的LSTM中，LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）可為每個(gè)筆劃（stroke）指定一個(gè)中間輸入字符串（intermediate input string ）。

這個(gè)中間輸入字符串的作用與原始輸入字符串非常相似。然后這個(gè)中間字符串又被輸入到底層的的LSTM以輸出最終圖像的筆劃描述。如下圖所示。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

具體細(xì)節(jié)如，中間向量的第二個(gè)位置決定了編碼的筆劃是不透明的還是透明的。

第三個(gè)位置決定是使用頂層指定的位置還是中間層指定的位置來(lái)確定筆劃的原點(diǎn)。

第四個(gè)位置確定筆劃中要產(chǎn)生的行數(shù)。

……

為了發(fā)揮評(píng)判的作用，需要一種評(píng)分機(jī)制，給圖像與句子的相似程度評(píng)分。

為此，他們選擇了Frome的雙編碼器方法，該方法最近在大量網(wǎng)絡(luò)數(shù)據(jù)集上獲得了巨大成功。

該雙編碼器模型由兩個(gè)分別對(duì)文本和圖像進(jìn)行操作的編碼器組成。該團(tuán)隊(duì)在ALIGN（A Large ImaGe and Noisy-text）數(shù)據(jù)集上訓(xùn)練它。

視覺(jué)編碼器基于NF-Net-F0模型，以224x224分辨率的RGB圖像作為輸入；文本編碼器是一個(gè)80M參數(shù)因果轉(zhuǎn)換器（causal Transformer）。

該文本編碼器保留了單詞的順序以及大小寫(xiě)之間的區(qū)別，會(huì)將“Jungle in the Tiger”和“a tiger in the jungle”生成不一樣的圖像。

此外，得益于進(jìn)化搜索，可使用修剪程序來(lái)確定有助于圖像得分（合適度）的關(guān)鍵標(biāo)記。在整個(gè)進(jìn)化過(guò)程中，也可以刪除多余的標(biāo)記，“調(diào)教”出盡量滿(mǎn)意的圖像。下圖為“一顆蘋(píng)果樹(shù)”的標(biāo)記修剪。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

可繼續(xù)改進(jìn)：初始畫(huà)布不必空白

那這樣一種技術(shù)有什么實(shí)際用處呢？

團(tuán)隊(duì)介紹到，它可以用于輔助藝術(shù)創(chuàng)作、發(fā)明新的標(biāo)記制作方法或者將其生成過(guò)程作用于3D模型等。

而且畫(huà)布的背景初始條件不必空白，沒(méi)準(zhǔn)可以從照片或現(xiàn)有圖像開(kāi)始，在每次迭代中用不同的文本來(lái)調(diào)節(jié)，最終讓圖像一點(diǎn)點(diǎn)演變成層次更豐富的作品！

當(dāng)然，他們的算法也有一些需要改進(jìn)的地方，所生成的圖像有時(shí)讓人感到驚喜，而有時(shí)卻看起來(lái)平平無(wú)奇甚至混亂，由于過(guò)擬合產(chǎn)生了越來(lái)越抽象的作品。

如果讓AI根據(jù)文字畫(huà)「抽象畫(huà)」，那得成什么樣？｜DeepMind新算法

而在允許背景顏色進(jìn)化得更豐富時(shí)，也會(huì)造成圖像其他方面多樣性的降低。

目前這個(gè)算法還存在一些“偏見(jiàn)”，比如要求生成“自畫(huà)像”時(shí)，最終大多數(shù)肖像都是白人男性。

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="sfrvd"></sub>