自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fln3p"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

人工智能圖像生成技術(shù)：短短5年內(nèi)如何飛速發(fā)展？

作者：讀芯術(shù) 2021-04-01 13:41:54

OpenAI曾創(chuàng)建出一些AI行業(yè)最具未來感的技術(shù)，并因此而享譽盛名。這一研究機(jī)構(gòu)獲得了微軟的支持，現(xiàn)由Y Combinator創(chuàng)始人Sam Altman領(lǐng)導(dǎo)，以其強(qiáng)大的文本生成器GPT-3而聞名。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID：AI_Discovery)

在過去幾年內(nèi)，該機(jī)構(gòu)還制造出一只可以通過自學(xué)還原魔方的機(jī)器手、一組超人電子競技算法、一種合理生成人類音樂的算法，以及多種可以玩游戲和使用工具學(xué)習(xí)復(fù)雜策略的算法。

近期，OpenAI發(fā)布了DALL-E，一個可以根據(jù)書面文本生成圖像的人工智能系統(tǒng)。例如，系統(tǒng)響應(yīng)提詞“一個牛油果形狀的皮包。一個仿造牛油果樣式的皮包”，可以產(chǎn)生幾十次關(guān)于牛油果皮包的迭代。

人工智能圖像生成技術(shù)：短短5年內(nèi)如何飛速發(fā)展？

圖源: OpenAI

該公司還未將DALL-E(Salvador Dalí和WALL-E名字的結(jié)合)公之于眾，甚至也尚未邀請其特定開發(fā)者群體來試用新軟件，但據(jù)其網(wǎng)站上的案例所示，該系統(tǒng)可以創(chuàng)建極其逼真且細(xì)致的圖像。

DALL-E精通各種藝術(shù)風(fēng)格，包括插圖和風(fēng)景畫。它還可以生成文本，在建筑物上進(jìn)行標(biāo)記，并將同一場景的素描線條和全彩圖像分離。研究人員把這種影響深遠(yuǎn)的能力稱為泛化能力，即算法并非專門針對某一種任務(wù)或藝術(shù)風(fēng)格。

OpenAI將算法的神通廣大歸功于兩個主要因素：其一，算法非常龐大。它使用了120億個參數(shù)，數(shù)量大到令人驚異。而這些參數(shù)可以被認(rèn)為是算法轉(zhuǎn)動的旋鈕，用來調(diào)整其理解想法的方式。這120億個參數(shù)在分析圖像和文本時能夠分辨出諸多特異性，令人難以置信。

然后，這些圖像和文本材料被輸入到算法中，并且被翻譯成更易于算法理解的標(biāo)記或文本。OpenAI解釋說，一個標(biāo)記就像英語字母表中的一個字母——它們代表碎片化的概念，這一方式更易于機(jī)器計算，并且以它們以算法的語言模式排列。

這一機(jī)器字母表包含16384個文本標(biāo)記和8192個圖像標(biāo)記。這種將人類可讀文本自動轉(zhuǎn)換為機(jī)器可讀文本的方法稱為“轉(zhuǎn)換器模型”。一個字幕或帶有文本的圖像轉(zhuǎn)換為算法，最多會被翻譯成256個標(biāo)記，而圖像最多能被翻譯成1024個標(biāo)記。這使得算法能夠為相對較少的文本輸入匹配到更復(fù)雜的圖像。

之后，算法將通過分析成對的圖像和字幕不斷進(jìn)化。通過表面上數(shù)百萬次迭代，它能夠?qū)⑽谋酒闻c圖像的特定特征聯(lián)系起來。但OpenAI還未公布這一數(shù)據(jù)集的容量或其包含的圖像內(nèi)容。

該公司并不是第一個嘗試從文本中生成圖像的公司，甚至這也不是OpenAI的首次嘗試。這只是此類算法的最新版本，似乎也是最可行的一個版本。雖然該公司還未發(fā)表過任何文章來描述該系統(tǒng)，但這一算法的創(chuàng)造者確實曾在其博客上引用了DALL-E的前置任務(wù)。

通過對算法的沿襲進(jìn)行考察，我們可以追蹤到這項技術(shù)實際上的發(fā)展程度。

2016

OpenAI引用了這篇由密歇根大學(xué)和馬普研究所撰寫的論文，為當(dāng)前文本到圖像生成的研究注入了活力。

這篇論文使用了生成式對抗網(wǎng)絡(luò)(generative adversarial networks generative，簡稱GANs)來生成圖像。GANs的功能是將兩種算法相互對立：一種生成圖像，另一種將不夠真實的圖像駁回。

人工智能圖像生成技術(shù)：短短5年內(nèi)如何飛速發(fā)展？

圖源: Reed et. al

2017

一年后，羅格斯大學(xué)、里海大學(xué)和中國香港大學(xué)的研究人員采取了另一種 GAN 方法——“堆疊”成對的算法。第一對算法列出場景的形狀和顏色，然后第二對算法細(xì)化細(xì)節(jié)。

圖源: Zhang et. al

2019

2019年，另一支主要隸屬于微軟的團(tuán)隊嘗試了不同的“兩步走”方法。第一步是生成場景中對象所在位置的示意圖，第二步是使用該示意圖作為向?qū)蓸?gòu)成目標(biāo)圖片所需的對象。

人工智能圖像生成技術(shù)：短短5年內(nèi)如何飛速發(fā)展？

圖源: Li et. al

2020

去年年底，美國人工智能艾倫研究所發(fā)表了一項使用轉(zhuǎn)換器模型的研究，與OpenAI使用的轉(zhuǎn)換器模型相同。艾倫研究所的研究人員沒有追求模型的規(guī)模，而是依賴于“隱蔽”。

在《麻省理工學(xué)院科技評論》上有一篇文章詳細(xì)解釋了這一概念，Karen Hao將“隱蔽”描述為“把不同的單詞隱藏在句子中，讓模型填補空白”。算法掌握這些直觀性跳躍后，研究者發(fā)現(xiàn)生成的圖像質(zhì)量得到顯著提升。

人工智能圖像生成技術(shù)：短短5年內(nèi)如何飛速發(fā)展？

圖源: Cho et al.

回溯過去這些研究案例，我們可以發(fā)現(xiàn)OpenAI的DALL-E確實是一項飛躍。從模糊不清的斑點開始，最先進(jìn)的技術(shù)已發(fā)展到能夠生成牛油果形狀的椅子，OneZero專欄作家歐文·威廉姆斯表示他真的愿意購買這樣的椅子。

這些進(jìn)步足以讓一代家具設(shè)計師、圖庫藝術(shù)家以及其他網(wǎng)絡(luò)藝術(shù)家感到害怕。

責(zé)任編輯：華軒來源：讀芯術(shù)

人工智能技術(shù)工具

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營