自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?

人工智能
OpenAI曾創(chuàng)建出一些AI行業(yè)最具未來感的技術(shù),并因此而享譽盛名。這一研究機(jī)構(gòu)獲得了微軟的支持,現(xiàn)由Y Combinator創(chuàng)始人Sam Altman領(lǐng)導(dǎo),以其強(qiáng)大的文本生成器GPT-3而聞名。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)

在過去幾年內(nèi),該機(jī)構(gòu)還制造出一只可以通過自學(xué)還原魔方的機(jī)器手、一組超人電子競技算法、一種合理生成人類音樂的算法,以及多種可以玩游戲和使用工具學(xué)習(xí)復(fù)雜策略的算法。

近期,OpenAI發(fā)布了DALL-E,一個可以根據(jù)書面文本生成圖像的人工智能系統(tǒng)。例如,系統(tǒng)響應(yīng)提詞“一個牛油果形狀的皮包。一個仿造牛油果樣式的皮包”,可以產(chǎn)生幾十次關(guān)于牛油果皮包的迭代。

 

人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?

 

圖源: OpenAI

該公司還未將DALL-E(Salvador Dalí和WALL-E名字的結(jié)合)公之于眾,甚至也尚未邀請其特定開發(fā)者群體來試用新軟件,但據(jù)其網(wǎng)站上的案例所示,該系統(tǒng)可以創(chuàng)建極其逼真且細(xì)致的圖像。

DALL-E精通各種藝術(shù)風(fēng)格,包括插圖和風(fēng)景畫。它還可以生成文本,在建筑物上進(jìn)行標(biāo)記,并將同一場景的素描線條和全彩圖像分離。研究人員把這種影響深遠(yuǎn)的能力稱為泛化能力,即算法并非專門針對某一種任務(wù)或藝術(shù)風(fēng)格。

OpenAI將算法的神通廣大歸功于兩個主要因素:其一,算法非常龐大。它使用了120億個參數(shù),數(shù)量大到令人驚異。而這些參數(shù)可以被認(rèn)為是算法轉(zhuǎn)動的旋鈕,用來調(diào)整其理解想法的方式。這120億個參數(shù)在分析圖像和文本時能夠分辨出諸多特異性,令人難以置信。

然后,這些圖像和文本材料被輸入到算法中,并且被翻譯成更易于算法理解的標(biāo)記或文本。OpenAI解釋說,一個標(biāo)記就像英語字母表中的一個字母——它們代表碎片化的概念,這一方式更易于機(jī)器計算,并且以它們以算法的語言模式排列。

這一機(jī)器字母表包含16384個文本標(biāo)記和8192個圖像標(biāo)記。這種將人類可讀文本自動轉(zhuǎn)換為機(jī)器可讀文本的方法稱為“轉(zhuǎn)換器模型”。一個字幕或帶有文本的圖像轉(zhuǎn)換為算法,最多會被翻譯成256個標(biāo)記,而圖像最多能被翻譯成1024個標(biāo)記。這使得算法能夠為相對較少的文本輸入匹配到更復(fù)雜的圖像。

之后,算法將通過分析成對的圖像和字幕不斷進(jìn)化。通過表面上數(shù)百萬次迭代,它能夠?qū)⑽谋酒闻c圖像的特定特征聯(lián)系起來。但OpenAI還未公布這一數(shù)據(jù)集的容量或其包含的圖像內(nèi)容。

該公司并不是第一個嘗試從文本中生成圖像的公司,甚至這也不是OpenAI的首次嘗試。這只是此類算法的最新版本,似乎也是最可行的一個版本。雖然該公司還未發(fā)表過任何文章來描述該系統(tǒng),但這一算法的創(chuàng)造者確實曾在其博客上引用了DALL-E的前置任務(wù)。

通過對算法的沿襲進(jìn)行考察,我們可以追蹤到這項技術(shù)實際上的發(fā)展程度。

2016

OpenAI引用了這篇由密歇根大學(xué)和馬普研究所撰寫的論文,為當(dāng)前文本到圖像生成的研究注入了活力。

這篇論文使用了生成式對抗網(wǎng)絡(luò)(generative adversarial networks generative,簡稱GANs)來生成圖像。GANs的功能是將兩種算法相互對立:一種生成圖像,另一種將不夠真實的圖像駁回。

 

人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?

 

圖源: Reed et. al

2017

一年后,羅格斯大學(xué)、里海大學(xué)和中國香港大學(xué)的研究人員采取了另一種 GAN 方法——“堆疊”成對的算法。第一對算法列出場景的形狀和顏色,然后第二對算法細(xì)化細(xì)節(jié)。

 

[[390896]]

 

圖源: Zhang et. al

2019

2019年,另一支主要隸屬于微軟的團(tuán)隊嘗試了不同的“兩步走”方法。第一步是生成場景中對象所在位置的示意圖,第二步是使用該示意圖作為向?qū)蓸?gòu)成目標(biāo)圖片所需的對象。

 

人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?

 

圖源: Li et. al

2020

去年年底,美國人工智能艾倫研究所發(fā)表了一項使用轉(zhuǎn)換器模型的研究,與OpenAI使用的轉(zhuǎn)換器模型相同。艾倫研究所的研究人員沒有追求模型的規(guī)模,而是依賴于“隱蔽”。

在《麻省理工學(xué)院科技評論》上有一篇文章詳細(xì)解釋了這一概念,Karen Hao將“隱蔽”描述為“把不同的單詞隱藏在句子中,讓模型填補空白”。算法掌握這些直觀性跳躍后,研究者發(fā)現(xiàn)生成的圖像質(zhì)量得到顯著提升。

 

人工智能圖像生成技術(shù):短短5年內(nèi)如何飛速發(fā)展?

 

圖源: Cho et al.

回溯過去這些研究案例,我們可以發(fā)現(xiàn)OpenAI的DALL-E確實是一項飛躍。從模糊不清的斑點開始,最先進(jìn)的技術(shù)已發(fā)展到能夠生成牛油果形狀的椅子,OneZero專欄作家歐文·威廉姆斯表示他真的愿意購買這樣的椅子。

 

這些進(jìn)步足以讓一代家具設(shè)計師、圖庫藝術(shù)家以及其他網(wǎng)絡(luò)藝術(shù)家感到害怕。

 

責(zé)任編輯:華軒 來源: 讀芯術(shù)
相關(guān)推薦

2021-01-26 12:06:56

5G機(jī)器人智能家居

2017-07-06 10:24:44

聯(lián)想高性能計算HPC

2009-11-04 15:48:23

互聯(lián)網(wǎng)接入

2015-04-03 14:27:11

BIM大數(shù)據(jù)

2011-09-08 13:43:49

2019-01-08 14:15:54

2022-12-09 10:28:00

人工智能OpenAI

2018-03-27 09:10:52

AI

2020-11-15 20:00:21

人工智能AI

2021-01-26 10:23:06

人工智能人工智能技術(shù)

2021-03-12 20:00:45

人工智能AI

2017-10-11 11:01:43

人工智能機(jī)器人自動化

2023-08-07 15:44:42

生成式人工智能AI

2023-10-26 08:30:00

人工智能圖像搜索

2023-09-28 08:00:00

人工智能圖像搜索

2021-06-04 10:24:37

人工智能AI深度學(xué)習(xí)

2021-03-22 12:08:30

人工智能

2021-08-12 21:28:36

人工智能AI

2020-04-17 12:53:04

人工智能AI

2023-07-21 16:24:09

人工智能
點贊
收藏

51CTO技術(shù)棧公眾號