自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌新AI火了!世界最長(zhǎng)單詞都能畫(huà)

人工智能
朋友,你知道這個(gè)英文單詞是什么嗎?Pneumonoultramicroscopicsilicovolcanoconiosis.這個(gè)世界公認(rèn)最長(zhǎng)——由45個(gè)字母組成的單詞,意思是“因肺部沉積火山矽質(zhì)微粒所引起的疾病”(俗稱(chēng)火山矽肺?。5绻f(shuō),現(xiàn)在不是讓你拼讀這個(gè)單詞,而是……把它給畫(huà)出來(lái)呢?

朋友,你知道這個(gè)英文單詞是什么嗎?

Pneumonoultramicroscopicsilicovolcanoconiosis.

這個(gè)世界公認(rèn)最長(zhǎng)——由45個(gè)字母組成的單詞,意思是“因肺部沉積火山矽質(zhì)微粒所引起的疾病”(俗稱(chēng)火山矽肺?。?。

但如果說(shuō),現(xiàn)在不是讓你拼讀這個(gè)單詞,而是……把它給畫(huà)出來(lái)呢?

(讀都讀不出來(lái),還畫(huà)畫(huà)???)

谷歌最新提出來(lái)的一個(gè)AI——Parti,它就能輕松hold住這事。

在把這個(gè)單詞“投喂”給Parti后,它就能有模有樣地生成多張合情合理的肺部疾病圖片:

圖片

但這只是Parti小試牛刀的能力,據(jù)谷歌介紹,它是目前最先進(jìn)的“文本轉(zhuǎn)圖像”AI。

例如,跟它說(shuō)句:“把悉尼歌劇院和巴黎鐵塔做個(gè)結(jié)合”,輸出結(jié)果是這樣的:

圖片

(不知道的還真以為是畫(huà)報(bào)呢)

而且在算法路數(shù)上,還不同于谷歌自家的Imagen,Parti可以說(shuō)是把“AI作畫(huà)”卷出了新高度。

圖片

就連谷歌AI負(fù)責(zé)人Jeff Dean也連發(fā)數(shù)條推文,玩得不亦樂(lè)乎:

圖片

可擴(kuò)展到200億參數(shù):更逼真,更“聰明”

事實(shí)上,Parti的能力還不止于此。

得益于模型可擴(kuò)展到200億參數(shù),一方面,它生成的圖像更加細(xì)節(jié)逼真。

不管是短短幾個(gè)字,還是五十多個(gè)個(gè)單詞的小段落,都能清晰展現(xiàn)出來(lái)。

比如,The back of a violin,小提琴的背面。

圖片

亦或是照著梵高《星空》來(lái)描述的夜晚畫(huà)面。ps,這段有67個(gè)單詞。

圖片

結(jié)果Parti也不在話(huà)下,一攬子把各種風(fēng)格的圖全給你畫(huà)出來(lái)了~

圖片

這也正是Parti的第二大能力,不光細(xì)節(jié)到位,風(fēng)格也能做到多變。

還有像“浣熊穿正裝,頭戴禮帽,拄著拐杖,拿著個(gè)垃圾袋”這種奇特的描述,它也能在整出花活的同時(shí)還不落細(xì)節(jié)。

風(fēng)格上,則有梵高風(fēng)、埃及法老風(fēng)、像素風(fēng)、中國(guó)傳統(tǒng)繪畫(huà)風(fēng)、抽象主義風(fēng)……

圖片

甚至有時(shí)候它還會(huì)講雙關(guān)笑話(huà)。

圖片

(Toad’ay,癩蛤?。?/p>

具體在測(cè)試結(jié)果上,MS-COCO、Localized Narrative(LN,4倍長(zhǎng)的描述)上FID分?jǐn)?shù),Parti都取得了最先進(jìn)的結(jié)果。

圖片

尤其在MS-COCO零樣本的FID得分僅為7.23,微調(diào)FID得分為3.22,超過(guò)了此前的Imagen和DALL-E 2。

所有組件都是Transformer

時(shí)隔一個(gè)月,谷歌再把AI作畫(huà)卷出新高度,結(jié)果作者卻說(shuō):秘訣很簡(jiǎn)單。

圖片

Parti主要是將文本生成圖像視作序列到序列之間建模。這有點(diǎn)類(lèi)似于機(jī)器翻譯,將文本標(biāo)記作為編碼器的輸入,目標(biāo)輸出從文本變成了圖像。

從結(jié)構(gòu)上看,它的所有組件只有三部分:編碼器、解碼器以及圖像標(biāo)記器,且都是基于標(biāo)準(zhǔn)Transformer。

圖片

首先,使用基于Transformer的圖像標(biāo)記器ViT-VQGAN,將圖像編碼為離散的標(biāo)記序列。

然后再通過(guò)Transformer的編碼-解碼結(jié)構(gòu),將參數(shù)擴(kuò)展到200億。

以往關(guān)于文本生成圖像的研究,除了最早出現(xiàn)的GAN,大體可以分成兩種思路。

一種是基于自回歸模型,首先文本特征映射到圖像特征,再使用類(lèi)似于Transformer的序列架構(gòu),來(lái)學(xué)習(xí)語(yǔ)言輸入和圖像輸出之間的關(guān)系。

這種方法的一個(gè)關(guān)鍵組成部分就是圖像標(biāo)記器,將每個(gè)圖像轉(zhuǎn)換為一個(gè)離散單元的序列。比如DALL-E和CogView,就采用了這一思路。

另一種則是這段時(shí)間以來(lái)進(jìn)展頻頻的路線——基于擴(kuò)散的文本到圖像模型,比如DALL-E 2和Imagen。

他們摒棄了圖像標(biāo)記器,而是采用擴(kuò)散模型來(lái)直接生成圖像。可以看到的是,這些模型產(chǎn)生的圖像質(zhì)量更高,在MS-COCO零樣本FID得分更好。

圖片

而Parti模型的成功,則證明了自回歸模型可以用來(lái)改善文本生成圖像的效果。

與此同時(shí),Parti還引入并發(fā)布了新的基準(zhǔn)測(cè)試——PartiPrompts,用于衡量模型在12個(gè)類(lèi)別和11個(gè)挑戰(zhàn)方面的能力。

圖片

但Parti還是有一定的局限性,研究人員也展示了一些bug:

比如,對(duì)否定的描述就沒(méi)招了~

一個(gè)沒(méi)有香蕉的盤(pán)子,旁邊一個(gè)沒(méi)有橙汁兒的玻璃杯。

圖片

還會(huì)犯一些常識(shí)性錯(cuò)誤,例如不合理地縮放。比如這張圖,機(jī)器人竟然比賽車(chē)高出好幾倍。

圖片

一個(gè)穿著賽車(chē)服和黑色遮陽(yáng)板的閃亮機(jī)器人自豪地站在一輛F1賽車(chē)前。太陽(yáng)落在城市景觀上。漫畫(huà)書(shū)插圖。

谷歌“自己卷自己”

在這項(xiàng)研究來(lái)自Google Research,團(tuán)隊(duì)中的華人居多。

圖片

研究核心工作人員包括Yuanzhong Xu、Thang Luong等,目前均就職于谷歌從事AI相關(guān)研究工作。

(Thang Luong在谷歌學(xué)術(shù)上的引用量高達(dá)20000+)

圖片

△左:Yuanzhong Xu;右:Thang Luong

不過(guò)有意思的是,同為“說(shuō)句話(huà)讓AI作畫(huà)”,同為出自谷歌之手的Imagen,它跟Parti還真有點(diǎn)千絲萬(wàn)縷的關(guān)系。

在Parti的GitHub的項(xiàng)目文檔中就有提到:

感謝Imagen團(tuán)隊(duì),他們?cè)诎l(fā)布Imagen之前與我們分享了其最近完整的結(jié)果。

他們?cè)贑F-guidance方面的重要發(fā)現(xiàn),對(duì)最終的Parti模型特別有幫助。

圖片

而且Imagen的作者之一Burcu Karagol Ayan,也參與到了Parti的項(xiàng)目中。

(有種谷歌“自己卷自己”那味了)

不僅如此,就連“隔壁”DALL-E 2的作者Aditya Ramesh,也給Parti在MS-COCO評(píng)價(jià)方面做了討論工作。

以及DALL-Eval的作者們,也在Parti數(shù)據(jù)方面的工作提供了幫助。

One More Thing

有一說(shuō)一,就“文本生成圖像”這事,可不只是研究人員們的寵兒。

網(wǎng)友們?cè)凇巴妗彼@條路上,也是樂(lè)此不疲(腦洞不要太大好吧)。

前一陣子讓Imagen畫(huà)一幅宋朝“虎戴VR”,直接演變成AI作畫(huà)大戰(zhàn)。

圖片

△圖:Imagen作畫(huà)

DALL·E、MidJourney等“聞?dòng)嵹s來(lái)”參與其中。

圖片

△ DALL·E作畫(huà)

甚至還有把Wordle和 DALL-E 2搞到一起的:

圖片

……

不過(guò)回歸到這次的Parti,好玩歸好玩,但還是有網(wǎng)友提出了“直擊靈魂”的問(wèn)題:

圖片

啥時(shí)候商業(yè)化?要是自己“關(guān)門(mén)玩”就沒(méi)意思了。

Parti論文地址:

https://parti.research.google/

GitHub項(xiàng)目地址:

https://github.com/google-research/parti

參考鏈接:

[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research.google/?

責(zé)任編輯:未麗燕 來(lái)源: 量子位
相關(guān)推薦

2025-01-08 14:13:53

2020-03-12 10:37:44

AI 數(shù)據(jù)人工智能

2017-07-12 08:33:04

機(jī)房數(shù)據(jù)中心服務(wù)器

2021-12-20 16:17:35

數(shù)據(jù)模型技術(shù)

2024-04-18 12:16:37

MetaAIOpenEQA

2010-09-03 11:11:22

2020-06-22 16:35:36

馬賽克AI深度學(xué)習(xí)

2022-11-09 15:41:47

人工智能小程序視頻

2023-09-29 08:41:47

谷歌Vertex AI

2019-07-18 08:54:42

谷歌Android開(kāi)發(fā)者

2025-01-07 11:22:15

2022-07-15 14:57:43

AI語(yǔ)言

2024-02-21 14:07:00

2023-06-03 13:28:35

ChatGPTAItoken

2018-07-19 16:34:56

猜畫(huà)小歌AI小程序

2018-07-26 10:44:10

谷歌AI呼叫中心

2023-05-09 10:17:04

谷歌AI

2019-08-15 09:00:00

AI人工智能

2015-12-15 14:11:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)