自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

效率碾壓DALL·E 2和Imagen,谷歌新模型達(dá)成新SOTA,還能一句話搞定PS

人工智能
如果想要效果更精準(zhǔn),還能選定遮罩位置,編輯特定區(qū)域。比如,把背景的建筑換成熱氣球。

新年伊始,谷歌AI又開始發(fā)力文字-圖像生成模型了。

這次,他們的新模型Muse(繆斯)在CC3M數(shù)據(jù)集上達(dá)成了新SOTA(目前最佳水平)。

而且其效率遠(yuǎn)超火爆全球的DALL·E 2和Imagen (這倆都屬于擴(kuò)散模型),以及Parti (屬于自回歸模型)。

——單張512x512分辨率圖像的生成時(shí)間被壓縮到僅1.3秒。

圖片

在圖像編輯方面,只需一句文字指令,就可以對(duì)原始圖像進(jìn)行編輯。

(貌似不用再為學(xué)ps頭禿了~)

圖片

如果想要效果更精準(zhǔn),還能選定遮罩位置,編輯特定區(qū)域。比如,把背景的建筑換成熱氣球。

圖片

Muse一經(jīng)官宣,很快吸引了大波關(guān)注,目前原貼已收獲4000+點(diǎn)贊。

圖片

看到谷歌的又一力作,有人甚至已經(jīng)開始預(yù)言:

現(xiàn)在AI開發(fā)者的競(jìng)爭(zhēng)非常激烈,看來2023將是非常精彩的一年。

圖片
圖片

比DALL·E 2和Imagen更高效

說回谷歌剛剛公開的Muse。

首先,就生成圖片的質(zhì)量來說,Muse的作品大都畫質(zhì)清晰、效果自然。

來看看更多例子感受一下~

比如戴著毛線帽的樹懶寶寶正在操作電腦;再比如酒杯中的一只羊:

圖片

平時(shí)八竿子打不著的各種主體,在一張圖里和諧共存,沒啥違和感。

要是你覺得這些還只能算AIGC的基操,那不妨再看看Muse的編輯功能。

比如一鍵換裝(還能換性別):

圖片

這既不需要加什么遮罩,還能一句話搞定。

而如果用上遮罩的話,就能實(shí)現(xiàn)更6的操作,包括一鍵切換背景,從原地切換到紐約、巴黎、再到舊金山。


還能從海邊到倫敦、到花海,甚至飛到太空中的土星環(huán)上,玩一把刺激的滑板海豚跳。

圖片

(好家伙,不僅能輕松云旅游,還能一鍵上天......)

效果著實(shí)挺出色。那Muse背后都有哪些技術(shù)支持?為什么效率比DALL·E 2和Imagen更高?

一個(gè)重要的原因是,DALL·E 2和Imagen在訓(xùn)練過程中,需要將所有學(xué)到的知識(shí)都存儲(chǔ)在模型參數(shù)中。

于是,它們不得不需要越來越大的模型、越來越多的訓(xùn)練數(shù)據(jù)來獲取更多知識(shí)——將Better和Bigger綁在了一起。

代價(jià)就是參數(shù)量巨大,效率也受到了影響。

而據(jù)谷歌AI團(tuán)隊(duì)介紹,他們采用的主要方法名曰:掩碼圖像建模 (Masked image modeling)。

這是一種新興的自監(jiān)督預(yù)訓(xùn)練方法,其基本思想簡(jiǎn)單來說就是:

輸入圖像的一部分被隨機(jī)屏蔽掉,然后通過預(yù)訓(xùn)練文本任務(wù)進(jìn)行重建。

Muse模型在離散標(biāo)記的空間掩碼上訓(xùn)練,并結(jié)合從預(yù)訓(xùn)練語言大模型中提取的文本,預(yù)測(cè)隨機(jī)遮蔽的圖像標(biāo)記。

圖片

從上到下依次為:預(yù)訓(xùn)練的文本編碼器、基礎(chǔ)模型、超分辨率模型

谷歌團(tuán)隊(duì)發(fā)現(xiàn),使用預(yù)先訓(xùn)練好的大語言模型,可以讓AI對(duì)語言的理解更加細(xì)致透徹。

就輸出而言,由于AI對(duì)物體的空間關(guān)系、姿態(tài)等要素把握得很不錯(cuò),所以生成的圖像可以做到高保真。

與DALL·E 2、Imagen等像素空間的擴(kuò)散模型相比,Muse用的是離散的token,并且采樣迭代較少。

另外,和Parti等自回歸模型相比,Muse使用了并行解碼,效率也更高。

FID上獲SOTA得分

前文提到,Muse不僅在效率上取得了提升,在生成圖像質(zhì)量上也非常優(yōu)秀。

研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti進(jìn)行PK,測(cè)試了它們的FID和CLIP分?jǐn)?shù)。

(FID分?jǐn)?shù)用于評(píng)估生成圖像的質(zhì)量,分?jǐn)?shù)越低質(zhì)量越高;CLIP分?jǐn)?shù)則代表文本與圖像的契合程度,分?jǐn)?shù)越高越好。)

結(jié)果顯示,Muse-3B模型在COCO驗(yàn)證集中的zero-shot FID-30K得分為7.88,僅次于參數(shù)更大的Imagen-3.4B和Parti-20B模型。

圖片

更優(yōu)秀的是,Muse-900M模型在CC3M數(shù)據(jù)集上實(shí)現(xiàn)了新的SOTA,F(xiàn)ID得分為6.06,這也意味著它與文字的匹配度是最高的。

同時(shí),該模型的CLIP分?jǐn)?shù)為0.26,也達(dá)到了同期最高水平。

圖片

除此之外,為了進(jìn)一步證實(shí)Muse的出圖效率,研究者還對(duì)比了Muse與其他模型的單張圖像生成時(shí)間:

在256x256、512x512的分辨率上Muse均達(dá)到了最快速度:0.5s和1.3s。

圖片

研究團(tuán)隊(duì)

Muse的研究團(tuán)隊(duì)來自谷歌,兩位共同一作分別是Huiwen Chang和Han Zhang。

圖片

Huiwen Chang,現(xiàn)為谷歌高級(jí)研究員。

她本科就讀于清華大學(xué),博士畢業(yè)于普林斯頓大學(xué),有過在Adobe、Facebook等的實(shí)習(xí)經(jīng)歷。

圖片

Han Zhang,本科畢業(yè)于中國農(nóng)業(yè)大學(xué),碩士就讀于北京郵電大學(xué),后在羅格斯大學(xué)取得了計(jì)算機(jī)科學(xué)博士學(xué)位。

其研究方向是計(jì)算機(jī)視覺,深度學(xué)習(xí)和醫(yī)學(xué)圖像分析等。

圖片

不過值得一提的是,目前Muse還沒有正式發(fā)布。

圖片

有網(wǎng)友調(diào)侃,雖然它應(yīng)該很香,但以谷歌的“尿性”,Muse離正式發(fā)布可能還有很長時(shí)間——畢竟他們還有18年的AI都沒發(fā)呢。

圖片

話說回來,你覺得Muse的效果怎么樣?

對(duì)于其正式發(fā)布之事,有木有一點(diǎn)期待?

傳送門:??https://muse-model.github.io/??

參考鏈接:https://twitter.com/AlphaSignalAI/status/1610404589966180360?

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-04-01 13:03:00

AI模型

2024-02-08 09:33:37

蘋果AI

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2023-08-28 00:53:03

AI3D

2023-05-12 14:13:23

3D建模OpenAI

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2022-09-30 15:35:43

AI視頻

2023-07-18 09:47:11

谷歌模型

2024-07-01 07:40:00

2010-03-29 11:55:12

無線上網(wǎng)報(bào)錯(cuò)

2023-05-08 15:44:23

3D數(shù)字人

2024-11-11 14:30:00

2022-12-12 13:45:46

模型修圖

2023-02-06 10:48:48

谷歌

2024-01-06 17:12:44

視頻AI

2019-09-05 10:13:28

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2020-12-16 10:43:44

PythonPyPy代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)