自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

效率碾壓DALL·E 2和Imagen，谷歌新模型達(dá)成新SOTA，還能一句話搞定PS

作者：量子位 2023-01-07 12:53:44

如果想要效果更精準(zhǔn)，還能選定遮罩位置，編輯特定區(qū)域。比如，把背景的建筑換成熱氣球。

新年伊始，谷歌AI又開始發(fā)力文字-圖像生成模型了。

這次，他們的新模型Muse（繆斯）在CC3M數(shù)據(jù)集上達(dá)成了新SOTA（目前最佳水平）。

而且其效率遠(yuǎn)超火爆全球的DALL·E 2和Imagen （這倆都屬于擴(kuò)散模型），以及Parti （屬于自回歸模型）。

——單張512x512分辨率圖像的生成時(shí)間被壓縮到僅1.3秒。

在圖像編輯方面，只需一句文字指令，就可以對(duì)原始圖像進(jìn)行編輯。

（貌似不用再為學(xué)ps頭禿了~）

如果想要效果更精準(zhǔn)，還能選定遮罩位置，編輯特定區(qū)域。比如，把背景的建筑換成熱氣球。

Muse一經(jīng)官宣，很快吸引了大波關(guān)注，目前原貼已收獲4000+點(diǎn)贊。

看到谷歌的又一力作，有人甚至已經(jīng)開始預(yù)言：

現(xiàn)在AI開發(fā)者的競(jìng)爭(zhēng)非常激烈，看來2023將是非常精彩的一年。

比DALL·E 2和Imagen更高效

說回谷歌剛剛公開的Muse。

首先，就生成圖片的質(zhì)量來說，Muse的作品大都畫質(zhì)清晰、效果自然。

來看看更多例子感受一下~

比如戴著毛線帽的樹懶寶寶正在操作電腦；再比如酒杯中的一只羊：

平時(shí)八竿子打不著的各種主體，在一張圖里和諧共存，沒啥違和感。

要是你覺得這些還只能算AIGC的基操，那不妨再看看Muse的編輯功能。

比如一鍵換裝（還能換性別）：

這既不需要加什么遮罩，還能一句話搞定。

而如果用上遮罩的話，就能實(shí)現(xiàn)更6的操作，包括一鍵切換背景，從原地切換到紐約、巴黎、再到舊金山。

還能從海邊到倫敦、到花海，甚至飛到太空中的土星環(huán)上，玩一把刺激的滑板海豚跳。

（好家伙，不僅能輕松云旅游，還能一鍵上天......）

效果著實(shí)挺出色。那Muse背后都有哪些技術(shù)支持？為什么效率比DALL·E 2和Imagen更高？

一個(gè)重要的原因是，DALL·E 2和Imagen在訓(xùn)練過程中，需要將所有學(xué)到的知識(shí)都存儲(chǔ)在模型參數(shù)中。

于是，它們不得不需要越來越大的模型、越來越多的訓(xùn)練數(shù)據(jù)來獲取更多知識(shí)——將Better和Bigger綁在了一起。

代價(jià)就是參數(shù)量巨大，效率也受到了影響。

而據(jù)谷歌AI團(tuán)隊(duì)介紹，他們采用的主要方法名曰：掩碼圖像建模（Masked image modeling）。

這是一種新興的自監(jiān)督預(yù)訓(xùn)練方法，其基本思想簡(jiǎn)單來說就是：

輸入圖像的一部分被隨機(jī)屏蔽掉，然后通過預(yù)訓(xùn)練文本任務(wù)進(jìn)行重建。

Muse模型在離散標(biāo)記的空間掩碼上訓(xùn)練，并結(jié)合從預(yù)訓(xùn)練語言大模型中提取的文本，預(yù)測(cè)隨機(jī)遮蔽的圖像標(biāo)記。

從上到下依次為：預(yù)訓(xùn)練的文本編碼器、基礎(chǔ)模型、超分辨率模型

谷歌團(tuán)隊(duì)發(fā)現(xiàn)，使用預(yù)先訓(xùn)練好的大語言模型，可以讓AI對(duì)語言的理解更加細(xì)致透徹。

就輸出而言，由于AI對(duì)物體的空間關(guān)系、姿態(tài)等要素把握得很不錯(cuò)，所以生成的圖像可以做到高保真。

與DALL·E 2、Imagen等像素空間的擴(kuò)散模型相比，Muse用的是離散的token，并且采樣迭代較少。

另外，和Parti等自回歸模型相比，Muse使用了并行解碼，效率也更高。

FID上獲SOTA得分

前文提到，Muse不僅在效率上取得了提升，在生成圖像質(zhì)量上也非常優(yōu)秀。

研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2，以及谷歌自家的Imagen和Parti進(jìn)行PK，測(cè)試了它們的FID和CLIP分?jǐn)?shù)。

（FID分?jǐn)?shù)用于評(píng)估生成圖像的質(zhì)量，分?jǐn)?shù)越低質(zhì)量越高；CLIP分?jǐn)?shù)則代表文本與圖像的契合程度，分?jǐn)?shù)越高越好。）

結(jié)果顯示，Muse-3B模型在COCO驗(yàn)證集中的zero-shot FID-30K得分為7.88，僅次于參數(shù)更大的Imagen-3.4B和Parti-20B模型。

更優(yōu)秀的是，Muse-900M模型在CC3M數(shù)據(jù)集上實(shí)現(xiàn)了新的SOTA，F(xiàn)ID得分為6.06，這也意味著它與文字的匹配度是最高的。

同時(shí)，該模型的CLIP分?jǐn)?shù)為0.26，也達(dá)到了同期最高水平。

除此之外，為了進(jìn)一步證實(shí)Muse的出圖效率，研究者還對(duì)比了Muse與其他模型的單張圖像生成時(shí)間：

在256x256、512x512的分辨率上Muse均達(dá)到了最快速度：0.5s和1.3s。

研究團(tuán)隊(duì)

Muse的研究團(tuán)隊(duì)來自谷歌，兩位共同一作分別是Huiwen Chang和Han Zhang。

Huiwen Chang，現(xiàn)為谷歌高級(jí)研究員。

她本科就讀于清華大學(xué)，博士畢業(yè)于普林斯頓大學(xué)，有過在Adobe、Facebook等的實(shí)習(xí)經(jīng)歷。

Han Zhang，本科畢業(yè)于中國農(nóng)業(yè)大學(xué)，碩士就讀于北京郵電大學(xué)，后在羅格斯大學(xué)取得了計(jì)算機(jī)科學(xué)博士學(xué)位。

其研究方向是計(jì)算機(jī)視覺，深度學(xué)習(xí)和醫(yī)學(xué)圖像分析等。

不過值得一提的是，目前Muse還沒有正式發(fā)布。

有網(wǎng)友調(diào)侃，雖然它應(yīng)該很香，但以谷歌的“尿性”，Muse離正式發(fā)布可能還有很長時(shí)間——畢竟他們還有18年的AI都沒發(fā)呢。

話說回來，你覺得Muse的效果怎么樣？

對(duì)于其正式發(fā)布之事，有木有一點(diǎn)期待？

傳送門：??https://muse-model.github.io/??

參考鏈接：https://twitter.com/AlphaSignalAI/status/1610404589966180360?

責(zé)任編輯：武曉燕來源：量子位

模型效果 Muse

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="u0ni6"><menuitem id="u0ni6"></menuitem></ruby>