自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

對(duì)標(biāo)DALL·E 3!Meta最強(qiáng)文生圖Emu技術(shù)報(bào)告出爐

人工智能 新聞
可以說,Meta剛剛發(fā)布的Emu,在性能上毫不遜色于DALL·E 3!而Emu取得優(yōu)異性能背后的原因是「質(zhì)量調(diào)整」。

前幾天,OpenAI剛剛推出DALL·E 3,文生圖再次上升到一個(gè)新階段,甚至有網(wǎng)友紛紛表示R.I.P. Midjourney。

在28號(hào)的Meta Connect大會(huì)上,小扎也推出了自家的人工智能圖像生成模型——Emu(Expressive Media Universe)。

Emu最大的特點(diǎn)是,只用簡(jiǎn)單的文字,5秒即生圖片。

比如:「一只在彩虹森林中的神仙貓咪」。

「徒步旅行者和北極熊」。

「水下的航天員」。

「在花叢中的一位女士」。

「如果恐龍是一只貓咪」。

與其他文生圖模型相比,Emu最有趣的是,可以一鍵生成表情包。

當(dāng)你正和人聊天時(shí),不用絞盡腦汁去翻找一個(gè)合適的表情包了。

比如,和朋友約好了背包旅行,想要發(fā)一個(gè)生動(dòng)的準(zhǔn)備去旅行的表情包。

「一只快樂的刺猬騎著摩托車」

選擇自己喜歡的一個(gè),發(fā)送。

當(dāng)然了,你可以生成各種各樣的表情包,僅需要簡(jiǎn)單幾個(gè)詞。

很快,任何人都可以在Ins中進(jìn)行圖像編輯——重?fù)Q風(fēng)格和背景,背后就是由Emu和分割模型SAM加持。

重?fù)Q風(fēng)格,可以根據(jù)你所描述的風(fēng)格,重構(gòu)想像輸出圖片。

如下, 輸入「水彩」,你的照片就立刻變成水彩畫了。

或者,把扎克伯格小時(shí)候的照片變成「搖滾朋克風(fēng)格」。

又或者給金毛換一個(gè)「長(zhǎng)頭發(fā)」,就得到了:

你甚至可以為圖片更換背景。

找到一張自己躺在草坪中的照片,輸入「被小狗包圍」,一群可愛的小狗就伴你左右了。

又或者,家庭合照中,背景也可以隨意切換。

Emu在發(fā)布會(huì)上可算是風(fēng)光了一把,但其實(shí)在現(xiàn)場(chǎng)演示的前一天,Meta就在arXiv更新了Emu模型的論文。

論文地址:https://arxiv.org/abs/2309.15807

在這篇論文中,Meta介紹了Emu的訓(xùn)練方法:質(zhì)量調(diào)整(quality-tuning),一種有監(jiān)督的微調(diào)。

質(zhì)量調(diào)整解決了在利用網(wǎng)絡(luò)規(guī)模的圖像-文本訓(xùn)練文本-圖像模型時(shí),生成高度美觀的圖像面臨的挑戰(zhàn):美學(xué)對(duì)齊。

通過質(zhì)量調(diào)整,可以有效指導(dǎo)預(yù)訓(xùn)練模型專門生成具有高度視覺吸引力的圖像,同時(shí)保持視覺概念的通用性。

研究人員還將其泛用到其他模型架構(gòu)中,如pixel diffusion和masked generative transformer,證明了質(zhì)量調(diào)整方法的通用性。

質(zhì)量調(diào)整的方法

生成模型的訓(xùn)練包括兩個(gè)階段:知識(shí)學(xué)習(xí)和質(zhì)量學(xué)習(xí)。

在知識(shí)學(xué)習(xí)階段,目標(biāo)是獲得從文本生成幾乎任何內(nèi)容的能力,這通常需要在數(shù)以億計(jì)的圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練。

而在質(zhì)量學(xué)習(xí)階段,模型將被限制輸出高質(zhì)量和美觀的圖片。

Meta研究人員將以提高質(zhì)量和促進(jìn)審美一致性為目的的微調(diào)過程稱為質(zhì)量調(diào)整。

圖片

經(jīng)質(zhì)量調(diào)整的Emu生成的圖像

但質(zhì)量調(diào)整有三個(gè)關(guān)鍵:

(1)微調(diào)數(shù)據(jù)集可以小得出奇,大約只有幾千張圖片;

(2)數(shù)據(jù)集的質(zhì)量非常高,這使得數(shù)據(jù)整理難以完全自動(dòng)化,需要人工標(biāo)注;

(3)即使微調(diào)數(shù)據(jù)集很小,質(zhì)量調(diào)整不僅能顯著提高生成圖片的美觀度,而且不會(huì)犧牲通用性,因?yàn)橥ㄓ眯允歉鶕?jù)輸入提示的忠實(shí)度來衡量的。

整個(gè)質(zhì)量調(diào)整過程有以下幾個(gè)步驟:

潛在擴(kuò)散架構(gòu)

研究人員設(shè)計(jì)了一種可輸出1024 X1024分辨率圖像的潛在擴(kuò)散模型。遵循標(biāo)準(zhǔn)的潛在擴(kuò)散架構(gòu)設(shè)計(jì),模型有一個(gè)自動(dòng)編碼器(AE)將圖像編碼為潛在嵌入,并有一個(gè)U-Net學(xué)習(xí)去噪過程。

研究發(fā)現(xiàn),常用的4通道自動(dòng)編碼器(AE-4)架構(gòu)由于壓縮率高,往往會(huì)導(dǎo)致所構(gòu)建圖像的細(xì)節(jié)丟失。

而這一問題在小物體中尤為明顯。

為了進(jìn)一步提高重建性能,研究人員使用了對(duì)抗性損失,并使用傅里葉特征變換對(duì)RGB圖像進(jìn)行了不可學(xué)習(xí)的預(yù)處理,將輸入通道維度從3(RGB)提升到更高維度,以更好地捕捉精細(xì)結(jié)構(gòu)。

用于不同通道尺寸的自動(dòng)編碼器的定性結(jié)果見下圖。

此外,研究人員還增加了每個(gè)階段的通道大小和堆疊殘差塊數(shù)量,以提高模型容量。

并且,此研究使用CLIP ViT-L和T5-XXL的文本嵌入作為文本條件。

預(yù)訓(xùn)練

研究人員策劃了一個(gè)由11億張圖像組成的大型內(nèi)部預(yù)訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型,訓(xùn)練過程中模型的分辨率逐步提高。

在預(yù)訓(xùn)練的最后階段,研究人員還使用了0.02的噪聲偏移,這有利于生成高對(duì)比度的圖像,從而提高生成圖像的美感。

構(gòu)建高質(zhì)量對(duì)齊數(shù)據(jù)

從最初的數(shù)十億張圖片開始,使用一系列自動(dòng)過濾器將圖片數(shù)量減少到幾億張。

這些過濾器包括但不限于去除打擊性內(nèi)容、美學(xué)分?jǐn)?shù)過濾器、光學(xué)字符識(shí)別(OCR)字?jǐn)?shù)過濾器(用于去除覆蓋過多文字的圖片)以及 CLIP 分?jǐn)?shù)過濾器(用于去除圖片與文字對(duì)齊度較差的樣本)。

然后,通過圖像大小和縱橫比進(jìn)行額外的自動(dòng)過濾。

并且,為了平衡來自不同領(lǐng)域和類別的圖片,研究人員利用視覺概念分類來獲取特定領(lǐng)域的圖片(如肖像、食物、動(dòng)物、風(fēng)景、汽車等)。

最后,通過基于專有信號(hào)(如點(diǎn)贊數(shù))的額外質(zhì)量過濾,這樣可以將數(shù)據(jù)進(jìn)一步減少到200K Human Filtering。

接下來,將數(shù)據(jù)集分兩個(gè)階段進(jìn)行人工過濾,只保留極具美感的圖片。

在第一階段,訓(xùn)練通用注釋器將圖片庫(kù)縮減到20K張。這一階段的主要目標(biāo)是優(yōu)化召回率,確保排除通過自動(dòng)過濾的中低質(zhì)量圖片。

在第二階段,聘請(qǐng)精通攝影原理的專業(yè)注釋員,篩選出高審美質(zhì)量的圖片,如下圖。

這一階段的重點(diǎn)是優(yōu)化精確度,即只選擇最好的圖片。數(shù)據(jù)集遵循高質(zhì)量攝影的基本原則,在各種風(fēng)格的圖像中普遍獲得更具美感的圖像,并通過人工評(píng)估進(jìn)行驗(yàn)證。

質(zhì)量調(diào)整

將視覺效果極佳的圖像視為所有圖像的子集,這些圖像具有一些共同的統(tǒng)計(jì)數(shù)據(jù)。

研究人員使用64個(gè)小批量數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

在此階段使用0.1的噪聲偏移。但需要注意的是,盡早停止微調(diào)非常重要,因?yàn)樵谛?shù)據(jù)集上微調(diào)時(shí)間過長(zhǎng)會(huì)導(dǎo)致明顯的過擬合,降低視覺概念的通用性。

但微調(diào)迭代次數(shù)不能超過5K,這個(gè)總迭代次數(shù)是根據(jù)經(jīng)驗(yàn)確定的。

實(shí)驗(yàn)結(jié)果

質(zhì)量調(diào)整的效果

研究人員將經(jīng)過質(zhì)量調(diào)整的Emu模型與預(yù)先訓(xùn)練的模型進(jìn)行比較。

質(zhì)量調(diào)整前后的隨機(jī)定性測(cè)試結(jié)果見下圖。

可以看到非寫實(shí)圖像也具有很高的美感,這驗(yàn)證研究提出的假設(shè):在質(zhì)量調(diào)整數(shù)據(jù)集中遵循某些攝影原則,可以提高各種風(fēng)格的美感。

從數(shù)量上看,經(jīng)過質(zhì)量調(diào)整后,Emu在視覺吸引力和文本可信度方面都有顯著優(yōu)勢(shì)。

具體來說,在Par-tiPrompts和OUl Prompts上,分別有 82.9% 和 91.2% 的視覺吸引力以及 36.7% 和 47.9% 的文本忠實(shí)度首選Emu。

相比之下,在視覺吸引力方面,預(yù)訓(xùn)練模型分別只有15.4% 和 7.9%的時(shí)間受到青睞,而在文字忠實(shí)性方面,PartiPrompts和OUl Prompts分別有 21.0% 和 18.5% 的時(shí)間受到青睞。

其余案例的結(jié)果均為平局。從這兩組涵蓋不同領(lǐng)域和類別的大量評(píng)估數(shù)據(jù)中視覺概念的通用性沒有下降。

相反,這些改進(jìn)廣泛適用于各種風(fēng)格。

SoTA 背景下的視覺吸引力

為了將Emu生成的圖像的視覺吸引力與當(dāng)前最先進(jìn)的技術(shù)進(jìn)行比較,研究人員將Emu與SDXLV1.0進(jìn)行了比較。

可以看到,Emu比 SDXLv1.0 的視覺吸引力高出很多,包括在風(fēng)格化(非寫實(shí))提示上。

并且,Meta證實(shí)了質(zhì)量調(diào)整也可以改進(jìn)其他流行的架構(gòu),如pixel diffusion和masked generative transformer。

研究人員從頭開始重新實(shí)現(xiàn)和訓(xùn)練一個(gè)pixel diffusion和masked generative transformer,然后在 2000 張圖像上對(duì)它們進(jìn)行質(zhì)量調(diào)整。

之后,研究人員在1/3隨機(jī)抽樣的PartiPrompts上對(duì)這兩種經(jīng)過質(zhì)量調(diào)整的模型進(jìn)行了評(píng)估。

如下圖所示,經(jīng)過質(zhì)量調(diào)整后,兩種架構(gòu)在視覺吸引力和文本忠實(shí)度指標(biāo)上都有顯著改善。

消融研究

最后,Meta對(duì)微調(diào)數(shù)據(jù)集進(jìn)行了消融研究,重點(diǎn)關(guān)注視覺吸引力,主要對(duì)數(shù)據(jù)集大小的影響進(jìn)行研究。

下表中報(bào)告了在不同大小的隨機(jī)抽樣子集上進(jìn)行的質(zhì)量微調(diào)的結(jié)果,包括100、1000和2000的大小。

可以看到,即使只有100個(gè)微調(diào)圖像,模型也能夠被引導(dǎo)生成視覺上吸引人的圖像。

與SDXL相比,微調(diào)后的勝率從24.8%躍升至了60%。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-14 12:46:54

訓(xùn)練數(shù)據(jù)

2024-02-02 21:51:19

數(shù)據(jù)訓(xùn)練

2024-03-06 13:58:00

測(cè)評(píng)模型

2023-10-04 10:33:58

OpenAI

2023-10-09 12:44:19

2025-04-24 06:02:45

2023-10-20 12:17:42

數(shù)據(jù)訓(xùn)練

2024-04-15 12:54:39

2024-02-19 00:09:49

開源模型

2023-09-21 10:31:06

人工智能模型

2024-04-03 13:33:43

2025-04-16 15:30:59

模型AI數(shù)據(jù)

2024-03-06 23:23:36

2023-12-20 07:22:03

DALL-E 3微軟鍵盤

2023-11-28 09:42:07

OpenAIWindows 11

2023-10-30 14:43:32

2025-03-18 08:00:00

豆包文生圖技術(shù)Seedream

2023-03-01 16:29:51

ChatGPT人工智能

2024-11-06 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)