對(duì)標(biāo)DALL·E 3!Meta最強(qiáng)文生圖Emu技術(shù)報(bào)告出爐
前幾天,OpenAI剛剛推出DALL·E 3,文生圖再次上升到一個(gè)新階段,甚至有網(wǎng)友紛紛表示R.I.P. Midjourney。
在28號(hào)的Meta Connect大會(huì)上,小扎也推出了自家的人工智能圖像生成模型——Emu(Expressive Media Universe)。
Emu最大的特點(diǎn)是,只用簡(jiǎn)單的文字,5秒即生圖片。
比如:「一只在彩虹森林中的神仙貓咪」。
「徒步旅行者和北極熊」。
「水下的航天員」。
「在花叢中的一位女士」。
「如果恐龍是一只貓咪」。
與其他文生圖模型相比,Emu最有趣的是,可以一鍵生成表情包。
當(dāng)你正和人聊天時(shí),不用絞盡腦汁去翻找一個(gè)合適的表情包了。
比如,和朋友約好了背包旅行,想要發(fā)一個(gè)生動(dòng)的準(zhǔn)備去旅行的表情包。
「一只快樂的刺猬騎著摩托車」
選擇自己喜歡的一個(gè),發(fā)送。
當(dāng)然了,你可以生成各種各樣的表情包,僅需要簡(jiǎn)單幾個(gè)詞。
很快,任何人都可以在Ins中進(jìn)行圖像編輯——重?fù)Q風(fēng)格和背景,背后就是由Emu和分割模型SAM加持。
重?fù)Q風(fēng)格,可以根據(jù)你所描述的風(fēng)格,重構(gòu)想像輸出圖片。
如下, 輸入「水彩」,你的照片就立刻變成水彩畫了。
或者,把扎克伯格小時(shí)候的照片變成「搖滾朋克風(fēng)格」。
又或者給金毛換一個(gè)「長(zhǎng)頭發(fā)」,就得到了:
你甚至可以為圖片更換背景。
找到一張自己躺在草坪中的照片,輸入「被小狗包圍」,一群可愛的小狗就伴你左右了。
又或者,家庭合照中,背景也可以隨意切換。
Emu在發(fā)布會(huì)上可算是風(fēng)光了一把,但其實(shí)在現(xiàn)場(chǎng)演示的前一天,Meta就在arXiv更新了Emu模型的論文。
論文地址:https://arxiv.org/abs/2309.15807
在這篇論文中,Meta介紹了Emu的訓(xùn)練方法:質(zhì)量調(diào)整(quality-tuning),一種有監(jiān)督的微調(diào)。
質(zhì)量調(diào)整解決了在利用網(wǎng)絡(luò)規(guī)模的圖像-文本訓(xùn)練文本-圖像模型時(shí),生成高度美觀的圖像面臨的挑戰(zhàn):美學(xué)對(duì)齊。
通過質(zhì)量調(diào)整,可以有效指導(dǎo)預(yù)訓(xùn)練模型專門生成具有高度視覺吸引力的圖像,同時(shí)保持視覺概念的通用性。
研究人員還將其泛用到其他模型架構(gòu)中,如pixel diffusion和masked generative transformer,證明了質(zhì)量調(diào)整方法的通用性。
質(zhì)量調(diào)整的方法
生成模型的訓(xùn)練包括兩個(gè)階段:知識(shí)學(xué)習(xí)和質(zhì)量學(xué)習(xí)。
在知識(shí)學(xué)習(xí)階段,目標(biāo)是獲得從文本生成幾乎任何內(nèi)容的能力,這通常需要在數(shù)以億計(jì)的圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練。
而在質(zhì)量學(xué)習(xí)階段,模型將被限制輸出高質(zhì)量和美觀的圖片。
Meta研究人員將以提高質(zhì)量和促進(jìn)審美一致性為目的的微調(diào)過程稱為質(zhì)量調(diào)整。
經(jīng)質(zhì)量調(diào)整的Emu生成的圖像
但質(zhì)量調(diào)整有三個(gè)關(guān)鍵:
(1)微調(diào)數(shù)據(jù)集可以小得出奇,大約只有幾千張圖片;
(2)數(shù)據(jù)集的質(zhì)量非常高,這使得數(shù)據(jù)整理難以完全自動(dòng)化,需要人工標(biāo)注;
(3)即使微調(diào)數(shù)據(jù)集很小,質(zhì)量調(diào)整不僅能顯著提高生成圖片的美觀度,而且不會(huì)犧牲通用性,因?yàn)橥ㄓ眯允歉鶕?jù)輸入提示的忠實(shí)度來衡量的。
整個(gè)質(zhì)量調(diào)整過程有以下幾個(gè)步驟:
潛在擴(kuò)散架構(gòu)
研究人員設(shè)計(jì)了一種可輸出1024 X1024分辨率圖像的潛在擴(kuò)散模型。遵循標(biāo)準(zhǔn)的潛在擴(kuò)散架構(gòu)設(shè)計(jì),模型有一個(gè)自動(dòng)編碼器(AE)將圖像編碼為潛在嵌入,并有一個(gè)U-Net學(xué)習(xí)去噪過程。
研究發(fā)現(xiàn),常用的4通道自動(dòng)編碼器(AE-4)架構(gòu)由于壓縮率高,往往會(huì)導(dǎo)致所構(gòu)建圖像的細(xì)節(jié)丟失。
而這一問題在小物體中尤為明顯。
為了進(jìn)一步提高重建性能,研究人員使用了對(duì)抗性損失,并使用傅里葉特征變換對(duì)RGB圖像進(jìn)行了不可學(xué)習(xí)的預(yù)處理,將輸入通道維度從3(RGB)提升到更高維度,以更好地捕捉精細(xì)結(jié)構(gòu)。
用于不同通道尺寸的自動(dòng)編碼器的定性結(jié)果見下圖。
此外,研究人員還增加了每個(gè)階段的通道大小和堆疊殘差塊數(shù)量,以提高模型容量。
并且,此研究使用CLIP ViT-L和T5-XXL的文本嵌入作為文本條件。
預(yù)訓(xùn)練
研究人員策劃了一個(gè)由11億張圖像組成的大型內(nèi)部預(yù)訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型,訓(xùn)練過程中模型的分辨率逐步提高。
在預(yù)訓(xùn)練的最后階段,研究人員還使用了0.02的噪聲偏移,這有利于生成高對(duì)比度的圖像,從而提高生成圖像的美感。
構(gòu)建高質(zhì)量對(duì)齊數(shù)據(jù)
從最初的數(shù)十億張圖片開始,使用一系列自動(dòng)過濾器將圖片數(shù)量減少到幾億張。
這些過濾器包括但不限于去除打擊性內(nèi)容、美學(xué)分?jǐn)?shù)過濾器、光學(xué)字符識(shí)別(OCR)字?jǐn)?shù)過濾器(用于去除覆蓋過多文字的圖片)以及 CLIP 分?jǐn)?shù)過濾器(用于去除圖片與文字對(duì)齊度較差的樣本)。
然后,通過圖像大小和縱橫比進(jìn)行額外的自動(dòng)過濾。
并且,為了平衡來自不同領(lǐng)域和類別的圖片,研究人員利用視覺概念分類來獲取特定領(lǐng)域的圖片(如肖像、食物、動(dòng)物、風(fēng)景、汽車等)。
最后,通過基于專有信號(hào)(如點(diǎn)贊數(shù))的額外質(zhì)量過濾,這樣可以將數(shù)據(jù)進(jìn)一步減少到200K Human Filtering。
接下來,將數(shù)據(jù)集分兩個(gè)階段進(jìn)行人工過濾,只保留極具美感的圖片。
在第一階段,訓(xùn)練通用注釋器將圖片庫(kù)縮減到20K張。這一階段的主要目標(biāo)是優(yōu)化召回率,確保排除通過自動(dòng)過濾的中低質(zhì)量圖片。
在第二階段,聘請(qǐng)精通攝影原理的專業(yè)注釋員,篩選出高審美質(zhì)量的圖片,如下圖。
這一階段的重點(diǎn)是優(yōu)化精確度,即只選擇最好的圖片。數(shù)據(jù)集遵循高質(zhì)量攝影的基本原則,在各種風(fēng)格的圖像中普遍獲得更具美感的圖像,并通過人工評(píng)估進(jìn)行驗(yàn)證。
質(zhì)量調(diào)整
將視覺效果極佳的圖像視為所有圖像的子集,這些圖像具有一些共同的統(tǒng)計(jì)數(shù)據(jù)。
研究人員使用64個(gè)小批量數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。
在此階段使用0.1的噪聲偏移。但需要注意的是,盡早停止微調(diào)非常重要,因?yàn)樵谛?shù)據(jù)集上微調(diào)時(shí)間過長(zhǎng)會(huì)導(dǎo)致明顯的過擬合,降低視覺概念的通用性。
但微調(diào)迭代次數(shù)不能超過5K,這個(gè)總迭代次數(shù)是根據(jù)經(jīng)驗(yàn)確定的。
實(shí)驗(yàn)結(jié)果
質(zhì)量調(diào)整的效果
研究人員將經(jīng)過質(zhì)量調(diào)整的Emu模型與預(yù)先訓(xùn)練的模型進(jìn)行比較。
質(zhì)量調(diào)整前后的隨機(jī)定性測(cè)試結(jié)果見下圖。
可以看到非寫實(shí)圖像也具有很高的美感,這驗(yàn)證研究提出的假設(shè):在質(zhì)量調(diào)整數(shù)據(jù)集中遵循某些攝影原則,可以提高各種風(fēng)格的美感。
從數(shù)量上看,經(jīng)過質(zhì)量調(diào)整后,Emu在視覺吸引力和文本可信度方面都有顯著優(yōu)勢(shì)。
具體來說,在Par-tiPrompts和OUl Prompts上,分別有 82.9% 和 91.2% 的視覺吸引力以及 36.7% 和 47.9% 的文本忠實(shí)度首選Emu。
相比之下,在視覺吸引力方面,預(yù)訓(xùn)練模型分別只有15.4% 和 7.9%的時(shí)間受到青睞,而在文字忠實(shí)性方面,PartiPrompts和OUl Prompts分別有 21.0% 和 18.5% 的時(shí)間受到青睞。
其余案例的結(jié)果均為平局。從這兩組涵蓋不同領(lǐng)域和類別的大量評(píng)估數(shù)據(jù)中視覺概念的通用性沒有下降。
相反,這些改進(jìn)廣泛適用于各種風(fēng)格。
SoTA 背景下的視覺吸引力
為了將Emu生成的圖像的視覺吸引力與當(dāng)前最先進(jìn)的技術(shù)進(jìn)行比較,研究人員將Emu與SDXLV1.0進(jìn)行了比較。
可以看到,Emu比 SDXLv1.0 的視覺吸引力高出很多,包括在風(fēng)格化(非寫實(shí))提示上。
并且,Meta證實(shí)了質(zhì)量調(diào)整也可以改進(jìn)其他流行的架構(gòu),如pixel diffusion和masked generative transformer。
研究人員從頭開始重新實(shí)現(xiàn)和訓(xùn)練一個(gè)pixel diffusion和masked generative transformer,然后在 2000 張圖像上對(duì)它們進(jìn)行質(zhì)量調(diào)整。
之后,研究人員在1/3隨機(jī)抽樣的PartiPrompts上對(duì)這兩種經(jīng)過質(zhì)量調(diào)整的模型進(jìn)行了評(píng)估。
如下圖所示,經(jīng)過質(zhì)量調(diào)整后,兩種架構(gòu)在視覺吸引力和文本忠實(shí)度指標(biāo)上都有顯著改善。
消融研究
最后,Meta對(duì)微調(diào)數(shù)據(jù)集進(jìn)行了消融研究,重點(diǎn)關(guān)注視覺吸引力,主要對(duì)數(shù)據(jù)集大小的影響進(jìn)行研究。
下表中報(bào)告了在不同大小的隨機(jī)抽樣子集上進(jìn)行的質(zhì)量微調(diào)的結(jié)果,包括100、1000和2000的大小。
可以看到,即使只有100個(gè)微調(diào)圖像,模型也能夠被引導(dǎo)生成視覺上吸引人的圖像。
與SDXL相比,微調(diào)后的勝率從24.8%躍升至了60%。