自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="ezhv2"><track id="ezhv2"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

對(duì)標(biāo)DALL·E 3！Meta最強(qiáng)文生圖Emu技術(shù)報(bào)告出爐

作者：新智元 2023-10-04 18:30:52

人工智能新聞

可以說，Meta剛剛發(fā)布的Emu，在性能上毫不遜色于DALL·E 3！而Emu取得優(yōu)異性能背后的原因是「質(zhì)量調(diào)整」。

前幾天，OpenAI剛剛推出DALL·E 3，文生圖再次上升到一個(gè)新階段，甚至有網(wǎng)友紛紛表示R.I.P. Midjourney。

在28號(hào)的Meta Connect大會(huì)上，小扎也推出了自家的人工智能圖像生成模型——Emu（Expressive Media Universe）。

Emu最大的特點(diǎn)是，只用簡(jiǎn)單的文字，5秒即生圖片。

比如：「一只在彩虹森林中的神仙貓咪」。

「徒步旅行者和北極熊」。

「水下的航天員」。

「在花叢中的一位女士」。

「如果恐龍是一只貓咪」。

與其他文生圖模型相比，Emu最有趣的是，可以一鍵生成表情包。

當(dāng)你正和人聊天時(shí)，不用絞盡腦汁去翻找一個(gè)合適的表情包了。

比如，和朋友約好了背包旅行，想要發(fā)一個(gè)生動(dòng)的準(zhǔn)備去旅行的表情包。

「一只快樂的刺猬騎著摩托車」

選擇自己喜歡的一個(gè)，發(fā)送。

當(dāng)然了，你可以生成各種各樣的表情包，僅需要簡(jiǎn)單幾個(gè)詞。

很快，任何人都可以在Ins中進(jìn)行圖像編輯——重?fù)Q風(fēng)格和背景，背后就是由Emu和分割模型SAM加持。

重?fù)Q風(fēng)格，可以根據(jù)你所描述的風(fēng)格，重構(gòu)想像輸出圖片。

如下，輸入「水彩」，你的照片就立刻變成水彩畫了。

或者，把扎克伯格小時(shí)候的照片變成「搖滾朋克風(fēng)格」。

又或者給金毛換一個(gè)「長(zhǎng)頭發(fā)」，就得到了：

你甚至可以為圖片更換背景。

找到一張自己躺在草坪中的照片，輸入「被小狗包圍」，一群可愛的小狗就伴你左右了。

又或者，家庭合照中，背景也可以隨意切換。

Emu在發(fā)布會(huì)上可算是風(fēng)光了一把，但其實(shí)在現(xiàn)場(chǎng)演示的前一天，Meta就在arXiv更新了Emu模型的論文。

論文地址：https://arxiv.org/abs/2309.15807

在這篇論文中，Meta介紹了Emu的訓(xùn)練方法：質(zhì)量調(diào)整（quality-tuning），一種有監(jiān)督的微調(diào)。

質(zhì)量調(diào)整解決了在利用網(wǎng)絡(luò)規(guī)模的圖像-文本訓(xùn)練文本-圖像模型時(shí)，生成高度美觀的圖像面臨的挑戰(zhàn)：美學(xué)對(duì)齊。

通過質(zhì)量調(diào)整，可以有效指導(dǎo)預(yù)訓(xùn)練模型專門生成具有高度視覺吸引力的圖像，同時(shí)保持視覺概念的通用性。

研究人員還將其泛用到其他模型架構(gòu)中，如pixel diffusion和masked generative transformer，證明了質(zhì)量調(diào)整方法的通用性。

質(zhì)量調(diào)整的方法

生成模型的訓(xùn)練包括兩個(gè)階段：知識(shí)學(xué)習(xí)和質(zhì)量學(xué)習(xí)。

在知識(shí)學(xué)習(xí)階段，目標(biāo)是獲得從文本生成幾乎任何內(nèi)容的能力，這通常需要在數(shù)以億計(jì)的圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練。

而在質(zhì)量學(xué)習(xí)階段，模型將被限制輸出高質(zhì)量和美觀的圖片。

Meta研究人員將以提高質(zhì)量和促進(jìn)審美一致性為目的的微調(diào)過程稱為質(zhì)量調(diào)整。

經(jīng)質(zhì)量調(diào)整的Emu生成的圖像

但質(zhì)量調(diào)整有三個(gè)關(guān)鍵：

（1）微調(diào)數(shù)據(jù)集可以小得出奇，大約只有幾千張圖片；

（2）數(shù)據(jù)集的質(zhì)量非常高，這使得數(shù)據(jù)整理難以完全自動(dòng)化，需要人工標(biāo)注；

（3）即使微調(diào)數(shù)據(jù)集很小，質(zhì)量調(diào)整不僅能顯著提高生成圖片的美觀度，而且不會(huì)犧牲通用性，因?yàn)橥ㄓ眯允歉鶕?jù)輸入提示的忠實(shí)度來衡量的。

整個(gè)質(zhì)量調(diào)整過程有以下幾個(gè)步驟：

潛在擴(kuò)散架構(gòu)

研究人員設(shè)計(jì)了一種可輸出1024 X1024分辨率圖像的潛在擴(kuò)散模型。遵循標(biāo)準(zhǔn)的潛在擴(kuò)散架構(gòu)設(shè)計(jì)，模型有一個(gè)自動(dòng)編碼器（AE）將圖像編碼為潛在嵌入，并有一個(gè)U-Net學(xué)習(xí)去噪過程。

研究發(fā)現(xiàn)，常用的4通道自動(dòng)編碼器（AE-4）架構(gòu)由于壓縮率高，往往會(huì)導(dǎo)致所構(gòu)建圖像的細(xì)節(jié)丟失。

而這一問題在小物體中尤為明顯。

為了進(jìn)一步提高重建性能，研究人員使用了對(duì)抗性損失，并使用傅里葉特征變換對(duì)RGB圖像進(jìn)行了不可學(xué)習(xí)的預(yù)處理，將輸入通道維度從3（RGB）提升到更高維度，以更好地捕捉精細(xì)結(jié)構(gòu)。

用于不同通道尺寸的自動(dòng)編碼器的定性結(jié)果見下圖。

此外，研究人員還增加了每個(gè)階段的通道大小和堆疊殘差塊數(shù)量，以提高模型容量。

并且，此研究使用CLIP ViT-L和T5-XXL的文本嵌入作為文本條件。

預(yù)訓(xùn)練

研究人員策劃了一個(gè)由11億張圖像組成的大型內(nèi)部預(yù)訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型，訓(xùn)練過程中模型的分辨率逐步提高。

在預(yù)訓(xùn)練的最后階段，研究人員還使用了0.02的噪聲偏移，這有利于生成高對(duì)比度的圖像，從而提高生成圖像的美感。

構(gòu)建高質(zhì)量對(duì)齊數(shù)據(jù)

從最初的數(shù)十億張圖片開始，使用一系列自動(dòng)過濾器將圖片數(shù)量減少到幾億張。

這些過濾器包括但不限于去除打擊性內(nèi)容、美學(xué)分?jǐn)?shù)過濾器、光學(xué)字符識(shí)別（OCR）字?jǐn)?shù)過濾器（用于去除覆蓋過多文字的圖片）以及 CLIP 分?jǐn)?shù)過濾器（用于去除圖片與文字對(duì)齊度較差的樣本）。

然后，通過圖像大小和縱橫比進(jìn)行額外的自動(dòng)過濾。

并且，為了平衡來自不同領(lǐng)域和類別的圖片，研究人員利用視覺概念分類來獲取特定領(lǐng)域的圖片（如肖像、食物、動(dòng)物、風(fēng)景、汽車等）。

最后，通過基于專有信號(hào)（如點(diǎn)贊數(shù)）的額外質(zhì)量過濾，這樣可以將數(shù)據(jù)進(jìn)一步減少到200K Human Filtering。

接下來，將數(shù)據(jù)集分兩個(gè)階段進(jìn)行人工過濾，只保留極具美感的圖片。

在第一階段，訓(xùn)練通用注釋器將圖片庫(kù)縮減到20K張。這一階段的主要目標(biāo)是優(yōu)化召回率，確保排除通過自動(dòng)過濾的中低質(zhì)量圖片。

在第二階段，聘請(qǐng)精通攝影原理的專業(yè)注釋員，篩選出高審美質(zhì)量的圖片，如下圖。

這一階段的重點(diǎn)是優(yōu)化精確度，即只選擇最好的圖片。數(shù)據(jù)集遵循高質(zhì)量攝影的基本原則，在各種風(fēng)格的圖像中普遍獲得更具美感的圖像，并通過人工評(píng)估進(jìn)行驗(yàn)證。

質(zhì)量調(diào)整

將視覺效果極佳的圖像視為所有圖像的子集，這些圖像具有一些共同的統(tǒng)計(jì)數(shù)據(jù)。

研究人員使用64個(gè)小批量數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。

在此階段使用0.1的噪聲偏移。但需要注意的是，盡早停止微調(diào)非常重要，因?yàn)樵谛?shù)據(jù)集上微調(diào)時(shí)間過長(zhǎng)會(huì)導(dǎo)致明顯的過擬合，降低視覺概念的通用性。

但微調(diào)迭代次數(shù)不能超過5K，這個(gè)總迭代次數(shù)是根據(jù)經(jīng)驗(yàn)確定的。

實(shí)驗(yàn)結(jié)果

質(zhì)量調(diào)整的效果

研究人員將經(jīng)過質(zhì)量調(diào)整的Emu模型與預(yù)先訓(xùn)練的模型進(jìn)行比較。

質(zhì)量調(diào)整前后的隨機(jī)定性測(cè)試結(jié)果見下圖。

可以看到非寫實(shí)圖像也具有很高的美感，這驗(yàn)證研究提出的假設(shè)：在質(zhì)量調(diào)整數(shù)據(jù)集中遵循某些攝影原則，可以提高各種風(fēng)格的美感。

從數(shù)量上看，經(jīng)過質(zhì)量調(diào)整后，Emu在視覺吸引力和文本可信度方面都有顯著優(yōu)勢(shì)。

具體來說，在Par-tiPrompts和OUl Prompts上，分別有 82.9% 和 91.2% 的視覺吸引力以及 36.7% 和 47.9% 的文本忠實(shí)度首選Emu。

相比之下，在視覺吸引力方面，預(yù)訓(xùn)練模型分別只有15.4% 和 7.9%的時(shí)間受到青睞，而在文字忠實(shí)性方面，PartiPrompts和OUl Prompts分別有 21.0% 和 18.5% 的時(shí)間受到青睞。

其余案例的結(jié)果均為平局。從這兩組涵蓋不同領(lǐng)域和類別的大量評(píng)估數(shù)據(jù)中視覺概念的通用性沒有下降。

相反，這些改進(jìn)廣泛適用于各種風(fēng)格。

SoTA 背景下的視覺吸引力

為了將Emu生成的圖像的視覺吸引力與當(dāng)前最先進(jìn)的技術(shù)進(jìn)行比較，研究人員將Emu與SDXLV1.0進(jìn)行了比較。

可以看到，Emu比 SDXLv1.0 的視覺吸引力高出很多，包括在風(fēng)格化（非寫實(shí)）提示上。

并且，Meta證實(shí)了質(zhì)量調(diào)整也可以改進(jìn)其他流行的架構(gòu)，如pixel diffusion和masked generative transformer。

研究人員從頭開始重新實(shí)現(xiàn)和訓(xùn)練一個(gè)pixel diffusion和masked generative transformer，然后在 2000 張圖像上對(duì)它們進(jìn)行質(zhì)量調(diào)整。

之后，研究人員在1/3隨機(jī)抽樣的PartiPrompts上對(duì)這兩種經(jīng)過質(zhì)量調(diào)整的模型進(jìn)行了評(píng)估。

如下圖所示，經(jīng)過質(zhì)量調(diào)整后，兩種架構(gòu)在視覺吸引力和文本忠實(shí)度指標(biāo)上都有顯著改善。

消融研究

最后，Meta對(duì)微調(diào)數(shù)據(jù)集進(jìn)行了消融研究，重點(diǎn)關(guān)注視覺吸引力，主要對(duì)數(shù)據(jù)集大小的影響進(jìn)行研究。

下表中報(bào)告了在不同大小的隨機(jī)抽樣子集上進(jìn)行的質(zhì)量微調(diào)的結(jié)果，包括100、1000和2000的大小。

可以看到，即使只有100個(gè)微調(diào)圖像，模型也能夠被引導(dǎo)生成視覺上吸引人的圖像。

與SDXL相比，微調(diào)后的勝率從24.8%躍升至了60%。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="fz6mn"><track id="fz6mn"><menuitem id="fz6mn"></menuitem></track></legend>