自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析 精華

發(fā)布于 2024-6-18 13:11
瀏覽
0收藏

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

文章鏈接:?https://arxiv.org/pdf/2405.14828??

最近對(duì)文本到圖像(T2I)擴(kuò)散模型的進(jìn)展促進(jìn)了創(chuàng)造性和逼真的圖像合成。通過(guò)變化隨機(jī)種子,可以為固定的文本提示生成各種圖像。在技術(shù)上,種子控制著初始噪聲,并且在多步擴(kuò)散推理中,在反向擴(kuò)散過(guò)程的中間時(shí)間步驟中用于重參數(shù)化的噪聲。然而,隨機(jī)種子對(duì)生成的圖像的具體影響仍然相對(duì)未知。


在這項(xiàng)工作中,進(jìn)行了大規(guī)模的科學(xué)研究,探討了擴(kuò)散推理過(guò)程中隨機(jī)種子的影響。值得注意的是,研究者發(fā)現(xiàn)最佳的“黃金”種子的FID達(dá)到了令人印象深刻的21.60,而最差的“劣質(zhì)”種子的FID為31.97。此外,分類(lèi)器可以在幾個(gè)時(shí)代內(nèi)以超過(guò)99.9%的準(zhǔn)確度預(yù)測(cè)用于生成圖像的種子編號(hào),表明基于生成圖像,種子是高度可區(qū)分的。受到這些發(fā)現(xiàn)的鼓舞,本文研究了種子對(duì)可解釋的視覺(jué)維度的影響,發(fā)現(xiàn)某些種子會(huì)一致地生成灰度圖像、突出的天空區(qū)域或圖像邊界。種子還會(huì)影響圖像的構(gòu)成,包括對(duì)象的位置、大小和深度。此外,通過(guò)利用這些“黃金”種子,展示了改進(jìn)的圖像生成,如高保真推理和多樣化的采樣。本文的調(diào)查還涉及修補(bǔ)任務(wù),發(fā)現(xiàn)一些種子傾向于插入不需要的文本偽影??偟膩?lái)說(shuō),廣泛分析凸顯了選擇良好種子的重要性,并為圖像生成提供了實(shí)用的實(shí)用性。

好壞種子的對(duì)比

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

介紹

文本到圖像(T2I)擴(kuò)散模型已經(jīng)顯著推動(dòng)了圖像合成,使得可以創(chuàng)建逼真的、高分辨率的圖像。然而,它們的訓(xùn)練需要大量的計(jì)算資源,限制了這種研究只能在一些設(shè)備齊全的實(shí)驗(yàn)室進(jìn)行。盡管存在這些限制,許多研究通過(guò)特征重新加權(quán)、基于梯度的引導(dǎo)或與多模式LLMs的集成等方法增強(qiáng)了推理過(guò)程中的圖像生成。


這項(xiàng)工作提出了一種推理技術(shù),通過(guò)探索逆擴(kuò)散過(guò)程中的“秘密種子”來(lái)增強(qiáng)圖像生成。受到Torch.manual_seed(3407)等研究的啟發(fā),該研究揭示了精心選擇的神經(jīng)網(wǎng)絡(luò)初始化種子在圖像分類(lèi)中可以?xún)?yōu)于選擇不當(dāng)?shù)姆N子,調(diào)查了在T2I擴(kuò)散推理中是否“黃金”或“劣質(zhì)”種子同樣會(huì)影響圖像質(zhì)量。令人驚訝的是,使用預(yù)訓(xùn)練的流行T2I模型 Stable Diffusion (SD) 2.0,在1,024個(gè)種子上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)最佳的“黃金”種子的FID達(dá)到了21.60,而最差的“劣質(zhì)”種子只達(dá)到了31.97 ——這在社區(qū)中是一個(gè)顯著的差異。這一發(fā)現(xiàn)引發(fā)了我們對(duì)幾個(gè)科學(xué)問(wèn)題的好奇:種子在T2I擴(kuò)散推理中控制什么?為什么隨機(jī)種子如此重要?種子可以通過(guò)生成的圖像進(jìn)行區(qū)分嗎?它們是否控制可解釋的圖像維度,如果是,如何利用這一點(diǎn)來(lái)增強(qiáng)圖像生成?


為了回答這些研究問(wèn)題,首先研究了隨機(jī)種子如何控制初始的噪聲潛變量以及逆潛變量擴(kuò)散過(guò)程中每個(gè)中間時(shí)間步的高斯噪聲。研究者們還使用兩個(gè)T2I擴(kuò)散模型(傳統(tǒng)的多步 SD 2.0 和蒸餾的單步 SDXL Turbo)構(gòu)建了一個(gè)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括超過(guò)22,000個(gè)多樣化的文本提示,并且對(duì)于每種模型和提示的組合,使用1,024個(gè)唯一的固定種子,結(jié)果大約有4600萬(wàn)張圖像。


最初的目標(biāo)是確定每個(gè)隨機(jī)種子是否在生成的圖像中編碼了可識(shí)別的獨(dú)特特征。為了測(cè)試這一點(diǎn),研究者們訓(xùn)練了一個(gè)1,024路分類(lèi)器,從不同的提示中生成的圖像中預(yù)測(cè)擴(kuò)散推理時(shí)使用的種子編號(hào)。值得注意的是,這個(gè)分類(lèi)器在只經(jīng)過(guò)六個(gè)時(shí)代的情況下就達(dá)到了超過(guò)99.9%的驗(yàn)證準(zhǔn)確率,這與大約0.01%的隨機(jī)猜測(cè)概率形成了鮮明對(duì)比,表明基于生成的圖像種子是高度可區(qū)分的。


在確認(rèn)了種子的可區(qū)分性后,本文的目標(biāo)是了解是否存在任何可解釋的感知維度,使得這種區(qū)分成為可能。下一步是設(shè)計(jì)一個(gè)流水線(xiàn)來(lái)提取風(fēng)格和布局表示,對(duì)可見(jiàn)聚類(lèi)應(yīng)用降維技術(shù),然后識(shí)別出不同種子之間的一致模式,而不考慮輸入提示。例如,某些種子一致地生成“灰度”圖像,其他種子在頂部生成具有突出的白色“天空”區(qū)域的圖像,而某些種子則創(chuàng)建圖像邊框或在修補(bǔ)模式下插入“文本”。就圖像布局而言,各種種子一致地影響主要對(duì)象的規(guī)模、位置和深度。有關(guān)這些發(fā)現(xiàn)的詳細(xì)信息。


基于從種子分析中的這些發(fā)現(xiàn),提出了幾種下游應(yīng)用來(lái)增強(qiáng)圖像生成。首先,通過(guò)識(shí)別各種提示中的“黃金”種子,可以將采樣限制為前K個(gè)種子,以進(jìn)行高保真推理。與默認(rèn)實(shí)現(xiàn)中的隨機(jī)采樣相比,這種方法表現(xiàn)出更好的定量性能,如FID和HPS v2的測(cè)量結(jié)果。其次,發(fā)現(xiàn)表明,某些種子捕獲了不同的風(fēng)格或布局組合。通過(guò)利用這一知識(shí),可以基于風(fēng)格或布局實(shí)施多樣化的采樣,為用戶(hù)提供不同的結(jié)果。最后,在圖像修補(bǔ)方面的研究表明,某些種子一致地生成“文本偽影”,而不是完成像素,這表明可以通過(guò)使用最小化這些偽影的種子來(lái)改善基于文本的修補(bǔ)模型的修補(bǔ)質(zhì)量。請(qǐng)注意,對(duì)于所有這些應(yīng)用,只需要針對(duì)每個(gè)模型執(zhí)行一次種子分析,本文的方法可以輕松集成到推理過(guò)程中,而不需要增加任何計(jì)算開(kāi)銷(xiāo),這與大多數(shù)基于優(yōu)化的方法不同。


本文的貢獻(xiàn)如下:

  • 首次對(duì)文本到圖像擴(kuò)散模型進(jìn)行了大規(guī)模種子分析,并構(gòu)建了一個(gè)包含超過(guò)4600萬(wàn)張圖像的數(shù)據(jù)集,這些圖像來(lái)自?xún)煞NT2I擴(kuò)散模型,跨越了各種不同的文本提示。
  • 發(fā)現(xiàn)種子編碼了高度可區(qū)分的信息,使得一個(gè)分類(lèi)器能夠輕松地從1,024個(gè)可能的種子中預(yù)測(cè)出用于擴(kuò)散推理的種子編號(hào),驗(yàn)證準(zhǔn)確率達(dá)到了超過(guò)99.9%。
  • 發(fā)現(xiàn)種子在圖像質(zhì)量、風(fēng)格、布局組合以及文本修補(bǔ)模型的“文本偽影”生成等方面具有顯著影響。


基于從種子分析中得到的見(jiàn)解,提出了幾種下游應(yīng)用,可以增強(qiáng)文本到圖像模型的高保真推理或多樣化推理,以及通過(guò)避免“文本偽影”來(lái)提高圖像生成質(zhì)量的修補(bǔ)模型。

這些結(jié)果對(duì)于深入理解T2I擴(kuò)散模型的工作原理以及改進(jìn)圖像生成的實(shí)用性都具有重要意義。

相關(guān)工作

深度學(xué)習(xí)模型中的隨機(jī)性。先前的研究主要探討了由隨機(jī)初始化權(quán)重、隨機(jī)數(shù)據(jù)排序和隨機(jī)優(yōu)化引起的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隨機(jī)性。值得注意的是,Picard等人在CIFAR-10數(shù)據(jù)集上發(fā)現(xiàn)了最佳和最差種子之間1.82%的測(cè)試準(zhǔn)確率差異,突顯了種子對(duì)模型性能的重大影響。受到這些發(fā)現(xiàn)的啟發(fā),我們探索了T2I擴(kuò)散模型中反向擴(kuò)散過(guò)程中的隨機(jī)性。


擴(kuò)散模型輸入的影響。預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型產(chǎn)生的圖像的主要變化源于文本提示和控制初始噪聲的隨機(jī)種子。因此,精心選擇這些模型輸入可以在推理過(guò)程中增強(qiáng)圖像生成和編輯,而無(wú)需進(jìn)行額外的模型訓(xùn)練或微調(diào)。一些研究專(zhuān)注于理解文本嵌入對(duì)生成的圖像的影響,或者利用這些文本嵌入進(jìn)行無(wú)調(diào)優(yōu)的圖像生成。例如,Yu等人發(fā)現(xiàn),T2I擴(kuò)散模型中常用的CLIP文本嵌入包含多樣化的語(yǔ)義方向,有助于可控的圖像編輯。


此外,最近的研究表明,初始噪聲可能導(dǎo)致某些圖像生成傾向。特別是,Po-Yuan等人證明,對(duì)初始噪聲進(jìn)行輕微擾動(dòng)可以大幅改變擴(kuò)散模型生成的樣本。然而,初始噪聲對(duì)輸出圖像的各種視覺(jué)維度的影響程度尚不清楚。因此,對(duì)隨機(jī)種子對(duì)生成圖像質(zhì)量、人類(lèi)偏好對(duì)齊、風(fēng)格、構(gòu)圖以及“文本偽影”插入的影響進(jìn)行了廣泛的分析。


擴(kuò)散模型中初始噪聲的優(yōu)化。鑒于種子對(duì)T2I擴(kuò)散模型生成的圖像產(chǎn)生的重大影響,先前的研究旨在優(yōu)化初始噪聲,以產(chǎn)生與文本提示更符合、減少視覺(jué)偽影或?qū)崿F(xiàn)期望布局的圖像。例如,Mao等人發(fā)現(xiàn),初始噪聲的某些區(qū)域更有可能噪聲消除成特定概念,使他們能夠通過(guò)簡(jiǎn)單地替換初始噪聲的區(qū)域而接近圖像編輯,而無(wú)需進(jìn)行微調(diào)或干擾反向擴(kuò)散過(guò)程。雖然他們的工作集中在對(duì)初始噪聲的局部分析,但我們的研究提供了對(duì)控制初始噪聲的隨機(jī)種子在各種文本提示下的大規(guī)模研究。

了解擴(kuò)散種子

種子在逆擴(kuò)散過(guò)程中控制什么?

在深度學(xué)習(xí)中,隨機(jī)種子根據(jù)上下文扮演不同的角色。在深度網(wǎng)絡(luò)訓(xùn)練過(guò)程中,它們通常影響神經(jīng)網(wǎng)絡(luò)權(quán)重的初始化、數(shù)據(jù)調(diào)度、數(shù)據(jù)增強(qiáng)策略以及隨機(jī)正則化技術(shù),如dropout。本工作旨在了解種子在逆擴(kuò)散過(guò)程中和擴(kuò)散推理過(guò)程中控制什么。


我們專(zhuān)注于由Rombach等人描述的潛在擴(kuò)散模型,盡管相同的原理也適用于像素?cái)U(kuò)散模型。理論上,在傳統(tǒng)的多步逆擴(kuò)散過(guò)程中,每個(gè)時(shí)間步長(zhǎng)的初始噪聲潛變量和重新參數(shù)化時(shí)使用的噪聲都是從高斯分布中采樣得到的,引入了隨機(jī)性。下圖2的左側(cè)可視化了這個(gè)過(guò)程。在實(shí)現(xiàn)層面上,我們確認(rèn)隨機(jī)種子被用作計(jì)算這些變量的輸入。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

在蒸餾的單步擴(kuò)散模型(如SDXL Turbo)中,隨機(jī)種子僅確定了初始噪聲潛變量,因?yàn)闆](méi)有中間去噪步驟。在多步擴(kuò)散推理中,種子確定了每個(gè)時(shí)間步長(zhǎng)的初始潛變量和重參數(shù)化噪聲。為了理解初始潛在配置和重參數(shù)化步驟對(duì)生成的圖像的分離影響,我們進(jìn)行了一個(gè)簡(jiǎn)單的“種子交換”研究,使用了40個(gè)推理步驟的DDIM調(diào)度器。在我們的研究中,我們首先將種子設(shè)置為i并開(kāi)始逆擴(kuò)散過(guò)程。然后,在一個(gè)中間時(shí)間步長(zhǎng),我們將種子更改為j并完成圖像生成過(guò)程。我們探索使用種子0和1作為i和j,以及在逆擴(kuò)散過(guò)程的早期、中期和晚期交換種子。盡管存在這些變化,但我們發(fā)現(xiàn)初始噪聲潛變量顯著控制著生成的內(nèi)容,而在中間的重新參數(shù)化步驟引入的隨機(jī)噪聲對(duì)生成的圖像沒(méi)有明顯影響,如上圖2的右側(cè)所示。

數(shù)據(jù)生成

為了進(jìn)行大規(guī)模的種子分析,研究者們使用了三種類(lèi)型的文本提示進(jìn)行文本到圖像(T2I)生成,如下圖3所示。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

首先,為了捕獲廣泛的自然視覺(jué)內(nèi)容,從常用的MS-COCO 2017訓(xùn)練集中采樣了20,000張圖像,并使用LLaVA 1.5生成了密集的標(biāo)題。其次,利用PartiPrompts基準(zhǔn)測(cè)試中的1,632個(gè)提示,其中包括短和長(zhǎng)的通用用戶(hù)提示。最后,為了進(jìn)行更加受控的科學(xué)研究,通過(guò)將40個(gè)對(duì)象類(lèi)別與22個(gè)修飾詞組合,生成了880個(gè)唯一組合的合成提示。


針對(duì)數(shù)據(jù)集中的每個(gè)提示,采樣了1,024個(gè)種子,并使用兩種T2I模型,SD 2.0和SDXL Turbo,進(jìn)行大規(guī)模種子分析的圖像生成。這導(dǎo)致了總數(shù)為22,512個(gè)提示×1,024個(gè)種子×2個(gè)模型=46,104,576張圖像。


除了文本到圖像的應(yīng)用之外,還為擴(kuò)散修補(bǔ)模型策劃了500對(duì)圖像和mask,其中mask通常覆蓋原始圖像中的一個(gè)對(duì)象。對(duì)于文本提示,我們使用“清晰背景”來(lái)模擬對(duì)象移除的用例,并使用原始對(duì)象類(lèi)別來(lái)模擬對(duì)象完成的用例。

種子根據(jù)生成的圖像有多具有辨別力?

作為一個(gè)初步實(shí)驗(yàn),檢查種子是否可以通過(guò)它們生成的圖像來(lái)區(qū)分。研究者們訓(xùn)練了一個(gè)1,024路的分類(lèi)器,以預(yù)測(cè)生成給定圖像所使用的種子編號(hào),每個(gè)種子采用9,000張訓(xùn)練圖像、1,000張驗(yàn)證圖像和1,000張測(cè)試圖像。


值得注意的是,種子根據(jù)它們的圖像是高度可區(qū)分的。僅經(jīng)過(guò)六個(gè)epoch,在SD 2.0上訓(xùn)練的分類(lèi)器的測(cè)試準(zhǔn)確率達(dá)到了99.994%,而在SDXL Turbo上訓(xùn)練的分類(lèi)器的測(cè)試準(zhǔn)確率達(dá)到了99.956%。然而,目前尚不清楚是什么使得種子容易被區(qū)分,因?yàn)橄聢D4中的Grad-CAM可視化并不容易解釋。這些發(fā)現(xiàn)表明,種子可能編碼了獨(dú)特的視覺(jué)特征,促使我們探索它們?cè)趲讉€(gè)可解釋的維度上的影響。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

種子對(duì)可解釋視覺(jué)維度的影響

我們觀(guān)察到一個(gè)經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)生成圖像所使用的種子的分類(lèi)器,在訓(xùn)練幾個(gè)時(shí)期后就能達(dá)到超過(guò)99.9%的準(zhǔn)確率。然而,目前尚不清楚生成圖像的哪些方面使得這些種子能夠被高度區(qū)分。因此,展示了一項(xiàng)關(guān)于種子編號(hào)對(duì)可解釋視覺(jué)維度影響的廣泛實(shí)證研究。


圖像質(zhì)量和人類(lèi)偏好一致性。研究者們使用了來(lái)自MS-COCO密集標(biāo)題的20,000個(gè)提示。對(duì)于每個(gè)提示,使用1,024個(gè)種子生成圖像。為了評(píng)估與每個(gè)種子相關(guān)的圖像質(zhì)量,選擇了10,000個(gè)提示及其相應(yīng)的生成圖像,然后計(jì)算了與10,000個(gè)真實(shí)MS-COCO圖像的FID分?jǐn)?shù)。


令人驚訝的是,觀(guān)察到了最佳和最差種子之間在FID分?jǐn)?shù)上的顯著差異。例如,對(duì)于SD 2.0來(lái)說(shuō),“黃金”種子469取得了低至21.60的FID,而“劣質(zhì)”種子696得分為31.97——這在社區(qū)內(nèi)被認(rèn)為是顯著的差異。此外,研究這門(mén)使用了HPS v2來(lái)評(píng)估種子,這是一種在大規(guī)模人類(lèi)偏好對(duì)中訓(xùn)練的新指標(biāo),用于量化人類(lèi)對(duì)由AI生成的圖像的偏好程度。對(duì)于每個(gè)種子,采樣了1,000個(gè)提示及其相應(yīng)的圖像來(lái)計(jì)算HPS v2。正如下圖5所示,根據(jù)FID和HPS v2排名的前三和后三名種子確實(shí)顯示出,評(píng)分最高的種子生成的圖像更具視覺(jué)吸引力,并且與人類(lèi)偏好更為一致。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

接下來(lái),確定這些種子排名是否可以推廣到另一組10,000個(gè)提示的FID和1,000個(gè)提示的HPS v2。在下圖6和圖7中,繪制了使用來(lái)自SD 2.0和SDXL Turbo的圖像的FID和HPS v2排名的種子。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

比較了來(lái)自第一組提示(藍(lán)色中的“提示集1”)的得分與來(lái)自另一組提示(橙色中的“提示集2”)的得分。研究者們揭示了在質(zhì)量和人類(lèi)偏好方面的種子模式的高度重疊性,表明它們確實(shí)適用于提示集合之間。


圖像風(fēng)格。鑒于使用不同種子生成的圖像存在視覺(jué)變化,調(diào)查是否特定的種子在各種提示下始終產(chǎn)生獨(dú)特的風(fēng)格模式。借鑒圖像紋理和風(fēng)格轉(zhuǎn)移中已建立的方法,通過(guò)從預(yù)訓(xùn)練的深度網(wǎng)絡(luò)中提取格拉姆矩陣(衡量通道間成對(duì)余弦相似度)來(lái)計(jì)算風(fēng)格表示,涵蓋多個(gè)層次。接下來(lái),我們將格拉姆矩陣重塑為每個(gè)圖像的單列向量,并使用PCA和t-SNE將其降維到二維。


現(xiàn)在,對(duì)于每個(gè)圖像,有一個(gè)緊湊的二維向量來(lái)捕獲其風(fēng)格。對(duì)于N = 1024個(gè)種子和P個(gè)提示,這導(dǎo)致了一個(gè)特征維度為N×(2×P),將每個(gè)種子的生成圖像的風(fēng)格表示合并在一起。我們進(jìn)一步將每個(gè)種子的聚合風(fēng)格表示從N×(2×P)降維到N×2。最后,下圖8中顯示了一部分種子在2D中的可視化,提供了種子級(jí)別的風(fēng)格聚類(lèi)的清晰可視化表示。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

在圖8中,embedding空間內(nèi)的位置對(duì)應(yīng)于各個(gè)子圖中的相同種子。如第一行所示,某些種子組始終生成灰度圖像,而不受使用的提示的影響。同樣,第二行顯示了一些種子傾向于生成具有突出天空區(qū)域的圖像,而其他種子則不會(huì)。


此外,在下圖9中,觀(guān)察到一組特定的種子始終在邊緣附近生成具有“邊框”效果的圖像,而不受文本提示的影響??偟膩?lái)說(shuō),這些發(fā)現(xiàn)表明,不同的種子在生成風(fēng)格時(shí)表現(xiàn)出不同的傾向,而這種差異在不同的提示下仍然存在。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

圖像構(gòu)圖。超越風(fēng)格,研究種子是否創(chuàng)建了獨(dú)特的圖像構(gòu)圖,例如一致的對(duì)象位置和大小。這里使用了880個(gè)合成提示生成圖像,其中包括40個(gè)對(duì)象類(lèi)別和22個(gè)修飾語(yǔ),其中包括形容詞和空字符串。對(duì)于每個(gè)圖像,分割對(duì)象并計(jì)算圖像構(gòu)圖特征向量,其中包含對(duì)象的質(zhì)心(x,y)坐標(biāo),大小和相對(duì)于圖像的深度。


在下圖10的左側(cè),可視化了類(lèi)別“馬”的對(duì)象mask的質(zhì)心分布。值得注意的是,盡管提示略有變化,但對(duì)象的位置相對(duì)穩(wěn)定。在圖10的右側(cè),觀(guān)察到了類(lèi)別“碗”的對(duì)象大小和深度的類(lèi)似模式??傮w而言,觀(guān)察到生成的對(duì)象的位置,大小和深度在很大程度上取決于所使用的特定種子,無(wú)論是相同的對(duì)象類(lèi)別還是提示中的文本修飾符。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

實(shí)際應(yīng)用

高保真推理

觀(guān)察到“黃金”種子傾向于生成質(zhì)量更好且與人類(lèi)偏好更加一致的圖像。這啟發(fā)思考——相對(duì)于隨機(jī)生成,能夠通過(guò)簡(jiǎn)單利用這些“黃金”種子來(lái)提高多少圖像質(zhì)量?


具體而言,確定了k個(gè)在圖像質(zhì)量和人類(lèi)偏好對(duì)齊方面表現(xiàn)出色的“黃金”種子。隨后,通過(guò)使用另一組10,000個(gè)提示來(lái)生成這k個(gè)“黃金”種子的圖像,以評(píng)估它們相對(duì)于隨機(jī)種子的性能。確定了SD 2.0的k = 65個(gè)“黃金”種子和SDXL Turbo的k = 67個(gè)“黃金”種子,其中k是通過(guò)選擇在FID和HPS v2中排名前256位的種子來(lái)確定的。


建議在實(shí)際應(yīng)用中,為單個(gè)提示選擇60+個(gè)“黃金”種子的采樣池是足夠大的。如下表1所示,利用這些精心選擇的種子顯著提高了SD 2.0和SDXL Turbo在MS-COCO和PartiPrompts基準(zhǔn)測(cè)試中的FID和HPS v2得分。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

風(fēng)格和構(gòu)圖中的可控多樣性

典型的圖像生成界面為用戶(hù)每個(gè)提示提供四個(gè)樣本。此外,先前的方法旨在通過(guò)主要使用基于梯度的方法(例如Particle Guidance)來(lái)促進(jìn)生成圖像的多樣性。結(jié)果突顯了種子選擇對(duì)生成圖像中的風(fēng)格和空間屬性具有很強(qiáng)的影響。因此,探索是否可以通過(guò)簡(jiǎn)單地對(duì)“多樣”種子進(jìn)行采樣來(lái)獲得風(fēng)格或構(gòu)圖方面更多樣化的圖像。


為了每個(gè)提示選擇四個(gè)不同的種子,使用討論中的方法,將每個(gè)種子表示為捕捉其風(fēng)格或構(gòu)圖的特征向量。然后,使用這些特征進(jìn)行最遠(yuǎn)點(diǎn)采樣。具體來(lái)說(shuō),隨機(jī)選擇第一個(gè)種子,然后迭代地選擇下一個(gè)三個(gè)種子,以最大化在特征空間中與已選擇種子的距離。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

其中S是多樣種子集。為了評(píng)估精心選擇的種子是否比隨機(jī)種子和Particle Guidance 改進(jìn)了多樣性,研究者們計(jì)算了從不同集合的P個(gè)提示生成的圖像的相似性,其中P = 500 LLaVA 密集標(biāo)題用于圖像風(fēng)格,P = 440合成提示用于圖像構(gòu)圖。具體來(lái)說(shuō),測(cè)量圖像特征的成對(duì)余弦相似度,并在各個(gè)提示上對(duì)相似性得分進(jìn)行平均。直觀(guān)地說(shuō),較低的成對(duì)相似性得分意味著更高的多樣性。在數(shù)學(xué)上,度量分?jǐn)?shù)表示為:

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

這里有P個(gè)提示,f表示代表圖像風(fēng)格或構(gòu)圖的特征向量。通常每個(gè)提示使用C = 4個(gè)圖像,但重要的是要注意,如果在圖像中未檢測(cè)到任何對(duì)象,則不使用該圖像來(lái)計(jì)算相似性。


在下表2中,觀(guān)察到多樣種子在為SD 2.0生成具有不同風(fēng)格和構(gòu)圖的圖像方面優(yōu)于隨機(jī)種子和Particle Guidance。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

有趣的是,精心選擇的種子有助于為SD 2.0使圖像構(gòu)圖多樣化,但對(duì)于SDXL Turbo則不然。在下圖11中展示了視覺(jué)比較。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

改進(jìn)的基于文本的修復(fù)

已經(jīng)展示了精心選擇種子提供了一種簡(jiǎn)單、無(wú)需訓(xùn)練的方法,可以增強(qiáng)文本到圖像擴(kuò)散模型生成的圖像的視覺(jué)質(zhì)量、人類(lèi)偏好和多樣性。但是,圖像生成的潛力不僅限于文本到圖像應(yīng)用。這提出了一個(gè)有趣的問(wèn)題——我們是否也可以為基于文本的圖像修復(fù)任務(wù)發(fā)現(xiàn)“黃金”種子,例如對(duì)象去除和對(duì)象完成?


研究者們收集了500對(duì)圖像和修復(fù)mask,用于對(duì)象去除和對(duì)象完成應(yīng)用。使用文本提示“清除背景”來(lái)進(jìn)行去除操作,對(duì)于完成情況,使用與原始對(duì)象類(lèi)別對(duì)應(yīng)的提示。然后,使用基于文本的擴(kuò)散修復(fù)模型生成圖像。


觀(guān)察到一些圖像在修復(fù)區(qū)域包含了不希望的文本,通常模仿提示。為了量化文本的存在,應(yīng)用了光學(xué)字符識(shí)別(OCR),并計(jì)算了每個(gè)種子生成的所有圖像中修復(fù)mask內(nèi)文本的平均比例。如下圖12所示,某些種子傾向于在去除和完成情景下插入文本。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

結(jié)論、限制和更廣泛的影響

在本研究中,研究了“隨機(jī)”種子在逆擴(kuò)散過(guò)程中的作用,探索了它們基于生成的圖像的可區(qū)分性以及對(duì)可解釋的視覺(jué)維度的影響。值得注意的是,1,024路分類(lèi)器訓(xùn)練以預(yù)測(cè)生成圖像的種子號(hào),在短短幾個(gè)epoch內(nèi)就達(dá)到了超過(guò)99.9%的測(cè)試準(zhǔn)確率。


受到這一發(fā)現(xiàn)的鼓舞,進(jìn)行了廣泛的分析,并確定了一些一致產(chǎn)生視覺(jué)質(zhì)量更好和與人類(lèi)偏好更一致的圖像的“黃金”種子。


還發(fā)現(xiàn)某些種子會(huì)創(chuàng)建“灰度”圖像,在修復(fù)期間添加邊框或插入文本。研究還表明,種子影響圖像的構(gòu)成,影響對(duì)象的位置、大小和深度。利用這些見(jiàn)解,提出了下游應(yīng)用,例如通過(guò)僅對(duì)這些特殊種子進(jìn)行采樣來(lái)進(jìn)行文本到圖像擴(kuò)散模型的高保真推理和多樣化生成。分析為在推理過(guò)程中增強(qiáng)圖像合成提供了新的視角,而無(wú)需顯著的計(jì)算開(kāi)銷(xiāo)。


此外,值得注意的是,本研究使用的是在大規(guī)模、未篩選的網(wǎng)絡(luò)數(shù)據(jù)上預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,這可能包含偏見(jiàn)和錯(cuò)誤,而文本提示包括MS-COCO圖像的密集標(biāo)題,可能產(chǎn)生人類(lèi)想象。另外,由于預(yù)算限制,主要研究了1024個(gè)種子中的影響,而不是所有可能的種子值。

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

揭秘神秘的種子:Adobe聯(lián)合賓夕法尼亞大學(xué)發(fā)布文本到圖像擴(kuò)散模型大規(guī)模種子分析-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Lingzhi Zhang等


原文鏈接:??https://mp.weixin.qq.com/s/QbOGqgqdKkSnCG6oFGu2yg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄