自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ghktv"></sub>

<cite id="ghktv"></cite>

<var id="ghktv"><button id="ghktv"><mark id="ghktv"></mark></button></var>

<style id="ghktv"></style>

<style id="ghktv"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越Midjourney？基于語境學(xué)習(xí)訓(xùn)練圖像擴(kuò)散模型【前沿】

作者：陳文虎 2023-11-17 08:46:26

本文將分享如何處理基于語境學(xué)習(xí)的圖像生成問題。我將介紹如何避免上述問題，即在不進(jìn)行微調(diào)的情況下，仍然能夠?qū)崿F(xiàn)生成模型的個性化。

一、背景知識——文本圖像生成的現(xiàn)狀

先介紹一下背景知識。大家對于文本-圖像的生成模型應(yīng)該已經(jīng)相當(dāng)熟悉了，諸如"imagen"、"stable diffusion"、"dalle2"以及"midjourney"等一系列模型已經(jīng)取得了很好的成績與顯著進(jìn)展。這些模型在很大程度上能夠生成與給定文本高度契合的圖像，很多時候這些生成出的圖像充滿了想象力。它們所創(chuàng)造的圖像通常難以在網(wǎng)絡(luò)上找到。比方說下面這張圖片：

兩個機(jī)器人在巴黎鐵塔前舉杯慶祝，這樣的場景在網(wǎng)絡(luò)上并不容易獲取，只有通過生成模型才能創(chuàng)造出來。

然而，盡管這些模型表現(xiàn)出色，但它們目前還面臨一個問題，即它們主要依賴于文本作為唯一的可控制信號。然而，文本在某些情況下并不能完全滿足需求，尤其是在描述某些細(xì)節(jié)方面存在局限性，比如物體的位置、角度和姿態(tài)等，這些方面難以用自然語言精確描述。

另外，有些情況下生成個體或者場景，雖然可以使用自然語言進(jìn)行描述，但結(jié)果并不總是精確的。如果需要生成指定場景或物體時，諸如“我家的狗”或者“我自己的書包”之類的情況，目前的模型還很難勝任，因?yàn)樗鼈冎荒芤蕾囄谋咀鳛槲ㄒ坏目刂菩盘?。因此，這里涌現(xiàn)出一個非常有趣的研究領(lǐng)域，即生成模型的個性化，其關(guān)注點(diǎn)主要在于如何使生成模型創(chuàng)造出更具個性化特點(diǎn)的內(nèi)容。其中，一篇備受矚目的論文叫做"Dream Booth"，其核心思想是，假設(shè)你有一個特定的主體對象，比如一只狗，你可以提供幾個示例，然后嘗試讓圖像生成模型在不同場景和狀態(tài)下生成這只狗的圖像。

這意味著你可以在不同的背景和情境中生成個性化的圖像，比如上圖中根據(jù)左邊的狗的圖片生成右邊這只狗在特定場景中的圖片，或者其他類似的情況。賦予模型在生成過程中更強(qiáng)的可控性,這是一件很有趣的事情。本次分享探討的主題就是如何進(jìn)一步增強(qiáng)個性化生成的可能性。

然而，值得注意的是，盡管"Dream Booth"取得了不錯的效果，但它并非一種萬能的解決方案。其方法相當(dāng)簡潔，見下圖：

它的基本思路為：假設(shè)有一個指定的物品，對其進(jìn)行多次拍攝，通常是3到5張照片，然后用"stable diffusion"等模型進(jìn)行梯度下降的微調(diào)，這個微調(diào)過程可以持續(xù)一千步左右，最后保存微調(diào)后的模型。通過微調(diào)，模型會對指定的物品有所了解，因此在生成與這個物品相關(guān)的其他場景圖像時，效果會相當(dāng)好。在微調(diào)過程中，模型通過梯度下降等方式逐漸適應(yīng)了指定物品的特征，這是其表現(xiàn)出色的原因之一。

另外，還存在另一種方法Textual Inversion，與"Dream Booth"非常相似，但稍有不同。

這個方法不需要對整個模型進(jìn)行微調(diào)，而是針對一個專門的嵌入向量（embedding）進(jìn)行調(diào)整。首先為指定的物體設(shè)計一個特殊的嵌入，然后將模型其他參數(shù)固定，只調(diào)整這個特殊嵌入，這個特殊的嵌入能學(xué)習(xí)到如何表示主體物品。最后在生成圖像時，你可以使用調(diào)整后的embedding來指導(dǎo)生成過程。

嵌入（embedding）就好比是一個適配器（adapter），可以使生成的內(nèi)容帶有特定主體的特征。實(shí)際上，這是一種parameter efficient tuning的方法，盡管仍然需要微調(diào)，但相比之下，內(nèi)存需求降低了很多。然而，這個方法也有一個不足之處，就是其效果明顯不如"Dream Booth"，這是因?yàn)檎{(diào)整的參數(shù)較少，導(dǎo)致生成效果受限。目前來看，這兩種模型都存在一些致命問題，即微調(diào)過程非常耗時，而且需要大量的GPU內(nèi)存。另外一個問題是，每個主體都需要進(jìn)行微調(diào)，并保存其檢查點(diǎn)。如果使用"stable diffusion"等模型，一次微調(diào)需要保存大約10GB大小的檢查點(diǎn)，若有100個主題，那么所需的存儲空間將超過1TB。這種情況下，模型的擴(kuò)展性會受到極大的影響。

這些方法的共同點(diǎn)在于，它們都試圖在模型中引入關(guān)于指定物體的特定信息，從而使模型在生成相關(guān)圖像時更加準(zhǔn)確。無論是通過微調(diào)整個模型還是調(diào)整特殊嵌入，都是為了增強(qiáng)模型在特定個體生成方面的表現(xiàn)能力。

二、動機(jī)——為何需要語境學(xué)習(xí)的圖像生成模型

在本次演講中，我將介紹如何避免上述問題，即在不進(jìn)行微調(diào)的情況下，仍然能夠?qū)崿F(xiàn)生成模型的個性化。這主要依賴于我的兩篇論文，其中一篇《Subject-driven Text-to-Image Generation via Apprenticeship Learning》，目前仍在等待編輯處理（ARCHIVE）中，另一篇是已經(jīng)收錄在ICLR 2023的一篇論文《Re-Imagen: Retrieval-Augmented Text-to-Image Generator》。

現(xiàn)在，讓我們來初步探討一下我們的目標(biāo)。在語境學(xué)習(xí)方面，大家都比較熟悉了。自然語言處理的大型模型主要采用的就是語境學(xué)習(xí)方法，也就是所謂的"in-context learning"。其優(yōu)點(diǎn)在于，你無需為不同的任務(wù)構(gòu)建不同的模型，而只需使用一個模型，并通過不斷的提示（prompt）或者在上下文中進(jìn)行示例，讓模型學(xué)習(xí)如何根據(jù)示例來進(jìn)行泛化，從而解決未見過的任務(wù)。這樣的學(xué)習(xí)方式可以實(shí)現(xiàn)零樣本學(xué)習(xí)，對于自然語言處理中的大模型（如GPT系列），這種語境學(xué)習(xí)非常成功，它不需要任何梯度下降等訓(xùn)練方法，就能夠解決許多具體的問題，這反映出了未來一個大的趨勢。

假如我們能在個性化圖片生成領(lǐng)域使用語境學(xué)習(xí)，那就會非常有益。例如，如果我們提供一些關(guān)于某個小狗的示例圖片，將這些示例圖片輸入給一個新的擴(kuò)散模型，再輸入一個文本，文本指定這只狗在新環(huán)境中的動作，那么這個擴(kuò)散模型就可以生成出這只狗在新環(huán)境下的圖像。

這種方法會避免微調(diào)模型，同時也不需要存儲各個主題下的擴(kuò)散模型副本，只需一個模型即可，且推理時間也會比之前更快，至少提速了十倍以上。

但是，如何實(shí)現(xiàn)這種理想情況呢？我們需要探索圖片生成模型和自然語言生成模型之間的區(qū)別。自然語言模型中的語境學(xué)習(xí)源自預(yù)訓(xùn)練，通過大量自然語句（由一個個連續(xù)的token組成），根據(jù)當(dāng)前tokens讓模型預(yù)測句子中下一個token的機(jī)制來實(shí)現(xiàn)。這樣大型語言模型能夠自動獲取上下文學(xué)習(xí)能力，這似乎是一種非常神奇的現(xiàn)象。雖然有不少研究在討論這一現(xiàn)象，但為何模型在預(yù)訓(xùn)練后會自動具備這種能力仍然不太清楚。然而對于圖像生成模型而言，目前并沒有類似的能力。其預(yù)訓(xùn)練過程只關(guān)注單個文本和圖像的配對學(xué)習(xí)，沒有多個連續(xù)的圖像文本作為輸入，因此缺乏上下文信息。在這樣的預(yù)訓(xùn)練下，圖像生成模型無法實(shí)現(xiàn)語境學(xué)習(xí)能力。

要想訓(xùn)練一個具備這種語境學(xué)習(xí)能力的擴(kuò)散模型，就需要進(jìn)行一些改進(jìn)。首先，網(wǎng)絡(luò)架構(gòu)需要進(jìn)行調(diào)整，因?yàn)楝F(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)僅能夠接受文本作為控制信號。而現(xiàn)在，我們還有其他的演示和上下文示例，我們需要想辦法將它們輸入到網(wǎng)絡(luò)結(jié)構(gòu)中，這需要一些新的網(wǎng)絡(luò)架構(gòu)設(shè)計。

其次，訓(xùn)練數(shù)據(jù)也需要調(diào)整，就像文本一樣，需要多個連續(xù)相似的圖文示例，這樣模型才能獲得上下文學(xué)習(xí)的能力。因此，我們需要在數(shù)據(jù)方面進(jìn)行改進(jìn)。接下來，我們將探討如何設(shè)計這個新的網(wǎng)絡(luò)架構(gòu)。

三、設(shè)計——如何讓現(xiàn)有的模型能夠做語境學(xué)習(xí)

1、設(shè)計-網(wǎng)絡(luò)架構(gòu)

標(biāo)準(zhǔn)的文本圖像生成模型架構(gòu)通常由UNet組成,如上圖所示。該UNet首先對一個加入噪聲的圖像進(jìn)行卷積和下采樣，直至獲得較小的特征圖，然后再進(jìn)行上采樣，加上其他的一些卷積操作，最終將特征圖恢復(fù)到與輸入圖像相同大小的空間。這兩個步驟主要是在模擬去噪的過程。

這個UNet與通常的UNet有所不同，它加入了注意力機(jī)制，用于捕獲文本控制信號，然后利用文本信息引導(dǎo)到擴(kuò)散過程。在這個過程中，我們要考慮如何將圖文示例加入到這個UNet中。

實(shí)際上，這是非常簡單的，你可以看到，UNet實(shí)際上具有編碼器（encoder）的功能。它左邊部分通過下采樣將大圖像壓縮成特征圖，可以將其視為編碼器。右邊部分可以看作解碼器（decoder），該編碼器可以將圖像和相關(guān)文本編碼為特征圖。因此，我們可以將圖文示例，通過相同的方法，僅使用這個下采樣的編碼器（encoder）來壓縮到特征圖中。

當(dāng)有多個圖像和文本對時，可以分別進(jìn)行處理，然后將多個特征圖連接起來，這樣就可以得到neighbor（指某些同一主題的圖文對示例組成的一個類，類中的圖文因?yàn)橹黝}一致，在主題上相互之間可認(rèn)為具有相鄰的關(guān)系，有點(diǎn)類似鄰域的意思。）的表示。

這樣做的好處是，你在復(fù)用UNet編碼器時，可以將這些信息投影到相同的特征空間中。這樣模型更容易關(guān)注這些信息。因此，最終的網(wǎng)絡(luò)架構(gòu)類似于下圖這樣。

將圖像去噪為之前的圖像，之前只是用文本進(jìn)行控制，現(xiàn)在我們做的是，為它增加了一些上下文示例。只需復(fù)用UNet編碼器對示例進(jìn)行編碼獲得特征圖，注意力機(jī)制不僅僅會關(guān)注文本，還會關(guān)注新的上下文示例的特征。

因此，我們所做的實(shí)際上非常簡單，只是在網(wǎng)絡(luò)中添加了一個額外的注意力層，讓它能夠關(guān)注其他控制信號，比如用來參考的圖像和文本示例，這就是我們的新架構(gòu)。然而，目前我們還無法訓(xùn)練這個網(wǎng)絡(luò)，因?yàn)槲覀儧]有關(guān)于某個主題或者主體的多個圖像和文本對數(shù)據(jù)。

因此，接下來我們要考慮的是如何獲取這種新的訓(xùn)練數(shù)據(jù)。

2、設(shè)計-訓(xùn)練數(shù)據(jù)

理想情況下，圖像和文本的上下文學(xué)習(xí)（ICL）數(shù)據(jù)應(yīng)該具有相似的結(jié)構(gòu)。每個數(shù)據(jù)對應(yīng)由文本和圖像構(gòu)成，例如TEXT1-IMAGE1、TEXT2-IMAGE2、......、TEXTN-IMAGEN等，其中這些圖文對都有一定的相似性，比如說他們都描述了一樣的主體，或者說他們能描述了一樣的風(fēng)格，把它們放在一起，其中一些作為示例，然后生成新的這個關(guān)于這個主體的圖片。這樣訓(xùn)練的模型在生成圖片時，會自動參考輸入的示例。

所以我們需要一堆由TEXTN-IMAGEN組成的聚類圖片。每個類保證它其中的所有圖片是關(guān)于某一個主體的，或者他們都有一個專門的主題。但目前google內(nèi)部不存在這么理想的數(shù)據(jù)。從網(wǎng)上爬下來的數(shù)據(jù)都是獨(dú)立的圖文對數(shù)據(jù)，他們是沒有按主體、主題歸類的。給他們歸類也是一件非常困難的事，基于clip的一些策略可以做，但是效果非常差。

最終，我們的工作涉及以下幾個方面，我們重新爬取圖像文本配對數(shù)據(jù)，根據(jù)URL將這些圖像和文本進(jìn)行聚類。我們假設(shè)源自同一網(wǎng)頁的圖像和文本具有較強(qiáng)的相關(guān)性，尤其是電商網(wǎng)站上這種情況會很明顯。例如在同一網(wǎng)頁上銷售的鞋子是在不同場景下拍攝的，我們認(rèn)為這種資源非常有價值。然而也存在一些特殊情況，比如一個網(wǎng)頁中可能包含各種雜亂無章的圖像，它們之間毫無相似之處。在這種情況下，相關(guān)性較差，那應(yīng)該如何處理？為了解決這個問題，我們實(shí)施了一些過濾措施。我們通過計算不同圖像組內(nèi)圖像之間的CLIP分?jǐn)?shù)進(jìn)行過濾和篩選，以此來評估圖像之間的相似度。

隨后，若圖像對應(yīng)的CLIP分?jǐn)?shù)低于特定閾值，我們將排除那些具有較低相似性的圖像文本聚類，不過，需要指出的是，我們的過濾措施相當(dāng)嚴(yán)格。盡管如此，由于我們的數(shù)據(jù)集規(guī)模龐大，即便在過濾掉90%的內(nèi)容之后，仍然保留了數(shù)十兆級別的可用數(shù)據(jù)。

另外，我們還注意到從網(wǎng)絡(luò)上爬取的圖像文本配對，其組類中文本的噪聲較大，難以有效反映不同聚類中圖像的共性特征。有時候，這些文本內(nèi)容可能非常雜亂，與圖像關(guān)聯(lián)性較弱。為了克服這一問題，我們采用了Google的預(yù)訓(xùn)練語言模型為這些圖像重新生成描述文本，利用Palm等方法對這些描述進(jìn)行進(jìn)一步的清理，使得生成的描述更加與圖像內(nèi)容相符。

下面通過范例來說明，這是我們自動構(gòu)建的圖像數(shù)據(jù)集（ICL數(shù)據(jù)集）的兩個樣例。

范例中展示了圖像聚類示例，每個示例中的不同圖片有不同的文本標(biāo)簽，這些圖像和文本標(biāo)簽是由Palm生成的。從第一個example中可以看到不同場景下同一個壺的樣子，圖片底下的文本是它們的標(biāo)簽。第二個 example的主體是一只狐貍，它們有不同的標(biāo)簽。需要注意的是，這個示例僅用于展示，實(shí)際數(shù)據(jù)中的噪聲要比示例中高得多，這里只是為了給大家一個大致的印象。

在獲取了這些圖像之后，我們最初嘗試了一種簡單的方法，使用前兩個圖像作為樣本，然后讓模型生成第三個圖像。然而，實(shí)驗(yàn)證明這種方法的效果非常差，模型在訓(xùn)練完成后往往會陷入簡單的復(fù)制粘貼模式，無視輸入文本內(nèi)容，直接復(fù)制一個樣本作為輸出。主要原因在于我們構(gòu)建的圖像文本群組中的圖像和文本過于相似，導(dǎo)致模型傾向于執(zhí)行無創(chuàng)新性的復(fù)制操作。在大部分情況下，模型認(rèn)為這些圖像之間幾乎沒有區(qū)別，因此將一個圖像直接復(fù)制到另一個圖像的位置。針對這一問題，我們進(jìn)行了長時間的思考，希望找到方法來避免模型陷入這種局部最優(yōu)狀態(tài)。然而，我們發(fā)現(xiàn)很難找到一種非常直觀的方法來解決這個問題。

首先，我們需要考慮如何確保所生成的目標(biāo)圖像以及相關(guān)聯(lián)的其他示例具有足夠的差異性。這意味著無論是圖像還是文本，它們在特征上都應(yīng)該具有顯著的差異。以上圖中第一個和第三個壺為例，它們之間存在相當(dāng)大的相似性。然而，如果其中一個圖像呈現(xiàn)了明顯的差異，比如一個人端著一個物體的場景，這種情況下模型將被迫根據(jù)文本標(biāo)簽來生成這種差異，這種數(shù)據(jù)在實(shí)際爬取過程中非常難以獲取。因此，為了解決這一問題，我們采用了合成的方法。

具體而言，我們首先從這些聚類中提取文本，并使用大語言模型生成出不同場景下的文本描述，例如“a man holding a teapot”。接著，我們使用Dream Booth生成這些目標(biāo)圖像，盡管Dream Booth的使用會有較高的代價，不適用于最終模型，但它作為一種生成數(shù)據(jù)的手段非常有效。

我們的方法包括以下步驟：首先從這些聚類中選擇文本描述，然后利用大型語言模型生成新的文本描述，接著在這個類上訓(xùn)練Dream Booth，通過訓(xùn)練好的Dream Booth生成這些新的目標(biāo)圖像。需要指出的是，盡管Dream Booth在生成圖像方面非常出色，但仍存在很多失敗案例。因此，在生成了大量的Dream Booth圖像后，進(jìn)行了大量的過濾，包括一些啟發(fā)式的過濾和基于CLIP分?jǐn)?shù)的過濾。最終，我們僅保留了約20-30％的生成圖像，其余被認(rèn)為質(zhì)量不夠高而被丟棄。在經(jīng)過一系列處理后，我們最終得到了包含幾十萬個聚類數(shù)據(jù)的數(shù)據(jù)集，這為后續(xù)模型的訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。

進(jìn)一步的訓(xùn)練流程如下所示：

首先上圖展示了一個樣本，左邊是示例，右邊是目標(biāo)圖。訓(xùn)練過程如下圖：

總的來說流程如下，通過復(fù)用圖中的encoder，將多個示例通過encoder編碼得到特征圖，然后將特征圖（feature map）聯(lián)合起來（concatenate），目標(biāo)圖片在右邊做為去噪的目標(biāo)。首先對目標(biāo)圖片加噪，接下來將目標(biāo)圖像作為去噪目標(biāo)，添加噪聲后使用同一解碼器進(jìn)行去噪操作。此外，我們還引入了目標(biāo)圖像的文本描述以增強(qiáng)模型的控制性，這在圖中未畫出來。

我們將這個模型稱為"SuTI"，即"Subject-Driven Text to Image Generation"。此訓(xùn)練所采用的數(shù)據(jù)集為ICL V2數(shù)據(jù)集，它是由Dream Booth生成的數(shù)據(jù)，需要注意的是，盡管輸入的示例是現(xiàn)實(shí)的圖片，但輸出的目標(biāo)是通過精心設(shè)計來生成出來的圖片，這樣可以提高訓(xùn)練的可控性。在訓(xùn)練SuTI模型時，盡管我們擁有約500K個訓(xùn)練數(shù)據(jù)，但發(fā)現(xiàn)模型訓(xùn)練過程并不需要很長時間，大約一天的時間模型便能夠在約幾十萬步迭代之后達(dá)到相當(dāng)高的水平。

四、結(jié)果和展望

在模型的訓(xùn)練過程中，我們采取了一種方法，將三個示例作為neighbor，提供給圖像生成模型。通過這種方式，模型能夠通過注意機(jī)制關(guān)注這三個示例，從中獲得關(guān)于主體外觀的信息，最終生成目標(biāo)圖像。在訓(xùn)練SuTI模型后，我們觀察到該模型具備幾種技能。首先是風(fēng)格化技能，允許我們將不同的藝術(shù)風(fēng)格應(yīng)用于某個主體、將主體其放置在不同的環(huán)境中，甚至可以為主體賦予不同的動作。我們還可以從不同的視角觀察主體，并對其進(jìn)行一些屬性變化，例如顏色等，還可以為主體添加各種配件和服飾。我們的實(shí)驗(yàn)參數(shù)如下：

模型輸出示例如下所示：

例如，我們的輸入的圖片主體是一個鴨子玩具，我們試圖在生成階段中使用文本指定要生成的主體風(fēng)格，如使用Picasso、Rembrandt的藝術(shù)風(fēng)格。我們的模型能夠生成出具有不同藝術(shù)風(fēng)格的圖像，對于藝術(shù)不甚了解的我來說，畫得似乎相當(dāng)不錯，例如小黃鴨融合了梵高的"星空"風(fēng)格以及其他一些細(xì)節(jié)。再比如圖中的狗，模型可以生產(chǎn)各種方向的視圖，如從上看、從邊上看、從后看的視圖，這些都在模型輸出中得到了體現(xiàn)。生成的速度非?？?，大概 20 到 30 秒鐘就可以讓它生成出來。

此外，模型也能夠處理主體的情感，例如我們可以使狗變得沮喪、高興、瞌睡等。另一方面，我們也能夠改變主體的一些屬性，例如將其顏色更改為藍(lán)色、綠色、紫色、粉色等。

我們還嘗試增加配飾，例如給狗穿上廚師服、警察服、護(hù)士服等，這些生成的圖像在模型的控制下表現(xiàn)出高度的逼真性和合理性。

此外，我們的研究還涉及大量的人類評估，我們?yōu)榇司帉懥?20個獨(dú)特的提示，針對30個不同的主體進(jìn)行測試。

首先我們要評估模型在圖文指導(dǎo)下生成的圖像與給定主體對齊程度。主體對齊指的是生成圖像中的主體與原始主體的相似程度。我們將這種對齊度量表達(dá)為一個分?jǐn)?shù)，根據(jù)評價者對圖像的相似性進(jìn)行評分，從0表示不相似到10表示完全相似。最終，我們計算這些分?jǐn)?shù)的平均值，以獲取主體對齊的度量。

第二個評分指標(biāo)，即生成結(jié)果對文本標(biāo)簽的忠實(shí)程度，如圖21中生成的小狗對于描述中的 "chef outfit" 或 "police outfit" 等內(nèi)容是否完整準(zhǔn)確地體現(xiàn)。它是否可能忽略文本內(nèi)容，而僅僅將狗的圖像直接復(fù)制粘貼。

此外，第三個評分指標(biāo)在于圖像的真實(shí)性。是否存在任何偽造痕跡（ARTIFACT）等現(xiàn)象。

在我們的評估系統(tǒng)中這些生成的圖像都呈現(xiàn)出相對真實(shí)的特征。我們在整個基準(zhǔn)數(shù)據(jù)集上，將上述不同的評分指標(biāo)進(jìn)行匯總。通過計算不同樣本在這些指標(biāo)上的平均分?jǐn)?shù)，我們可以獲得一個總體的百分比得分。這些評分考慮了許多基線模型，包括Textual inversion、Null-Text Inversion、Imagic、Dream Booth、Stable Diffusion和Re-Imagen、InstructPix2Pix方面的表現(xiàn)。美元符號表示有些模型在微調(diào)時需要占用空間、時間。Imagic需要70mins才能做完一個主題的適配，但是對我們的模型只需要30s。盡管我們的模型在速度方面可能不及 "Instruct Pix2 Pix"那般迅捷，但其效果明顯優(yōu)于后者。例如，在主題方面，我們的模型已經(jīng)超越了 "dream Boost"，且在文本對齊方面表現(xiàn)更為優(yōu)異。我們的模型在 90% 的情況下能夠與文本完美地結(jié)合。同時，我們的模型生成的圖像在視覺逼真性方面達(dá)到 92%，幾乎沒有PS痕跡。然而，"Dream Booth" 在這一層面上表現(xiàn)更佳，約有 98% 的情況下不存在任何偽造痕跡，圖像相當(dāng)真實(shí)。相較于 "Textual Inversion"，我們的模型稍勝一籌。

這三個方面分別考慮后，我們對其進(jìn)行了綜合評分，類似于一個整體評價分?jǐn)?shù)。若圖像在這三個方面都取得滿分，也就是得分為一。最終，我們計算了平均分?jǐn)?shù)，以獲得最后的綜合評價。值得一提的是，從整體評分上看，我們的?！癝uTI”目前在市場上表現(xiàn)最為出色。與 "Dream Booth"相比，我們的模型高出7個百分點(diǎn)。與其他模型相比，優(yōu)勢更為明顯，接近 40% 以上。

綜上所述，我們的模型顯示出了出色的性能，在谷歌內(nèi)部也引起很多關(guān)注。

然而，正如之前所述，盡管我們在個性化生成上取得了顯著的進(jìn)展，但我們的圖像逼真度（photorealism）仍未達(dá)到最佳狀態(tài)。當(dāng)前，我們的逼真度評分為92%。仔細(xì)觀察這些圖像，你會發(fā)現(xiàn)它們在某些程度上仍存在失真現(xiàn)象。例如，在某些狗的圖像與背景結(jié)合的情況下，與真實(shí)原圖相比，仍存在一些差距。相比之下，與"Dream Booth"相比，我們的模型在自然性方面稍遜一籌。這種情況反應(yīng)出了我們模型的局限性，特別是在處理人臉和文字細(xì)節(jié)表達(dá)方面，效果相對較差。

目前我們的主要目標(biāo)是將該模型擴(kuò)展至更大規(guī)模以解決上述問題。此外，我們計劃在SuTI技能中增加更多功能。盡管我們目前已經(jīng)具備五項技能，如樣式化（stylization）、重上下文化（recontextualization）等，但我們希望能夠進(jìn)一步添加一些技能，例如將姿態(tài)（pose）內(nèi)容整合進(jìn)去，添加邊界框等，類似于Control Net。甚至，我們計劃引入一些具備組合能力的技能，使圖像能夠在變換風(fēng)格的同時，將其置于新的場景中，當(dāng)前模型尚無法實(shí)現(xiàn)此類復(fù)雜任務(wù)。我們致力于不斷提升模型性能，通過擴(kuò)大數(shù)據(jù)集和模型規(guī)模，使其具備更多的技能。我們的目標(biāo)是將各種控制信號加入模型中。最終，我們希望將整個系統(tǒng)構(gòu)建為一種指令微調(diào)（instruction tuning）的格式。值得注意的是，由于之前模型存在版權(quán)問題，我們已經(jīng)進(jìn)行了重新訓(xùn)練，目前已基本完成。在7月份，我們計劃將該模型發(fā)布到Google Cloud，與大家分享。您可以在Vertex AI平臺上找到該模型，類似于"Palm 2"。只要注冊到Google Cloud，就可以體驗(yàn)我們的模型?；镜纳刹僮魇敲赓M(fèi)的，只有在超出一定使用量后才會收取費(fèi)用。

五、問答環(huán)節(jié)

Q1：非常感謝陳文虎老師的分享，內(nèi)容非常有趣?，F(xiàn)在進(jìn)入問答環(huán)節(jié)，我注意到評論區(qū)已經(jīng)有一些問題了。第一個問題是，根據(jù)訓(xùn)練數(shù)據(jù)，我們只能獲得圖像和文本的對齊，為什么在應(yīng)用時我們可以獲得風(fēng)格、角度等屬性的增強(qiáng)？

A1：在我們的訓(xùn)練數(shù)據(jù)中，實(shí)際上也包含了這些風(fēng)格等屬性。例如，對于TEAPOT這樣的提示語，可能會是“生成畢加索風(fēng)格的TEAPOT圖像”。然后通過"Dream Booth"，它可以生成具有畢加索風(fēng)格的TEAPOT圖像，這只是一個示例。此外，在構(gòu)建提示時，我們使用了大型語言模型，它生成的提示非常多樣化，涵蓋了各種屬性，如風(fēng)格、視角等。比如，提示可能包含特定的風(fēng)格、特定視角，如從下方視角看的TEAPOT。而"Dream Boost"生成的圖像在成功的情況下，會呈現(xiàn)從底部視角看的TEAPOT，這是其有效性的原因。

Q2：所以，我們的訓(xùn)練數(shù)據(jù)實(shí)際上已經(jīng)包含了這些圖文對和生成序列。

A2：是的，訓(xùn)練數(shù)據(jù)已經(jīng)相當(dāng)豐富，已經(jīng)包含了這些所謂的技能。

Q3：那么，如果我們增加這些數(shù)據(jù)集，是否可以進(jìn)一步提升模型性能？

A3：是的，您說得對。我認(rèn)為，這個框架的優(yōu)點(diǎn)之一是它沒有任何限制，不必局限于特定的技能集。只要有一種方法可以將新的技能集打包成輸入輸出的形式，我們就可以使用相同的訓(xùn)練方法對模型進(jìn)行訓(xùn)練。

Q4：好的，接下來是第二個問題，就是關(guān)于SuTI的技能點(diǎn)如何與具體的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計相對應(yīng)。

A4：我認(rèn)為我剛才已經(jīng)在回答這個問題了。我們的網(wǎng)絡(luò)結(jié)構(gòu)可以看作是一個注意力機(jī)制，它根據(jù)輸入的指令和輸出來自適應(yīng)地進(jìn)行調(diào)整。不同的技能通過輸入輸出的方式傳遞給模型，然后模型自己進(jìn)行泛化。這可以類比為一種指令調(diào)整的感覺，你提供不同的指令，就會得到不同的輸出。網(wǎng)絡(luò)結(jié)構(gòu)本身并沒有太多變化，它僅僅是一個正常的擴(kuò)散模型。

Q5：事實(shí)上，我認(rèn)為更好的方法是技能實(shí)際上是由數(shù)據(jù)來定義的，而不需要在結(jié)構(gòu)上進(jìn)行特殊處理。

A5：對，技能就是這樣的，實(shí)際上這個網(wǎng)絡(luò)結(jié)構(gòu)可以被視為是一個很廣義的注意力機(jī)制。不同的技能被打包成輸入輸出格式，并提供給模型，然后模型就可以進(jìn)行相應(yīng)處理。當(dāng)然，這個問題會在后面進(jìn)一步討論，對吧？目前這五個技能不需要對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特殊的調(diào)整。但是對于我們新增加的一些技能，可能需要進(jìn)行結(jié)構(gòu)上的調(diào)整。比如說，如果要為人物提供一些關(guān)鍵點(diǎn)（key point）或面部網(wǎng)格（face mesh），這些新的控制信號需要用新的編碼器進(jìn)行編碼，不能再使用之前Unet的下采樣層。因?yàn)樵谶@種情況下，我們的網(wǎng)絡(luò)假設(shè)你輸入的控制信號是一張正常的圖像，但是如果存在其他信號，如坐標(biāo)等，那么網(wǎng)絡(luò)架構(gòu)可能需要進(jìn)行重新調(diào)整，添加新的注意力機(jī)制以處理這些新的控制信號。

Q6：是的，這實(shí)際上也解答了我想問的問題。確實(shí)，如果將其與Control Net等工作結(jié)合，可能會產(chǎn)生更多有趣的結(jié)果。

A6：事實(shí)上，我們當(dāng)前的模型版本已經(jīng)能夠與Control Net結(jié)合。盡管在這篇論文中還沒有詳細(xì)描述，但例如，對于一些小黃鴨這樣的對象，它們可能只有一種姿勢，與控制相關(guān)可能不太有意義。然而，對于一只狗這樣的對象，由于它可能有多種姿勢，我們可以繪制出類似于在空中的軀干形狀，然后我們的模型可以將主體與這個軀干連接起來，從而呈現(xiàn)出特定的姿勢。

Q7：好的，還有最后一分鐘。接下來我提出最后一個問題，這里是關(guān)于使用同一編碼器將文本圖像對齊到同一領(lǐng)域的方法。除此之外還有其他方法嗎？

A7：還有其他方法嗎？還有一個方法，就是不使用相同的編碼器。例如，你可以使用其他的編碼器，如CLIP、BLIP等。然而，我們的實(shí)驗(yàn)發(fā)現(xiàn)，這些方法的效果并不是特別好。當(dāng)然，我們之前使用的那些編碼器的參數(shù)量并不是很大，但是現(xiàn)在有一些更大的編碼器，如22B的[1]等等，可能會有更大的特征圖，使模型能夠在一個共同的領(lǐng)域內(nèi)進(jìn)行attention。因?yàn)槲覀兊哪Ｐ蛷?fù)用了相同的編碼器，它們共享了原始模型的encoder，所以它們通過這個特征圖，基本上是在相同的特征空間中進(jìn)行操作。

責(zé)任編輯：姜華來源： DataFunTalk

語境學(xué)習(xí)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="tmjkx"><p id="tmjkx"></p></sub>

<legend id="tmjkx"><track id="tmjkx"></track></legend>

<blockquote id="tmjkx"></blockquote>