自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎? 精華

發(fā)布于 2024-9-4 11:25
瀏覽
0收藏

Stable Diffusion擴(kuò)散模型作為生成高質(zhì)量圖像的先進(jìn)模型,卻伴隨著對(duì)訓(xùn)練數(shù)據(jù)的記憶化傾向,引發(fā)了隱私和安全性的擔(dān)憂。AIGCer分享一篇分析該現(xiàn)象的文章,通過兩個(gè)案例研究深入挖掘了文本復(fù)制現(xiàn)象,旨在為未來生成模型的改進(jìn)提供重要的指導(dǎo)。


基于擴(kuò)散模型,如Stable Diffusion模型,以其生成高質(zhì)量、高分辨率圖像的能力,已經(jīng)在文本到圖像合成領(lǐng)域引起了革命。這些進(jìn)展推動(dòng)了圖像生成和編輯任務(wù)的顯著進(jìn)展。然而,這些模型也引發(fā)了一些擔(dān)憂,因?yàn)樗鼈冇杏洃浐蜐撛趶?fù)制訓(xùn)練樣本的趨勢(shì),從而帶來隱私風(fēng)險(xiǎn)并可能導(dǎo)致對(duì)抗性攻擊。在訓(xùn)練數(shù)據(jù)集中的重復(fù)被認(rèn)為是導(dǎo)致記憶的主要因素,迄今為止已經(jīng)研究了各種形式的記憶。本文關(guān)注于兩種不同且鮮為人知的復(fù)制類型,這些類型在擴(kuò)散模型中在推斷過程中導(dǎo)致了復(fù)制,特別是在Stable Diffusion模型中。通過兩個(gè)案例研究深入探討了這些較少研究的復(fù)制現(xiàn)象及其影響,旨在為生成模型在各種應(yīng)用中的更安全、更負(fù)責(zé)任的使用做出貢獻(xiàn)。

引言

基于擴(kuò)散的模型展示了在生成高質(zhì)量圖像方面的出色能力,無條件生成和有條件生成皆如此。Stable Diffusion模型作為一種有條件擴(kuò)散模型,與其他生成模型如DALLE-3和Midjourney一同,顯著推動(dòng)了文本到圖像生成領(lǐng)域的發(fā)展。這些模型在創(chuàng)建高分辨率圖像和圖像編輯方面表現(xiàn)出色。


機(jī)器學(xué)習(xí)模型中的記憶化已經(jīng)得到廣泛研究。這種記憶化可能帶來隱私風(fēng)險(xiǎn),潛在地可能導(dǎo)致成員關(guān)系推斷或數(shù)據(jù)提取等攻擊。盡管擴(kuò)散模型,包括Stable Diffusion模型,具有生成高質(zhì)量圖像的能力,它們有時(shí)表現(xiàn)出對(duì)精確訓(xùn)練樣本或其重要部分的記憶和復(fù)制的趨勢(shì)。Somepalli等(2023b)指出,與僅包含圖像的上下文相比,文本條件更容易導(dǎo)致記憶。先前的研究表明,在推斷過程中,訓(xùn)練樣本的復(fù)制可能是這種復(fù)制的一個(gè)重要原因。

本文深入研究了兩種特定類型的文本條件訓(xùn)練樣本復(fù)制:第一種涉及圖像及其相應(yīng)文本(包含特定關(guān)鍵詞)的復(fù)制;第二種涉及圖像-文本對(duì)的復(fù)制,其中圖像包含特定對(duì)象,而文本包含特定關(guān)鍵詞。這種微妙的復(fù)制形式可能加劇模型對(duì)各種攻擊的脆弱性。隨著文本到圖像生成模型的日益普及,詳細(xì)審查它們的記憶傾向變得越來越重要。通過分析兩個(gè)案例研究,本文探討了這兩種復(fù)制類型,以揭示它們的動(dòng)態(tài)和影響。

相關(guān)工作

「大型語言模型中的記憶化」

在大語言模型(LLMs)領(lǐng)域,由于無意中泄露了導(dǎo)致模型記憶的機(jī)密信息,因此面臨著越來越大的挑戰(zhàn)。Carlini等通過定量方法進(jìn)行深入分析,之前利用定性技術(shù)進(jìn)行研究。導(dǎo)致這種情況的一個(gè)關(guān)鍵因素是訓(xùn)練數(shù)據(jù)集中固有的復(fù)制,可能導(dǎo)致語言模型生成與已存在內(nèi)容相似的文本。Biderman等(2023)最近的貢獻(xiàn)表明,這種記憶化是由于訓(xùn)練數(shù)據(jù)集的平均值,而Biderman等(2023)則說明其發(fā)生在特定的訓(xùn)練數(shù)據(jù)點(diǎn)上。

「擴(kuò)散模型中的記憶化」

最近的研究展示了使用有條件和無條件擴(kuò)散模型創(chuàng)建相似或幾乎相同圖像的技術(shù)。具體而言,Somepalli等(2023a)強(qiáng)調(diào),擴(kuò)散模型可以生成具有與訓(xùn)練數(shù)據(jù)中相似對(duì)象的圖像,這個(gè)過程被稱為“復(fù)制”。與此同時(shí),Carlini等(2023)展示了模型通過分析生成樣本的聚類,從訓(xùn)練集中檢索幾乎相同的圖像的能力。Somepalli等(2023b)最近的研究認(rèn)為,在無條件擴(kuò)散模型中,由于復(fù)制而導(dǎo)致的數(shù)據(jù)復(fù)制可能較少,而文本條件可能顯著增加模型記憶化的可能性。在重復(fù)發(fā)生這種記憶化的前期研究中,Webster等(2023)引入了一種算法方法來檢測(cè)這種重復(fù)。

背景

「擴(kuò)散模型」

在深度生成模型的背景下,去噪擴(kuò)散概率模型,通常稱為無條件擴(kuò)散模型,通過迭代進(jìn)行噪聲添加(正向過程)和隨后的噪聲移除(反向過程)來生成圖像。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

「Stable Diffusion」

在Rombach等人的研究中(2022),"Stable Diffusion"模型專門用于文本到圖像合成任務(wù)。該模型通過擴(kuò)散圖像的潛在向量表示。它首先接收文本輸入,然后通過凍結(jié)的CLIP文本編碼器將其轉(zhuǎn)換為文本embedding。隨后,一個(gè)文本條件的潛在U-Net迭代地去噪潛在向量,其方式是根據(jù)生成的文本embedding進(jìn)行條件化。最后,一個(gè)變分自編碼器(VAE)解碼這個(gè)潛在向量,生成相應(yīng)的圖像。

word級(jí)復(fù)制

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)


Somepalli等人(2023b)研究了LAION數(shù)據(jù)集中更廣泛范圍的復(fù)制,涵蓋比以前的研究更多的情況。他們考慮了字幕和圖像的復(fù)制,甚至深入研究了部分字幕的復(fù)制。然而,對(duì)于他們的方法存在一些擔(dān)憂。他們從LAION數(shù)據(jù)集中篩選出兩個(gè)子集,用于對(duì)Stable Diffusion模型進(jìn)行微調(diào)。在其原始預(yù)訓(xùn)練數(shù)據(jù)集的子集上對(duì)Stable Diffusion進(jìn)行微調(diào)可能導(dǎo)致意外的記憶化增加。


在文本條件的擴(kuò)散模型中,文本起著關(guān)鍵作用。基于這一觀點(diǎn),對(duì)這些應(yīng)用的主要關(guān)注應(yīng)圍繞文本條件的記憶化。雖然數(shù)據(jù)集中可能存在圖像的復(fù)制,但如果文本與圖像之間沒有關(guān)聯(lián),那么在推斷時(shí),在提供提示時(shí)不太可能出現(xiàn)相關(guān)的復(fù)制。這一觀察引導(dǎo)我們考慮更現(xiàn)實(shí)類型的復(fù)制。


與先前的研究不同,作者的重點(diǎn)是單word 級(jí)的復(fù)制。具體而言,目標(biāo)是識(shí)別在復(fù)制中關(guān)鍵詞和圖像之間是否存在關(guān)聯(lián)。作者質(zhì)疑在數(shù)據(jù)集中是否一致復(fù)制了某些關(guān)鍵詞和圖像集。在這種情況下,字幕不一定表現(xiàn)出高語義相似性;它們可能只共享共同的關(guān)鍵詞。因此,在推斷時(shí),當(dāng)模型遇到這些特定關(guān)鍵詞的組合時(shí),它可能會(huì)嘗試復(fù)制在訓(xùn)練期間觀察到的相應(yīng)特征或?qū)ο蟆T趯?shí)驗(yàn)結(jié)果中,通過對(duì)LAION數(shù)據(jù)集進(jìn)行詳細(xì)案例研究進(jìn)一步探討了這種類型的復(fù)制。

「定義記憶化的更現(xiàn)實(shí)方法」

先前的研究通常依賴于單一隨機(jī)初始化進(jìn)行生成。然而,無論使用何種記憶化定義,更現(xiàn)實(shí)的檢查方法涉及使用多個(gè)隨機(jī)初始化。實(shí)際設(shè)置中,如果模型在不同初始化中始終生成相同的特征、對(duì)象或甚至整個(gè)圖像,就會(huì)出現(xiàn)對(duì)記憶化和復(fù)制的擔(dān)憂。因此,基于單一種子進(jìn)行的記憶化或復(fù)制評(píng)估可能無法提供全面的理解。

對(duì)象級(jí)復(fù)制

在這一部分,介紹了一種稱為對(duì)象級(jí)復(fù)制的獨(dú)特復(fù)制類型。當(dāng)在訓(xùn)練數(shù)據(jù)集中出現(xiàn)一對(duì)特定圖像中的對(duì)象和相應(yīng)文本中的某些關(guān)鍵詞時(shí),即使對(duì)象的名稱在文本中沒有出現(xiàn),也會(huì)發(fā)生對(duì)象級(jí)復(fù)制。這種復(fù)制可能導(dǎo)致在推斷時(shí),當(dāng)提示中存在相關(guān)關(guān)鍵詞時(shí),這些特定對(duì)象的復(fù)制。這種復(fù)制模式引發(fā)了各種可信度問題,尤其是隱私和公平性?;旧?,它意味著模型不論在用戶提供的輸入中是否提及或缺失,都會(huì)持續(xù)生成特定對(duì)象,這可能與用戶的期望或意圖不符。


這種現(xiàn)象的一個(gè)可能解釋是圖像中的某些關(guān)鍵詞和對(duì)象之間的隱含關(guān)聯(lián)。也就是說,在訓(xùn)練數(shù)據(jù)集中可能不會(huì)復(fù)制整個(gè)圖像,但是特定對(duì)象可能經(jīng)常出現(xiàn)在與包含特定單詞的字幕相關(guān)的圖像中。將在實(shí)驗(yàn)部分通過一項(xiàng)專門的案例研究深入探討這一現(xiàn)象。

實(shí)驗(yàn)結(jié)果

在這一部分,展示兩個(gè)案例研究,分別對(duì)應(yīng)之前討論的兩種復(fù)制類型,并在每個(gè)研究中加入多個(gè)示例。對(duì)于所有實(shí)驗(yàn),使用了LAION-400M(Schuhmann等人,2021),這是較大的LAION-5B(Schuhmann等人,2022)數(shù)據(jù)集的一個(gè)子集。選擇這個(gè)子集是因?yàn)樗谝?guī)模上更易管理。實(shí)驗(yàn)使用了在LAION-5B數(shù)據(jù)集上訓(xùn)練的Stable Diffusion v1.4模型。

「案例研究1:梵高」

在初始案例研究中,深入研究了單word 級(jí)記憶化。為此,關(guān)注了帶有包含術(shù)語“梵高”字幕的樣本。大約有90,000個(gè)樣本的字幕中包含這個(gè)術(shù)語。繼續(xù)排除帶有無效URL的樣本。此外,考慮到CLIP模型的文本編碼器接受的文本長(zhǎng)度不超過77個(gè)標(biāo)記,超過這個(gè)標(biāo)記數(shù)的字幕樣本也被省略。在經(jīng)過這些過濾步驟后,剩下大約70,000個(gè)樣本。此外,使用CLIP模型的圖像編碼器獲取了這些樣本的圖像embedding。


在下一步中,對(duì)圖像embedding進(jìn)行聚類,利用余弦相似度來識(shí)別一組幾乎相同的圖像。然后根據(jù)它們的大小對(duì)聚類進(jìn)行排序,并在每個(gè)聚類中,找出最頻繁出現(xiàn)的單詞。應(yīng)注意,最大的聚類由于包含與其他聚類不太相關(guān)的無關(guān)圖像,已經(jīng)被省略在分析之外。下表1呈現(xiàn)了最大的聚類以及它們對(duì)應(yīng)的頻率單詞。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

演示這些關(guān)鍵詞如何影響每個(gè)聚類中生成的圖像。對(duì)于每組關(guān)鍵詞,考慮以下字幕:

? 僅由關(guān)鍵詞組成的字幕。

? 包含關(guān)鍵詞的簡(jiǎn)短相關(guān)字幕。

? 包含關(guān)鍵詞的長(zhǎng)相關(guān)字幕。

? 包含關(guān)鍵詞的無關(guān)字幕。

? 不包含術(shù)語“van gogh”的長(zhǎng)字幕。

使用ChatGPT(OpenAI 2023)獲得所有這些字幕。下圖3中展示了聚類1的所有字幕及其相應(yīng)生成的圖像。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

為了更好地說明復(fù)制的概念,對(duì)于每個(gè)提示,作者使用不同的隨機(jī)初始化生成500張圖像。提供演示與訓(xùn)練數(shù)據(jù)集中原始圖像相似程度不同的示例。此外,對(duì)于每個(gè)聚類,都建立了一個(gè)唯一的圖像相似性閾值,以確定與訓(xùn)練數(shù)據(jù)集中原始圖像相似的生成的百分比。這個(gè)閾值在聚類之間變化,并需要根據(jù)每個(gè)聚類的特定特征進(jìn)行手動(dòng)設(shè)置。


如上面圖3所示,實(shí)驗(yàn)從簡(jiǎn)短的提示開始,逐漸發(fā)展到更長(zhǎng)、更多樣的字幕。盡管在文本變化的情況下,圖像始終保持原始藝術(shù)品的風(fēng)格和元素。在第四個(gè)例子中,即使“starry”和“night”分開,圖像仍然共同代表這些主題。有趣的是,最后的字幕省略了“Van Gogh”,但他獨(dú)特的風(fēng)格在圖像中無疑地被捕捉到。此外,使用CLIP的文本編碼器embedding計(jì)算給定提示與訓(xùn)練數(shù)據(jù)集中最接近的文本之間的余弦相似度。


除了圖3中顯示示例的聚類外,還有另一個(gè)具有引人入勝結(jié)果的聚類。在前面表1中顯示的Cluster 3中,關(guān)鍵詞包括“van gogh”、“almond”和“blossoming”。有關(guān)此聚類的所有字幕及其相應(yīng)生成的圖像在下圖6中說明。圖6中的最后一個(gè)例子說明,即使沒有明確提到“van gogh”,生成的圖像仍與與Van Gogh的作品相關(guān)的訓(xùn)練數(shù)據(jù)集中的圖像相似。此外,可以在下圖7中找到Cluster 4的字幕和相應(yīng)生成的圖像。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

為了理解這一現(xiàn)象,分析了“almond”和“blossoming”這兩個(gè)詞在帶有“van gogh”的字幕中有多頻繁。通過過濾帶有“almond”和“blossoming”的字幕的數(shù)據(jù)集,然后使用圖像embedding對(duì)圖像進(jìn)行聚類,發(fā)現(xiàn)這兩個(gè)描述性詞語占據(jù)了與Van Gogh的作品相關(guān)的主導(dǎo)聚類,約占帶有這兩個(gè)描述性詞語的條目的52%。


「頻率至關(guān)重要」。在推斷過程中,影響訓(xùn)練圖像復(fù)制可能性的兩個(gè)主要因素。第一個(gè)因素是數(shù)據(jù)集中特定關(guān)鍵詞的頻率。觀察表明,當(dāng)圖像與頻繁出現(xiàn)的關(guān)鍵詞相關(guān)聯(lián)時(shí),它們更有可能復(fù)制。例如,“almond”和“blossoming”以及“Van Gogh”,這幾個(gè)詞具有更高的復(fù)制傾向。


然而,僅有頻率并不是唯一的決定因素。另一個(gè)有影響力的因素是數(shù)據(jù)集的初始聚類。當(dāng)對(duì)帶有特定關(guān)鍵詞的圖像進(jìn)行聚類時(shí),比如“almond”和“blossoming”,而不包括“Van Gogh”時(shí),發(fā)現(xiàn)最大的聚類仍然與梵高的作品相關(guān),約占樣本的52%。盡管如此,有顯著的48%的聚類與之無關(guān)。這種分布表明,在訓(xùn)練集中的關(guān)鍵詞頻率在一定程度上可以預(yù)測(cè)模型的復(fù)制行為。關(guān)鍵詞“向日葵”進(jìn)一步證明了這一點(diǎn);盡管它與梵高經(jīng)常相關(guān),但在僅考慮數(shù)據(jù)集中的“向日葵”時(shí),它僅占聚類的2%。這強(qiáng)調(diào)了為什么除非明確提到梵高的名字,否則梵高的藝術(shù)風(fēng)格可能不會(huì)被復(fù)制。下圖1展示了當(dāng)對(duì)包含“almond”和“blossoming”這兩個(gè)詞的樣本的圖像進(jìn)行聚類時(shí),30個(gè)最大聚類的分布大小。下圖2展示了同樣的情況,但是對(duì)于詞匯“sunflower”。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

「案例研究2:宇航員」

在這一部分,通過一個(gè)專注的案例研究探討對(duì)象級(jí)復(fù)制的概念。對(duì)象級(jí)復(fù)制指的是盡管與相關(guān)的文本提示中缺少這些對(duì)象,但特定對(duì)象在圖像中經(jīng)常出現(xiàn)的現(xiàn)象。這意味著在數(shù)據(jù)集中,特定關(guān)鍵詞與重復(fù)出現(xiàn)的視覺元素之間存在強(qiáng)烈的相關(guān)性。為了研究這一現(xiàn)象,作者關(guān)注包含關(guān)鍵詞“astronaut”的LAION數(shù)據(jù)集中的樣本。作者應(yīng)用與初始案例研究相同的方法框架來策劃數(shù)據(jù)集的這個(gè)子集,并生成相應(yīng)的圖像embedding。這個(gè)過程產(chǎn)生了大約48,000個(gè)樣本,對(duì)關(guān)鍵詞-對(duì)象相關(guān)性的調(diào)查提供了實(shí)質(zhì)性的基礎(chǔ)。下圖5呈現(xiàn)了一些這些訓(xùn)練樣本,它們的字幕包含詞語“astronaut”,相應(yīng)的圖像中包含美國(guó)國(guó)旗。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

在這個(gè)案例研究中,作者關(guān)注美國(guó)國(guó)旗。對(duì)大約1000個(gè)帶有提到“astronaut”字幕的訓(xùn)練數(shù)據(jù)樣本的分析顯示,即使沒有明確指定“US”或“flag”這兩個(gè)詞,有10%的樣本包含美國(guó)國(guó)旗的圖像。為了進(jìn)一步探討這一現(xiàn)象,首先使用ChatGPT創(chuàng)建了一系列包含詞語“astronaut”的隨機(jī)提示。然后,使用這些提示在Stable Diffusion模型中生成圖像,導(dǎo)致在輸出中頻繁復(fù)制美國(guó)國(guó)旗。請(qǐng)注意,由于預(yù)訓(xùn)練的Stable Diffusion模型生成質(zhì)量較低,我們對(duì)該模型進(jìn)行了微調(diào),使用Midjourney API的一小部分提示和相應(yīng)的高分辨率生成的圖像,以提高生成示例的質(zhì)量。下圖4顯示了ChatGPT生成的提示和Stable Diffusion模型生成的相應(yīng)圖像。

Stable Diffusion這樣的文本-圖像生成模型有記憶嗎?-AI.x社區(qū)

通過使用不同的隨機(jī)種子生成500張圖像,評(píng)估模型從提示中復(fù)制美國(guó)國(guó)旗的傾向。隨后,計(jì)算并報(bào)告包含美國(guó)國(guó)旗的圖像的百分比。

未來方向

盡管本文的研究集中在兩個(gè)特定的案例研究上,但已經(jīng)證明了在Stable Diffusion模型中發(fā)生了word 級(jí)復(fù)制的現(xiàn)象。對(duì)于未來的工作,作者建議在word 級(jí)復(fù)制的背景下進(jìn)行更廣泛的實(shí)驗(yàn),并進(jìn)行更全面的分析。此外,開發(fā)新的緩解技術(shù),減少記憶而保留模型效用,具有至關(guān)重要的意義。本文研究中發(fā)現(xiàn)的復(fù)制特征還可能帶來潛在的隱私風(fēng)險(xiǎn),可能使模型容易受到各種攻擊,包括成員關(guān)系推斷和后門攻擊。解決這些問題將是未來研究的一個(gè)關(guān)鍵方面。

結(jié)論

在生成模型的記憶過程中,訓(xùn)練數(shù)據(jù)中的復(fù)制是一個(gè)重要的促成因素。本文確定了兩種在推斷中導(dǎo)致復(fù)制的復(fù)制類型。通過兩個(gè)LAION數(shù)據(jù)集的案例研究對(duì)這些進(jìn)行了調(diào)查。本文的工作強(qiáng)調(diào)了對(duì)訓(xùn)練數(shù)據(jù)中不同復(fù)制形式的警惕性以及需要有效緩解策略的重要性。希望這項(xiàng)工作能夠激發(fā)更加慎重的數(shù)據(jù)管理,并促使開發(fā)既強(qiáng)大又保護(hù)隱私的生成模型。


本文轉(zhuǎn)自 AI生成未來,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/I006sz0YXJ9VgN3caR-Rkg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦