如何正確使用Stable Diffusion?文本到圖像擴散模型中記憶化實用分析(浙大) 精華
論文鏈接:https://arxiv.org/pdf/2405.05846
過去幾年見證了由擴散模型驅(qū)動的文本引導圖像生成領域的重大進展。然而,已經(jīng)顯示出文本到圖像擴散模型容易受到訓練圖像記憶的影響,引發(fā)了對版權侵犯和隱私侵犯的擔憂。在這項工作中,本文對文本到圖像擴散模型中的記憶化進行了實際分析。針對需要保護的一組圖像,本文對它們進行了量化分析,而無需收集任何prompt。具體而言,本文首先正式定義了圖像的記憶化,并確定了記憶化的三個必要條件,分別是相似性、存在性和概率性。然后,本文揭示了模型預測誤差與圖像復制之間的相關性?;谶@種相關性,本文提出利用反演技術來驗證目標圖像對記憶化的安全性,并測量它們被記憶化的程度。模型開發(fā)人員可以利用本文的分析方法發(fā)現(xiàn)被記憶化的圖像,或可靠地宣稱對抗記憶化的安全性。對流行的開源文本到圖像擴散模型 Stable Diffusion 進行了大量實驗,證明了本文分析方法的有效性。
介紹
擴散概率模型在圖像生成、視頻、3D 點云等方面展現(xiàn)了令人印象深刻的能力。這些技術為商業(yè)系統(tǒng)或社區(qū)奠定了基礎,如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen,吸引了數(shù)百萬活躍用戶。擴散模型的普及可以歸因于分層去噪過程,該過程在數(shù)十億數(shù)據(jù)上訓練時提供了高穩(wěn)定性,并且具備了對多模態(tài)條件生成的可擴展性。
用于訓練最先進的文本到圖像生成模型的大規(guī)模數(shù)據(jù)集,例如開源圖像描述數(shù)據(jù)集 LAION-5B,被廣泛認為包含可能引起版權和隱私擔憂的內(nèi)容。例如,據(jù)報道,LAION-5B可能未經(jīng)授權地涉及攝影師的作品,其中還發(fā)現(xiàn)了私人醫(yī)療照片。由于未經(jīng)篩選的訓練數(shù)據(jù),擴散模型可能生成侵犯創(chuàng)作者版權或暴露個人信息的內(nèi)容。
在這項工作中,本文專注于文本到圖像擴散模型中的記憶化問題,這是對訓練數(shù)據(jù)誤用的最壞情況。文本到圖像擴散模型中的記憶化是一種生成失敗,當輸入一定的prompt但不同的隨機種子時,模型總是剛性地生成與其訓練集中相同的數(shù)據(jù)。這種類型的生成被視為失敗,因為概率生成模型應該生成新穎和多樣化的圖像。
下圖1展示了 Stable Diffusion 中記憶化的兩個例子。文本到圖像擴散模型中的記憶化不僅是一種類似于生成對抗網(wǎng)絡(GAN)中的mode collapse的技術問題,而且也是對圖像所有者利益的偏見。在版權保護方面,即使模型開發(fā)者被授權使用受版權保護的圖像訓練他們的模型,圖像所有者也不會希望他們的圖像被復制給任意用戶,因為這將導致無法控制的傳播。
在過去的幾年中,文本到圖像模型因生成模仿藝術家風格的衍生圖像而面臨訴訟。然而,與法律地位尚未確定的衍生生成相比,對受版權保護的圖像的精確復制是毫無爭議地不可容忍的。為了保護隱私,一系列研究提出使用合成數(shù)據(jù)代替真實數(shù)據(jù)以防止共享私人信息。為了實現(xiàn)這一目標,潛在的記憶化也應該被謹慎地回避。Carlini等人和Somepalli等人首次證明了文本到圖像模型中的記憶化的存在。他們研究了最流行的開源文本到圖像擴散模型 Stable Diffusion,并發(fā)現(xiàn)了觸發(fā)模型生成訓練圖像的prompt。
雖然已發(fā)現(xiàn)文本到圖像擴散模型容易受到記憶化的影響,但實際分析方法仍然是一個具有挑戰(zhàn)性的問題。首先,現(xiàn)有的分析方法都是基于prompt的:它們首先使用原始訓練集中的標題生成大量候選圖像,然后檢測低多樣性的風險生成,搜索與訓練圖像高度相似的生成圖像,或檢測預測誤差較高的prompt。
基于prompt的分析方法無法確定任意圖像是否被記憶化。事實上,只有在發(fā)現(xiàn)了記憶化后,它們才能意識到哪些圖像可能被記憶化。此外,對于那些訓練標題似乎不觸發(fā)記憶化現(xiàn)象的其他圖像,它們對記憶化的安全性仍然不確定,并且很難通過現(xiàn)有方法進行分析,因為不可能對所有prompt進行窮盡測試。因此,實際分析方法希望是基于圖像而不是基于prompt的。其次,實際分析方法需要量化記憶化。
先前的工作重點是發(fā)現(xiàn)被記憶化的圖像,而缺乏對每個實例的記憶化的準確描述。對記憶化的量化測量不僅為記憶化圖像的安全風險提供了有力的證據(jù),而且允許模型開發(fā)者負責地向圖像所有者聲明對正常圖像的安全性。
為了應對這些挑戰(zhàn),本文考慮了一個實際場景,在這個場景中,模型開發(fā)者預先定義了一組受版權保護或保護隱私的目標圖像。他們的目標是對目標圖像進行安全分析,以決定模型是否記憶了它們,并量化它們被記憶的程度。基于這項分析,開發(fā)者能夠向數(shù)據(jù)提供者聲明目標圖像對記憶化的安全性,或者提前發(fā)現(xiàn)被記憶的圖像并修復這一漏洞。
為了執(zhí)行安全分析,本文首先正式定義了擴散模型中的圖像記憶化,并確定了說一個圖像被記憶化的三個條件,分別命名為相似性、存在性和概率性。
相似性條件意味著生成的圖像應該與目標圖像完全相同。正如之前提到的,這個條件反映了訓練數(shù)據(jù)最壞情況下的誤用,并構(gòu)成了重大的安全威脅。本文不是計算生成圖像和目標圖像之間的相似度,而是利用模型的預測誤差作為度量標準來識別圖像的復制。 這個度量標準與以前的度量標準在識別圖像復制方面同樣有效。它還使本文能夠反轉(zhuǎn)模型以找到導致復制的輸入,基于這個輸入本文對其他兩個條件進行分析。
存在性條件要求存在一個prompt來觸發(fā)目標圖像的復制。本文提出了一個prompt反演算法來分析這個條件,并通過矛盾驗證了這種prompt的存在性。
概率性條件在采樣時頻繁地復制目標圖像。本文提出通過比較模型在目標圖像上的預測誤差與一個安全模型的預測誤差來衡量這個條件。如果目標圖像以高概率被復制,那么可以觀察到一個明顯的分布偏移,遠離安全模型的誤差分布。
本文通過矛盾驗證了大規(guī)模數(shù)據(jù)上訓練的無條件擴散模型是安全的,因此可以作為安全模型。本文對 Stable Diffusion 進行了全面的實驗,以展示本文的分析方法的有效性。
總的來說,本文的貢獻如下:
- 對文本到圖像擴散模型中的記憶化進行了更實用的分析。本文的分析方法是基于圖像的,不需要收集大量prompt,比基于prompt的分析方法更可靠。
- 提供了文本到圖像擴散模型中記憶化的正式定義,并確定了它的三個條件。然后,本文提出了有效的度量標準和算法來衡量每個條件,最終量化了目標圖像被記憶的程度。
- 通過對 Stable Diffusion 的詳細實驗,本文證明了本文分析方法的可行性,揭示了文本到圖像擴散模型中記憶化的內(nèi)在特性。
背景
Diffusion Model
條件 Diffusion Model
擴散模型可以擴展為條件變體,以在某些輸入條件的指導下生成圖像,例如對象類別、文本prompt等。文本到圖像模型是一種條件擴散模型,允許用戶輸入一些prompt來指示生成圖像的期望內(nèi)容。主要有兩種類型的引導,即分類器引導和無分類器引導。
其中,較大的超參數(shù) ?? 導致生成的圖像與輸入條件更一致。
Text-To-Image Diffusion Model
記憶化的定義
首先本文先正式定義記憶化,然后再與現(xiàn)有的定義進行比較:
定義: 如果在采樣時存在一個prompt,在該prompt的指導下,模型生成的樣本與訓練樣本 ?? 幾乎完全相同的概率顯著,則稱訓練樣本 ?? 被記憶化。所謂幾乎完全相同并不意味著字面上完全相同或在文件系統(tǒng)中逐字節(jié)匹配。它仍然是在感知級別上,但排除了甚至是微小的轉(zhuǎn)換,如視角變化和組件重組。
確切地說,訓練樣本 ??、存在prompt和顯著概率是判斷訓練樣本是否被記憶化的三個條件。為了簡潔起見,本文稱它們?yōu)橄嗨菩?、存在性和概率條件?,F(xiàn)有的研究以不同程度涵蓋了這三個條件。
Carlini 等人提供了一個嚴格的記憶化定義,即如果一個訓練圖像在訓練集中最多出現(xiàn) ?? 次,并且可以通過一些prompt從模型中提取出來,那么它就是重現(xiàn)的記憶化的。如果生成的樣本與訓練樣本完全相同或重現(xiàn)的(下圖 2a),本文都將其視為記憶化。
其他的研究沒有給出正式的定義,并討論了記憶化的更廣泛范圍,以衍生生成的形式,比如部分復制和類似風格的復制(上圖 2b)。將記憶化限制在最極端的情況“完全相同”上具有幾個優(yōu)點。
首先,在圖像生成模型中對衍生行為的訴訟仍處于非常早期的階段。要對其合法性做出決定需要時間。相比之下,“完全相同”的記憶化如果相關圖像受版權或隱私保護,則絕對不被允許。其次,從技術角度來看,擴散模型固有地經(jīng)過訓練以逐像素地復制訓練樣本,就像方程 4 中所示。因此,“完全相同”的記憶化不僅在問題級別上定義,而且可能在模型本身中找到證據(jù)。這使本文能夠利用模型的內(nèi)部統(tǒng)計數(shù)據(jù)來衡量其記憶化問題,而不是依賴外部模型來匹配訓練圖像并生成圖像,后者由于潛在的風險,如對抗性攻擊,可靠性較低。
存在性條件并不是以前的研究關注的問題,因為它們以基于prompt的方式分析記憶化,因此該條件總是滿足的。對于本文的基于圖像的分析,存在性條件很重要,以便能夠揭示現(xiàn)實風險,稍后將討論。
至于概率條件,Carlini 等人在其定義中沒有明確涉及概率條件,但在他們設計的成員推斷攻擊中涉及了概率條件,用于檢測異常prompt,這激發(fā)了本文在本文的定義中加入概率條件。其他的研究并沒有強調(diào)概率。概率條件對于分析記憶化至關重要;正如本文稍后將展示的那樣,擴散模型中可以提取任何樣本,但并非所有樣本都被記憶化。
圖像復制的識別
方法論
實驗設置
結(jié)果
條件 1:相似性。Z0預測誤差符合相似性條件。本文直接利用擴散模型的內(nèi)部預測誤差作為生成圖像和目標圖像之間相似性的指標。本文相信,基于模型自身的功能進行比較比使用粗略的度量 [8] 或外部獨立訓練的模型 [40, 41] 更可靠。
觸發(fā)記憶
識別圖像復制工作在擴散模型部署后起到作用,以防止可能的訓練圖像泄露。圖像生成模型的開發(fā)者在開發(fā)模型過程中對一組敏感圖像進行安全性分析也有很強的動機。這對抗記憶化起到了積極的防御作用。安全性分析的主要目標是確定目標圖像是否被記憶,并量化它們被記憶的程度。作為一種直接的方法,搜索容易生成目標圖像的prompt并不可行,因為這是隨機且費力的。相反,本文提出了一種基于反演的分析方法,無需訪問任何prompt。
對抗記憶化的安全性分析分為兩個步驟。首先,針對每個目標圖像,本文嘗試反演一個輸入prompt,觸發(fā)模型對其進行記憶的行為。本文通過反證驗證,如果一個圖像是安全的,那么不可能反演出一個觸發(fā)其記憶的prompt。其次,本文對無條件擴散模型進行分析,發(fā)現(xiàn)在大規(guī)模數(shù)據(jù)上訓練的無條件擴散模型不會發(fā)生記憶化。因此,它可以作為衡量條件文本到圖像模型安全性的一種防護。
在這一節(jié)中,本文詳細闡述了如何觸發(fā)圖像的記憶化。記憶化的測量將在下一節(jié)中描述。
方法論
為了回答目標圖像是否可以被記憶化的問題,本文嘗試搜索一個可以觸發(fā)生成目標圖像的prompt。這可以通過最小化關于輸入token embedding ??的條件預測誤差的期望來完成。
其中 ?? 是一個超參數(shù),用于控制正則化項的權重。
實驗設置
本文使用了78張記憶圖像和100張來自LAION的隨機采樣正常圖像作為目標圖像集。在所有實驗中,本文不訪問目標圖像的訓練標題。本文使用Adam優(yōu)化器,初始學習率為0.01,不進行衰減。??2-范數(shù)正則化由Adam的內(nèi)部權重衰減實現(xiàn)。?? 設置為0.01。本文使用批量大小為16,并進行500次迭代的優(yōu)化。每個圖像被調(diào)整大小并中心裁剪為512×512,不進行增強。
結(jié)果
請注意,一個prompt ?? 由 ?? 個token embedding組成,每個 embedding代表一個token。穩(wěn)定擴散的文本編碼器默認使用最大長度為 77 個token,其中第一個和最后一個token是填充token,表示prompt的開始和結(jié)束。其余的 75 個token可自由優(yōu)化。
通過將要優(yōu)化的token數(shù)量從 1 調(diào)整到 75,本文發(fā)現(xiàn)在 Webster(46)發(fā)現(xiàn)的 78 個記憶圖像中,有 66 個圖像的記憶可以通過僅優(yōu)化 1 個token來觸發(fā),有 2 個圖像可以通過優(yōu)化 2 個token來觸發(fā),其他 10 個圖像是部分記憶圖像,無論優(yōu)化多少token,如下圖 6 所示。
相比之下,普通圖像的記憶不能通過正則化來觸發(fā)。下圖 7 顯示了記憶圖像和普通圖像的訓練統(tǒng)計數(shù)據(jù),可以看到,對于記憶圖像,預測誤差和正則化項可以同時優(yōu)化到較小的值。相比之下,對于普通圖像,只有token embedding的 ??2-范數(shù)被最小化,而普通圖像的預測誤差仍然很高。這表明,對于普通(未記憶)圖像來說,減小預測誤差和將學習的token與預訓練的token對齊之間的矛盾是無法解決的。因此,對于要保護的目標圖像,如果本文不能優(yōu)化遵循預訓練token embedding分布以減小預測誤差的token embedding,那么本文可以聲明這些圖像沒有被記憶。
對于成功觸發(fā)某些圖像記憶的有效token embedding,學習到的連續(xù)token embedding與離散token之間仍然存在差距。簡單的正則化器,例如本文使用的 ??2-范數(shù)正則化器,并不保證學習到的連續(xù)token embedding可以投影到現(xiàn)實token。這是具有挑戰(zhàn)性的,因為連續(xù) embedding空間中有無限多個點,其中的一個子集比可能的硬prompt具有更低的誤差。
token embedding可能被過度優(yōu)化到產(chǎn)生較低誤差但不對應于任何token prompt的區(qū)域。此外,基于貪婪算法的現(xiàn)有硬prompt調(diào)整方法不適用于搜索觸發(fā)目標圖像記憶的prompt,因為本文觀察到觸發(fā)記憶的prompt并不一定具有貪婪性質(zhì)。
為了解決這個問題,本文提出了一種簡單但有效的算法來優(yōu)化觸發(fā)記憶的硬prompt,如算法 1 所示。算法 1 在 ?? 個集合的笛卡爾積中執(zhí)行暴力搜索,每個集合包含與學習到的token embedding距離最小的 ?? 個候選token。最優(yōu)prompt是具有最小預測誤差的prompt。該算法的有效性在很大程度上取決于初始化,這是硬prompt調(diào)整中的一個常見問題。本文對不同的初始化重復執(zhí)行算法 1 最多 20 次。本文將本文的算法與兩種硬prompt調(diào)整算法 AUTOPROMPT 和 PEZ 進行了比較。要優(yōu)化的token數(shù)量設置為 3。對于 20 個倒置prompt,本文選擇預測誤差最低的一個進行說明。圖 8 展示了 2 個成功的倒置示例。
本文的硬prompt倒置算法成功地倒置了一個觸發(fā)記憶的prompt。這反映出記憶只由幾個關鍵token決定(在示例中為 3 個token)。它還反映出導致訓練圖像復制的prompt并不是唯一的。關鍵token的位置可能不同。如示例所示,三個詞 "limits"、"business" 和 "podcast" 分別是第 3、4 和 6 個。將它們移到prompt的開頭并不會產(chǎn)生影響,就像本文所倒置的那樣。然而,token的順序并不總是沒有影響的。將prompt排列為 "businesses limits podcast" 將無法觸發(fā)記憶。這解釋了為什么硬prompt倒置對初始化狀態(tài)敏感。僅僅通過梯度下降來約束倒置token的位置是困難的。
相比之下,AUTOPROMPT 和 PEZ 在記憶的prompt倒置方面不起作用。這表明,與它們最初的應用相比,在記憶的prompt倒置方面比語義理解任務更困難。本文觀察到觸發(fā)記憶的prompt并沒有貪婪可解的屬性,因此它們無法被 AUTOPROMPT 和 PEZ 找到。具體地,本文將prompt初始化為 "limits business",然后對 AUTOPROMPT 和 PEZ 進行運行,搜索第三個token "podcast"。如果它是貪婪可解的,AUTOPROMPT 和 PEZ 將保持前兩個詞不變,并找到最后一個詞 "podcast"。然而,它們逐漸改變了前兩個詞,并沒有收斂。
由于這個困境,連續(xù)的token embedding在后續(xù)的測量中被采用。雖然連續(xù)的token embedding并不嚴格滿足潛在記憶圖像的存在條件,但本文希望澄清,出于兩個原因,將它們用于測量是合理的。首先,對于潛在的記憶圖像,通過正則化反轉(zhuǎn)的連續(xù)token embedding足以表明記憶已經(jīng)發(fā)生。其次,對于普通圖像,反轉(zhuǎn)硬prompt對它們來說是沒有意義的。無論如何將優(yōu)化的token embedding投影到硬prompt中都會引入額外的誤差到測量中。
測量記憶力
無條件 Model
無條件模型是文本到圖像模型的一部分,并在采樣時用作懲罰(參見前文)。它之所以可能不受記憶影響,有以下幾個原因。首先,無條件模型是訓練來最大化數(shù)據(jù)分布的可能性,沒有任何外部指導(在 Stable Diffusion 中為空字符串)。只有在無條件模型頻繁生成特定圖像時,即表現(xiàn)空間崩潰的形式,記憶才會發(fā)生。然而,擴散模型的一個優(yōu)點是在訓練中的穩(wěn)定性,沒有發(fā)現(xiàn)任何崩潰。其次,在觀察到記憶是由于對圖像-prompt對的過度擬合引起的的情況下,無條件模型沒有過擬合的機會,因為其訓練數(shù)據(jù)由圖像-空對組成,形成了多對一的對應關系。最后,Somepalli 等人發(fā)現(xiàn),當訓練數(shù)據(jù)的數(shù)量足夠大時,無條件擴散模型不會復制訓練圖像,而只會生成類似的圖像。
對于無條件模型,本文使用方程 10 進行噪聲倒置,有或沒有 KL 散度正則化項。結(jié)果可以在下圖 11 和下圖 12 中找到。
測量
結(jié)果。 下圖 14 展示了記憶圖像和普通圖像的預測誤差分布的示例。記憶圖像的條件誤差分布與無條件誤差分布之間存在明顯的間隙。然而,普通圖像的條件誤差分布與其無條件誤差分布糾纏在一起。下圖 15 展示了所有測試圖像的 Wasserstein 距離分布。與普通圖像相比,記憶圖像呈現(xiàn)出明顯更大的 Wasserstein 距離。
回顧一下,測試集中存在部分記憶圖像。本文發(fā)現(xiàn),與其他完全記憶圖像相比,這些圖像對應的距離較低,如下圖 16 所示。這表明本文的測量方法能夠量化圖像被記憶的程度,而不僅僅是簡單地區(qū)分記憶圖像和普通圖像。
相關工作
圖像生成模型中的記憶化
以前,在圖像生成模型中,例如 GAN 和 VAE,記憶化曾經(jīng)引起了關注,主要集中在無條件生成類型上。已經(jīng)有研究關于訓練算法和評估指標,以提高 GAN 的泛化能力,擺脫對訓練數(shù)據(jù)的簡單復制。已經(jīng)表明,小數(shù)據(jù)量或訓練時間過長可能導致 GAN 中的記憶化。 Van der Burg 等人測量 VAE 中的記憶化,方法是移除訓練集中的一個樣本后觀察概率的變化。
對于擴散模型,Vyas 等人提出了一種版權保護方法,以防止復制敏感的訓練圖像。該模型被訓練以匹配一個不使用敏感數(shù)據(jù)進行訓練的安全模型。Carlini 等人和 Somepalli 等人表明,記憶化也發(fā)生在文本到圖像的擴散模型中。通過成員推斷攻擊或使用圖像檢索模型搜索最相似的訓練圖像,從眾多生成的樣本中發(fā)現(xiàn)了記憶圖像。Webster提供了從文本到圖像模型中提取訓練圖像的更有效的攻擊方法。隨后,Wen 等人關注觸發(fā)生成訓練圖像的異常prompt的檢測。與這些工作相比,本文對訓練圖像的記憶化進行了實際分析,無需訪問任何prompt。本文的分析不僅能夠找到記憶圖像,還提供了定量的測量,并允許開發(fā)者對普通圖像進行安全聲明。
擴散模型中的反演技術
擴散模型中的反演技術主要用于圖像編輯。通過反演,源圖像中包含的對象、風格和概念可以被壓縮到潛在的噪聲或輸入token embedding中。然后,利用反演的潛在噪聲或輸入token embedding生成保留所需內(nèi)容的新圖像。
本文利用類似的反演技術來分析擴散模型中的訓練圖像記憶化。與實用性不同,本文更注重反演信號的規(guī)律性,這對于識別記憶圖像至關重要。在這個意義上,記憶圖像是一個“自然”可反演的類別。
討論和總結(jié)
在這項工作中,本文對文本到圖像擴散模型中的記憶化進行了實際分析。本文的分析針對一組圖像,測量它們被記憶的程度,無需收集大量prompt。本文首先提供了訓練圖像記憶化的正式定義,并確定了說一個圖像被記憶的三個條件。本文展示了模型內(nèi)部的預測誤差是訓練圖像復制的一個強有力指標?;诖?,分析觸發(fā)記憶的prompt的存在通過反轉(zhuǎn)一系列token embedding進行。本文強調(diào)了反演驗證中正則化的重要性。此外,本文提出了一種正則化的噪聲反演方法,以驗證在大規(guī)模數(shù)據(jù)上訓練的無條件擴散模型是否安全免受記憶化的影響?;隍炞C,測量圖像被記憶的程度是通過無條件誤差和條件誤差之間的分布轉(zhuǎn)移來衡量的。在實踐中,文本到圖像擴散模型的開發(fā)者可以利用本文的分析方法對一組敏感的訓練圖像進行安全性分析。
本文的方法使開發(fā)者能夠發(fā)現(xiàn)潛在的記憶化風險,并及時修復,或者負責地向數(shù)據(jù)提供者聲明對記憶化的安全性。本文從記憶化的角度研究了擴散模型中訓練數(shù)據(jù)的安全性。未來,還需要對更廣泛范圍的情況進行分析。
防御不安全的衍生生成。 擴散模型生成的大多數(shù)圖像都不僅僅是訓練圖像的副本,這被稱為衍生生成。其中,已經(jīng)發(fā)現(xiàn)了相當多的倫理威脅,包括偏見、色情、暴力等。通過編輯方法和幾幅圖像,擴散模型也可以用于生成個人人類照片的變體和模仿藝術家的作品。過去,大部分的防止不安全生成的努力都集中在訓練數(shù)據(jù)清洗和有毒內(nèi)容檢測上。盡管如此,仍然可能通過視覺同義詞或看似無害的prompt來引導它們的產(chǎn)生。為了更可靠地防御不安全的衍生生成,提高擴散模型潛在空間的可解釋性將是有益的。本文尚未完全理解擴散模型潛在空間的語義結(jié)構(gòu)。設計訓練算法,將人類的倫理觀念與擴散模型潛在空間對齊,將是一個有趣的方向。
限制。 本文的工作有兩個限制。首先,盡管本文的hard prompt反演算法在分析記憶化方面比現(xiàn)有的hard prompt調(diào)整方法更有效,但并不適用于所有的記憶化圖像,特別是那些需要更多關鍵token才能觸發(fā)的圖像。在實踐中,如果有一個示例的hard prompt可用,那將提供更強的證據(jù)。本文希望能夠設計更穩(wěn)定和有效的用于分析記憶化的hard prompt反演算法。第二,本文僅針對無條件和文本到圖像擴散模型提供了安全性分析方法。還應對其他類型的條件模型以及相應的正則化方法進行更全面的調(diào)查。盡管存在這些限制,但本文相信本文的方法為開發(fā)者優(yōu)化其模型提供了實用的安全性分析工具。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhe Ma等
