自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!

發(fā)布于 2024-10-28 15:08
瀏覽
0收藏

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.08207
項目鏈接:https://hexiaoxiao-cs.github.io/DICE/

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

亮點直擊

  • 引入了DICE,一種用于離散擴散模型(包括多項擴散和mask生成模型)的反演算法。通過記錄并注入噪聲序列或mask模式,DICE能夠在無需預定義mask或注意力操作的情況下,實現(xiàn)對離散數(shù)據(jù)的精確重構(gòu)和可控編輯。
  • 通過在圖像和文本兩種模態(tài)上的全面實驗驗證了DICE的有效性,展示了其在不同類型的離散生成模型中的通用性。
  • 證明了該方法可以將主要用于理解任務(如RoBERTa)的模型轉(zhuǎn)化為具有競爭力的文本生成和編輯生成模型,展示了擴展離散擴散模型至新應用的潛力。

總結(jié)速覽

解決的問題:
離散擴散模型雖然在圖像生成和mask語言建模等任務中取得了成功,但在精確控制內(nèi)容編輯方面存在局限性。當前方法無法實現(xiàn)對離散數(shù)據(jù)的靈活編輯和準確重構(gòu)。

提出的方案:
提出了DICE(可控編輯的離散反演),這是首個針對離散擴散模型(包括多項擴散和mask生成模型)的精確反演方法。DICE通過記錄在反向擴散過程中的噪聲序列和mask模式,實現(xiàn)了無需預定義mask或注意力操作的精確重構(gòu)和靈活編輯。

應用的技術:
DICE 方法利用了在反向擴散過程中記錄的噪聲序列和mask模式,應用于離散數(shù)據(jù)的精確反演和可控編輯。其評估對象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越圖像和文本領域。

達到的效果:
DICE 保留了較高的數(shù)據(jù)保真度,并增強了離散空間中細粒度的內(nèi)容編輯能力,展示了在圖像和文本領域的有效性,提供了新的內(nèi)容操控機會。

方法

可控編輯離散反演

基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定義了一個ODE軌跡。由于ODE的確定性特性,可以通過使用歐拉法在正向方向上求解ODE來實現(xiàn)反演,確保根據(jù)ODE的固有性質(zhì)進行重構(gòu)。相比之下,另一類研究關注基于SDE的模型,如CycleDiffusion和DDPM Inversion。廣義上講,這些方法通過記錄噪聲或殘差來確保重構(gòu),這些噪聲或殘差是重現(xiàn)隨機軌跡所需的。CycleDiffusion 在從后驗進行采樣時記錄高斯噪聲,并通過輸入真實的來注入信號信息。另一方面,DDPM Inversion通過將反演過程擬合到由獨立的采樣得到的人工隨機軌跡中,將信息引入。對于CycleDiffusion和DDPM Inversion,兩者的關鍵思想是利用高斯重參數(shù)化技巧,,并跟蹤“噪聲”,這些噪聲可能是從均值生成樣本的來源。對于離散擴散模型,我們使用Gumbel-Max技巧,。下圖2提供了所提方法的直觀解釋。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

多項擴散的反演:類似于Huberman-Spiegelglas et al.,首先通過從進行獨立的采樣,得到一個隨機軌跡序列 (沿著的維度填充以下采樣操作)。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

請注意,在此使用了Gumbel Softmax技巧,這等同于從類別分布中采樣。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

請注意,此處的潛在變量。


在這個反演過程中,潛在空間與固定的離散擴散模型一起唯一地定義了相同的隨機軌跡。詳細算法見算法2。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

反演mask生成模型:在mask生成建模中,隨機軌跡是根據(jù)所使用模型的特定推理算法構(gòu)建的。例如,在Paella中,mask是包含性的,這意味著隨著時間步的增加,被掩蓋的tokens集合會增加。相比之下,Unleashing Transformer在每一步采用隨機mask,其中mask是通過采樣函數(shù)獨立生成的。為簡便起見,定義一個去噪函數(shù)(由參數(shù)化)。該去噪函數(shù)根據(jù)噪聲token 輸出預測的未掩蓋數(shù)據(jù)的logits。由于在這種情況下,分類采樣發(fā)生在對去噪器預測的采樣中,因此我們定義一個相應的潛在序列。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

通過潛在空間,保證了準確的重構(gòu)。然而,對于編輯任務而言,如果潛在變量主導了生成過程,這種精確度可能并不理想。詳細算法見下算法1。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

為了提供更多靈活性,引入超參數(shù)、和,它們允許對編輯過程進行更精細的控制。具體來說,表示編輯過程開始時(也是最大)時間步,控制從原始輸入中注入的信息量,而則管理隨機噪聲的引入。


分析:描述一個簡單但典型的DDPM示例,并計算編碼潛變量與輸入信號之間的互信息。

備注 3.1:給定一個簡單的高斯DDPM,,潛變量通過DDPM反演獲得 (Huberman-Spiegelglas et al., 2024),則與之間的互信息為:

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

與之間的互信息在圖3中進行了說明。觀察到,從編碼到的信息量隨著的增加而減少,這促使我們探索不同的調(diào)度策略(見下圖7)。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

實驗

本節(jié)展示了反演方法在圖像和語言擴散模型上的有效性。實驗表明,這些方法能夠在視覺和語言任務中保持身份,同時成功進行預期的更改。

圖像擴散模型

對于圖像擴散模型,主要研究吸收狀態(tài)離散模型,包括一個mask生成模型Paella和一個多項式擴散模型VQ-Diffusion。我們展示了DICE在兩個類別中的反演重構(gòu)能力和圖像編輯性能。


數(shù)據(jù)集:由Ju等提出的基于提示的圖像編輯基準(PIE-Bench)是一個最近推出的數(shù)據(jù)集,旨在評估文本到圖像(T2I)編輯方法。該數(shù)據(jù)集在9種不同場景中評估語言引導的圖像編輯,共有700幅圖像?;鶞实脑敿氉⑨尯透鞣N編輯任務對于全面評估我們方法的能力至關重要,確保與現(xiàn)有方法的公平一致的比較。

反演重構(gòu)

本節(jié)評估不進行編輯時的反演準確性。這是通過首先反轉(zhuǎn)圖像,然后使用記錄的潛在編碼重構(gòu)原始圖像來實現(xiàn)的。


評估指標:在此,評估DICE和掩蔽生成下原始圖像與生成圖像的圖像相似性,指標包括PSNR、LPIPS、MSE和SSIM。


定量分析:本文的方法的重構(gòu)性能,如下表1所示,遠遠超過了基線插補 + Paella模型的所有指標。在掩蔽插補的情況下,所有圖像token都被隨機抽樣的token替換,意味著模型缺乏關于原始圖像的任何先驗信息。因此,重構(gòu)圖像與被反轉(zhuǎn)的圖像存在顯著差異,導致相似性評分較低。相比之下,本文的方法展示了近乎完美的重構(gòu),正如指標所示,顯著生成了一幅與原圖完全相同的圖像,而不會引入VQ-VAE/GAN量化過程通常帶來的錯誤,如(?)token的結(jié)果所示。這突顯了本文的方法在生成高保真重構(gòu)方面的卓越準確性和一致性。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

編輯性能

本節(jié)討論本文提出的方法的編輯性能。由于不存在離散擴散反演,因此將本文的方法與原文中指出的掩蔽生成進行比較。此外,還展示了來自連續(xù)模型的指標。


評估指標:為了展示我們提出的反演方法的有效性和效率,采用了涵蓋三個關鍵方面的八個指標:結(jié)構(gòu)距離、背景保留和編輯提示與圖像的一致性,如Ju等(2023)所述。利用Tumanyan等(2023)提出的結(jié)構(gòu)距離指標來測量原始圖像和生成圖像之間的結(jié)構(gòu)相似性。為了評估背景在標注的編輯掩膜之外的保留效果,我們使用峰值信噪比(PSNR)、學習感知圖像塊相似性(LPIPS)、均方誤差(MSE)和結(jié)構(gòu)相似性指數(shù)(SSIM)。還使用CLIP相似性得分來評估編輯提示與生成圖像之間的一致性,該得分是在整幅圖像和由編輯掩膜定義的區(qū)域內(nèi)計算的。


結(jié)果:下表2展示了使用Paella和VQ-Diffusion的DICE定量結(jié)果,并與連續(xù)擴散模型以及插補進行了比較。值得注意的是,本文的方法在Paella模型下實現(xiàn)了最低的結(jié)構(gòu)距離11.34,超越了包括連續(xù)擴散模型在內(nèi)的所有其他方法。此外,雖然Stable Diffusion v1.4的DDPM反演在整體和編輯區(qū)域的CLIP相似性得分中顯示出最高,但本文的方法與Paella保持了競爭力的CLIP相似性??紤]到結(jié)構(gòu)距離的顯著降低,本文的方法在結(jié)構(gòu)保留和語義對齊的平衡上表現(xiàn)出色。此外,結(jié)合VQ-Diffusion后,本文的方法繼續(xù)展現(xiàn)出強勁的性能。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

表3中的結(jié)果清晰地展示了本文的方法在背景保留能力上優(yōu)于DDIM+SDv1.4。所有四個指標強調(diào)了本文的方法在保留圖像未編輯區(qū)域的結(jié)構(gòu)一致性。這些結(jié)果展示了本文的方法在編輯過程中保持背景完整性的有效性,并提供了原始圖像信息注入DICE潛在空間的證據(jù)。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

圖下4展示了使用DICE的Paella和VQ-Diffusion的編輯結(jié)果。兩個模型都成功地根據(jù)目標提示修改了真實圖像。在所有情況下,我們的結(jié)果都展現(xiàn)出對輸入圖像的高保真度和對目標提示的遵循。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

語言擴散模型

研究者們在RoBERTa上評估DICE,這是一種文本離散擴散模型,用于生成對立情感的句子,同時保留結(jié)構(gòu)相似性。我們從兩個提示開始——一個是積極情感,另一個是消極情感。每個提示包含兩個句子:第一個句子指示情感類型并設置上下文背景,第二個句子是反轉(zhuǎn)和生成的目標。最初,我們使用整個提示作為上下文,反轉(zhuǎn)消極情感提示的第二個句子,生成該句子的噪聲標記表示。接下來,我們通過將積極情感提示的第一個句子與反轉(zhuǎn)的消極句子的噪聲標記拼接在一起,來對模型進行條件設置。這一設置引導模型生成一新第二句,該句反映了原始消極句的結(jié)構(gòu),但表達積極情感。


評估模型在保持原始句子結(jié)構(gòu)元素的同時,反轉(zhuǎn)并生成與指定情感一致的文本的能力。

反演過程

實驗中,特別關注于反轉(zhuǎn)第二個句子(在下表6中以紅色標出),同時保持第一個句子(黑色)不變,因為它通常包含重要的上下文信息。在反演過程中,我們的目標是通過從反轉(zhuǎn)階段獲得的噪聲標記中恢復第二個句子,以進行重建/編輯。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

數(shù)據(jù)集生成

為了評估編輯性能,設計并提出了一個新數(shù)據(jù)集,稱為情感編輯(Sentiment Editing)。該數(shù)據(jù)集的目標是在保持句子結(jié)構(gòu)的同時編輯句子的情感,并且遵循句子的主題。這里展示了數(shù)據(jù)集中兩組句子。

反演重建

與圖像生成部分類似,首先展示所提方法的反演和重建能力。該過程包括反演句子,然后使用相同的提示生成第二個句子的重建版本。


評估指標對于重建,使用命中率(Hit Rate),定義為每種方法生成與原句相同的句子的比例。此外,我們計算語義文本相似度(Semantic Textual Similarity,STS)得分,通過測量句子嵌入之間的余弦相似度,使用Reimers等人(2019)提出的模型。


定量分析下表4比較了DICE與使用RoBERTa的mask生成在兩個指標上的表現(xiàn):準確率和語義文本相似度。我們的方 法在這兩個指標上顯著超過了mask生成,證明我們的zt潛在空間有效捕捉了被反演句子的信息,并促進了其后續(xù)的重建。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

句子編輯

在這一部分,我們評估所提反演方法在RoBERTa上的編輯性能。在表6中,負向提示列下以黑色顯示的句子是在反演過程中輸入的。被反演的句子以紅色顯示。對于編輯,提示隨后被替換為右側(cè)的黑色句子,并在末尾添加噪聲以進行正向過程。正向過程中噪聲的輸出以藍色呈現(xiàn)。

評估指標

對于句子編輯任務,我們根據(jù)兩個標準評估生成的句子:(1) 結(jié)構(gòu)保留,評估句子的結(jié)構(gòu)是否得以保留,(2) 情感正確性,評估編輯后句子的情感是否與原始提示的情感一致。結(jié)構(gòu)保留率和情感正確率均使用ChatGPT-4作為分類器進行計算。關于使用ChatGPT進行評估的詳細信息可以在補充材料中查看。


結(jié)果下表5展示了兩種文本編輯方法的比較分析,這兩種方法均采用RoBERTa,重點關注在結(jié)構(gòu)保留和情感正確性方面的有效性。我們的方 法在這兩個指標上顯著優(yōu)于mask生成。這一差異突顯了我們反演方法在潛在空間中編碼原始文本結(jié)構(gòu)的卓越能力,以及更準確地調(diào)整情感的靈活性。

靈活精確可控編輯!Dice:首個離散擴散模型精確反演方法!-AI.x社區(qū)

前面表6展示了初始提示和編輯結(jié)果。本文的方法在保留負向提示的句子結(jié)構(gòu)的同時,將其情感修改為更積極的情感。

結(jié)論

DICE(可控編輯的離散反演),一種用于離散擴散模型的反演算法,包括多項式擴散和mask生成模型。通過在逆擴散過程中利用記錄的噪聲序列和mask模式,DICE實現(xiàn)了對離散數(shù)據(jù)的準確重構(gòu)和靈活編輯,而無需預定義的mask或交叉注意力操作。在多個模型和模態(tài)(如圖像和文本)上的實驗展示了DICE在保持數(shù)據(jù)保真度的同時增強編輯能力的有效性。此外,還展示了DICE將RoBERTa這一傳統(tǒng)上專注于數(shù)據(jù)理解的模型轉(zhuǎn)變?yōu)槲谋旧珊途庉嫷纳赡P偷臐摿ΑN覀兿嘈?,DICE增強了離散生成模型的能力,為在離散空間中的精細內(nèi)容操控提供了新的機會。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QDWlWAg4RlvFJla0qJyXBw???

收藏
回復
舉報
回復
相關推薦