自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定

發(fā)布于 2024-12-9 10:04
瀏覽
0收藏

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

論文鏈接:https://arxiv.org/abs/2411.07132GitHub鏈接:https://github.com/hutaiHang/ToMe

亮點(diǎn)直擊

  • 分析了語(yǔ)義綁定問(wèn)題,重點(diǎn)討論了[EOT]token的作用,以及跨注意力圖錯(cuò)位的問(wèn)題。此外,探索了token可加性作為一種可能的解決方案。
  • 提出了一種無(wú)訓(xùn)練方法——token合并,簡(jiǎn)稱ToMe,作為一種更高效且穩(wěn)健的語(yǔ)義綁定解決方案。通過(guò)引入提出的結(jié)束token替代和迭代復(fù)合token更新技術(shù),ToMe得到了進(jìn)一步增強(qiáng)。
  • 在廣泛使用的T2I-CompBench基準(zhǔn)和GPT-4o對(duì)象綁定基準(zhǔn)上進(jìn)行的實(shí)驗(yàn)中,將ToMe與多種最先進(jìn)的方法進(jìn)行了比較,并始終在性能上大幅領(lǐng)先。

研究背景

近年來(lái),隨著深度學(xué)習(xí)和人工智能技術(shù)的飛速發(fā)展,文本生成圖像(Text-to-Image, T2I)模型在圖像生成領(lǐng)域取得了顯著的進(jìn)展。特別是擴(kuò)散模型(Diffusion Models)的出現(xiàn),使得T2I模型能夠根據(jù)文本提示生成高質(zhì)量、高分辨率的圖像。這些模型在藝術(shù)創(chuàng)作、設(shè)計(jì)、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域展現(xiàn)了巨大的應(yīng)用潛力。然而,盡管T2I模型在生成圖像方面表現(xiàn)出色,但在將文本提示中的語(yǔ)義信息準(zhǔn)確映射到圖像中仍然存在挑戰(zhàn)。 例如,在多對(duì)象生成中,prompt中的每個(gè)對(duì)象都有自己對(duì)應(yīng)的子屬性(用來(lái)修飾這個(gè)對(duì)象的形容詞或者名詞子對(duì)象),但現(xiàn)有的模型難以將文本中的對(duì)象與其屬性或相關(guān)子對(duì)象正確關(guān)聯(lián),表現(xiàn)為錯(cuò)誤的綁定或者屬性的丟失。我們將這一問(wèn)題稱為語(yǔ)義綁定(Semantic Binding),

如下圖所示,當(dāng)提示詞為“一只戴著帽子的狗和一只戴著太陽(yáng)鏡的貓”時(shí),生成的圖像可能會(huì)出現(xiàn)帽子戴在貓頭上,太陽(yáng)鏡戴在狗頭上的錯(cuò)誤情況。這種錯(cuò)誤不僅影響了圖像的視覺(jué)效果,也限制了T2I模型在實(shí)際應(yīng)用中的可靠性和實(shí)用性。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

為了解決這一問(wèn)題,研究者們提出了多種方法,包括優(yōu)化潛在表示、通過(guò)布局先驗(yàn)引導(dǎo)生成過(guò)程,以及對(duì)T2I模型進(jìn)行微調(diào)等。然而,這些方法往往需要大量的計(jì)算資源和復(fù)雜的訓(xùn)練過(guò)程,且在處理復(fù)雜場(chǎng)景(如多個(gè)對(duì)象和多個(gè)屬性)時(shí)仍然存在局限性。因此,開(kāi)發(fā)一種高效、無(wú)需訓(xùn)練且能夠有效解決語(yǔ)義綁定問(wèn)題的方法,成為了當(dāng)前研究的重要方向。

研究動(dòng)機(jī)

文本嵌入的信息耦合

在處理包含多個(gè)對(duì)象的prompt時(shí),以往基于布局先驗(yàn)的方法會(huì)首先使用LLM生成合理的圖像布局,例如將圖像劃分為不同的子區(qū)域,每個(gè)子區(qū)域只關(guān)注prompt中的單個(gè)對(duì)象。通過(guò)這種規(guī)劃-生成來(lái)增強(qiáng)語(yǔ)義對(duì)齊。但盡管規(guī)劃好了不同子區(qū)域與原始prompt中不同對(duì)象的text embedding進(jìn)行cross attention,但不同子區(qū)域間還是會(huì)出現(xiàn)屬性泄露等情況,把和一個(gè)對(duì)象不相關(guān)的屬性綁定到這個(gè)對(duì)象上。我們認(rèn)為,這是由于用來(lái)調(diào)制不同子區(qū)域的text embeeding本身的信息耦合導(dǎo)致的。例如,對(duì)于“a cat wearing sunglasses and a dog with hat”這個(gè)prompt,其在經(jīng)由CLIP編碼后得到text embedding。原始的擴(kuò)散模型使用全部text token的text embedding作為cross-attention模塊的輸入,我們發(fā)現(xiàn)當(dāng)僅僅使用此時(shí)的單個(gè)‘dog’token的text embedding時(shí),產(chǎn)生的圖像內(nèi)容也是一個(gè)帶了眼鏡的狗。如果使用EOT token(End of Text,即每個(gè)句子末尾被padding的結(jié)束符)的text embedding,此時(shí)產(chǎn)生的圖像和使用全部的text token產(chǎn)生的圖像內(nèi)容基本一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

這可能是由于CLIP的causal masked attention導(dǎo)致的,每個(gè)text token都可以和它前面的所有token進(jìn)行self-attention,這導(dǎo)致前面的文本信息會(huì)不可避免的傳遞到后面的token中,而EOT token會(huì)包含全部的語(yǔ)義信息。我們認(rèn)為,這種text embedding層次上的信息泄露導(dǎo)致不同對(duì)象之間屬性的混淆。

文本嵌入的可加性

此外,我們還發(fā)現(xiàn)了文本嵌入的可加性。如下圖所示,把兩個(gè)單獨(dú)編碼后的text embedding相加得到一個(gè)新的復(fù)合token的embedding,之后輸入到擴(kuò)散模型中,產(chǎn)生的圖像可以合理的組合兩個(gè)不同prompt的內(nèi)容。例如,下圖a的左上部分,[dog+hat]生成了一只戴帽子的狗。這種可加性還可以用于移除對(duì)象(下圖a,右上、左下部分),甚至執(zhí)行復(fù)雜的語(yǔ)義計(jì)算(下圖a,右下)。為探究這一現(xiàn)象背后的機(jī)制,我們對(duì)每個(gè)提示詞的token表示進(jìn)行了PCA 降維可視化,下圖b 所示。從“queen-king” 獲得的方向向量與“woman-man” 的方向向量幾乎相同,余弦相似度為0.998

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

研究方法

因此,為了解決文本生成圖像(T2I)模型中的語(yǔ)義綁定問(wèn)題,關(guān)鍵是如何獲得一個(gè)更干凈的text embedding表征,同時(shí)使得擴(kuò)散模型意識(shí)到prompt的語(yǔ)法結(jié)構(gòu),把每個(gè)對(duì)象及其相關(guān)屬性綁定。我們提出了一種名為token合并(Token Merging, ToMe)的新方法。ToMe的核心思想是通過(guò)將相關(guān)的token聚合為一個(gè)復(fù)合token,從而增強(qiáng)語(yǔ)義綁定。具體來(lái)說(shuō),ToMe由兩部分組成:token合并與結(jié)束token替換,以及通過(guò)兩個(gè)輔助損失進(jìn)行推理時(shí)復(fù)合token迭代更新。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

  • token合并與結(jié)束token替換 我們以“a cat wearing sunglasses and a dog with hat”這個(gè)prompt為例進(jìn)行說(shuō)明,具體步驟如下:
  • 對(duì)象token合并:對(duì)于包含多個(gè)對(duì)象的提示詞,我們將每個(gè)對(duì)象及其相關(guān)屬性token的text embedding相加,生成一個(gè)復(fù)合token。例如,對(duì)于提示詞“a dog with hat”,我們將“dog”和“hat”的文本嵌入相加,生成一個(gè)表征“戴著帽子的狗”這個(gè)語(yǔ)義的復(fù)合token [dog*]。
  • 結(jié)束token替換(End Token Substitution, ETS):由于結(jié)束token([EOT])中包含的語(yǔ)義信息可能干擾屬性的表達(dá),我們通過(guò)替換[EOT]來(lái)減輕這種干擾,保留每個(gè)主體的語(yǔ)義信息。例如,當(dāng)提示詞為“a cat wearing sunglasses and a dog with hat”時(shí),我們使用來(lái)自提示詞“a cat and a dog”的[EOT]來(lái)替換原有的[EOT]。

通過(guò)上述步驟,我們生成了一個(gè)統(tǒng)一的文本嵌入,其中每個(gè)對(duì)象及其屬性由一個(gè)復(fù)合token表示,并且通過(guò)替換[EOT]保留了每個(gè)主體的語(yǔ)義信息。Token合并使得每個(gè)對(duì)象及其屬性共享同一個(gè)cross-attention map,顯式的綁定了每個(gè)對(duì)象及其屬性,使它們?cè)谏蛇^(guò)程中共表達(dá)。

  • 復(fù)合token迭代更新 為了進(jìn)一步優(yōu)化T2I生成的初始階段(即布局確定階段),我們引入了兩個(gè)輔助損失:熵?fù)p失和語(yǔ)義綁定損失。這些損失會(huì)在推理過(guò)程中迭代更新復(fù)合token,以提升生成的完整性。
  • 熵?fù)p失(Entropy Loss):每個(gè)token的cross-attention map可以看作一個(gè)概率分布,這個(gè)分布的信息熵較大則說(shuō)明這個(gè)token關(guān)注的區(qū)域較為發(fā)散。我們計(jì)算每個(gè)token對(duì)應(yīng)的交叉注意力圖的熵值,并將其作為損失函數(shù)的一部分。通過(guò)最小化熵?fù)p失,我們確保每個(gè)token專注于其指定的區(qū)域,從而防止交叉注意力圖過(guò)于分散。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

  • 語(yǔ)義綁定損失(Semantic Binding Loss):語(yǔ)義綁定損失鼓勵(lì)復(fù)合token推斷出與原始對(duì)應(yīng)短語(yǔ)相同的噪聲預(yù)測(cè),從而進(jìn)一步加強(qiáng)文本與生成圖像之間的語(yǔ)義一致性。具體來(lái)說(shuō),我們使用一個(gè)干凈的提示詞作為監(jiān)督信號(hào),確保復(fù)合token的語(yǔ)義準(zhǔn)確對(duì)應(yīng)它們代表的名詞短語(yǔ)。通過(guò)最小化語(yǔ)義綁定損失,我們確保復(fù)合token的語(yǔ)義信息與原始提示詞一致。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

實(shí)驗(yàn)

我們?cè)赥2I-CompBench基準(zhǔn)上進(jìn)行了定量比較,結(jié)果如表1所示。ToMe在顏色、紋理和形狀屬性綁定子集中,BLIP-VQA分?jǐn)?shù)上始終優(yōu)于或與現(xiàn)有方法相當(dāng),表明其可以有效地避免屬性混淆。通過(guò)ImageReward模型評(píng)估的人類偏好得分表明,由ToMe生成的圖像更能與提示詞對(duì)齊。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

定性比較結(jié)果如下圖所示:

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

ToMe在名詞子對(duì)象和屬性綁定場(chǎng)景下表現(xiàn)出色,這與表1中反映的定量指標(biāo)一致。具體來(lái)說(shuō),ToMe能夠有效地避免提示詞中的語(yǔ)義泄漏,確保每個(gè)對(duì)象與其屬性正確關(guān)聯(lián)。例如,在提示詞“一只戴著帽子的狗和一只戴著太陽(yáng)鏡的貓”中,ToMe生成的圖像中帽子正確地戴在狗頭上,太陽(yáng)鏡正確地戴在貓頭上。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

消融實(shí)驗(yàn)結(jié)果如表2所示。我們可以觀察到,僅使用token合并技術(shù)(Config B)帶來(lái)了輕微的性能提升,這與上圖中的定性結(jié)果一致。然而,token合并是后續(xù)優(yōu)化的基礎(chǔ)。當(dāng)它們與熵?fù)p失結(jié)合使用(Config C)時(shí),性能顯著提升。我們推測(cè)部分原因是由于交叉注意力圖更加規(guī)范化,如圖7所示。然而,Config C在沒(méi)有語(yǔ)義綁定損失的情況下,仍然導(dǎo)致生成性能較差,如圖6所示,右側(cè)的狗仍然表現(xiàn)出類似貓的特征。加入語(yǔ)義對(duì)齊損失可以確保兩個(gè)主體正確綁定到各自的屬性上,而不會(huì)出現(xiàn)外觀混淆,從而在定量和定性上取得最佳結(jié)果。如果忽略token合并并僅應(yīng)用優(yōu)化(Config D和Config E),其性能僅與基線相當(dāng),這表明token合并是后續(xù)優(yōu)化的基礎(chǔ)。移除熵?fù)p失(Config F)也可以改善基線,但生成結(jié)果中會(huì)有明顯的偽影,這主要是因?yàn)榻徊孀⒁饬D缺乏足夠的正則化。綜上所述,ToMe中這三種新技術(shù)的每個(gè)元素都對(duì)實(shí)現(xiàn)最先進(jìn)的性能做出了貢獻(xiàn)。

結(jié)論與展望

在本文中,我們研究了文本生成圖像(T2I)模型中的一個(gè)關(guān)鍵難題,即語(yǔ)義綁定。該難題指的是T2I模型難以準(zhǔn)確理解并將相關(guān)語(yǔ)義正確映射到圖像。我們發(fā)現(xiàn)了文本嵌入的語(yǔ)義耦合性和可加性,提出了一種無(wú)需訓(xùn)練的新方法,稱為token合并,即ToMe,用于解決T2I生成中的語(yǔ)義綁定問(wèn)題。ToMe通過(guò)創(chuàng)新性的將對(duì)象token與其相關(guān)token疊加為一個(gè)復(fù)合token。該機(jī)制通過(guò)統(tǒng)一交叉注意力圖,消除了語(yǔ)義錯(cuò)位。此外,我們還結(jié)合了結(jié)束token替換和迭代復(fù)合token更新技術(shù),進(jìn)一步增強(qiáng)語(yǔ)義綁定。此外,本文發(fā)現(xiàn)的文本嵌入的可加性在其他領(lǐng)域也表現(xiàn)出一定的應(yīng)用前景,如下圖所示,可用來(lái)括添加對(duì)象、移除對(duì)象,甚至用于消除偏見(jiàn)等任務(wù)。

NeurIPS 2024 | 全面提升文生圖SOTA方法!ToMe:基于token合并的免訓(xùn)練文生圖語(yǔ)義綁定-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/kIRgc4LaqDDFraqKZZJ2gA??

標(biāo)簽
已于2024-12-9 10:16:15修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦