能量驅動注意力:提升文本到圖像擴散模型的語義對齊新范式
一眼概覽
該論文提出了一種基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 機制,以解決文本到圖像擴散模型中的語義不對齊(semantic misalignment)問題。通過建模上下文向量的后驗分布,該方法能夠自適應地調(diào)整語義上下文,實現(xiàn)更精準的文本引導圖像生成,無需額外訓練,并在 多概念生成、文本引導修復、圖像編輯任務上取得了優(yōu)異表現(xiàn)。
核心問題
當前的 文本到圖像擴散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質(zhì)量圖像方面取得了巨大成功。然而,語義不對齊問題依然突出:
? 生成的圖像可能忽略文本中的某些概念(概念忽略問題)。
? 在多概念合成任務中,不同概念可能無法正確綁定(屬性綁定問題)。
? 在文本引導修復(Inpainting)任務中,模型可能無法準確填充缺失區(qū)域。
為解決這些問題,該研究引入了一種新的 貝葉斯框架,通過最小化層次化的能量函數(shù),實現(xiàn)上下文語義的動態(tài)更新。
技術亮點
1. 能量驅動的上下文更新(Energy-Based Context Update, EBCU)
? 通過 能量函數(shù) 計算 上下文向量的最大后驗概率(MAP)估計,從而優(yōu)化跨注意力機制。
? 通過梯度優(yōu)化動態(tài)調(diào)整文本與圖像的語義匹配,提高文本到圖像的精準度。
2. 能量驅動的查詢組合(Energy-Based Composition of Queries, EBCQ)
? 通過多個上下文向量的 能量函數(shù)線性組合,實現(xiàn) 零樣本可組合生成(Zero-shot Compositional Generation)。
? 允許在無需訓練的情況下,以自然方式合成多個文本概念。
3. 無需額外訓練,即插即用
? 該方法可以直接應用于 Stable Diffusion 等主流擴散模型,無需額外訓練或微調(diào),計算開銷幾乎為零。
方法框架
圖片
EBCA 框架的核心思路:
1. 構建能量函數(shù)
? 在擴散模型的 跨注意力層 中,定義查詢(Query, Q)和鍵(Key, K)的 能量函數(shù),并以此建模上下文向量的后驗分布:[p(\text{context} | \text{representations})]
? 通過 梯度下降 最小化能量函數(shù),實現(xiàn)自適應的上下文優(yōu)化。
2. 動態(tài)更新跨注意力層的上下文向量
? 計算 最大后驗估計(MAP),并將 更新后的上下文向量 級聯(lián)傳遞到后續(xù)的跨注意力層,逐步調(diào)整語義對齊。
3. 實現(xiàn)可組合生成
? 采用 能量組合策略,允許對不同的文本概念進行自然合成,實現(xiàn)更靈活的文本控制。
實驗結果速覽
圖片
論文在多個文本到圖像任務上驗證了 EBCA 的有效性:
? 多概念生成(Multi-Concept Generation)
? 解決了 概念忽略 和 屬性綁定 問題,使多個文本概念能夠共存于生成圖像中。
? 例如,在 "A cat wearing a shirt"(一只穿著襯衫的貓)任務中,該方法確保貓和襯衫同時出現(xiàn),而非忽略某一部分。
? 文本引導修復(Text-Guided Inpainting)
? 在 Stable Diffusion Inpaint 和 Stable Repaint 基礎上,應用 EBCU 顯著提升修復質(zhì)量,無需額外微調(diào)。
? 例如,在修復 被遮擋的泰迪熊 任務中,該方法能夠精準填充缺失部分,并與上下文保持一致。
? 圖像編輯(Compositional Image Editing)
? 可用于 真實和合成圖像編輯,支持可控編輯(如修改圖像風格、添加或刪除特定元素)。
? 例如,在 "A castle next to a river (+ Monet, Boat)" 任務中,該方法能夠自然地合成莫奈風格的河邊城堡,并額外添加船只。
量化評估:
? CLIP 相似度(CLIP Accuracy):相比基線方法,EBCA 在文本-圖像匹配精度上更高。
? DINO-ViT 結構距離(Structure Distance):該方法在保持圖像原始結構的同時,實現(xiàn)更精準的編輯。
實用價值與應用
?? AI 生成藝術:可用于生成更加精準的 AI 藝術作品,使風格融合更自然。
?? 內(nèi)容創(chuàng)作:適用于 游戲、美術、廣告 等創(chuàng)意內(nèi)容生成,提升多概念融合能力。
?? 自動駕駛 & 監(jiān)控:可用于增強計算機視覺模型的理解能力,提高對復雜場景的精準度。
?? 醫(yī)療影像:該方法可擴展至 醫(yī)學圖像分析,改善不確定性估計和視覺可解釋性。
開放問題
?? 如何適配更大規(guī)模的模型?EBCA 目前主要應用于 Stable Diffusion,未來如何擴展到 DALLE、Imagen 甚至 3D 生成模型?
?? 如何實現(xiàn)更細粒度的文本控制?目前的 EBCU 方法優(yōu)化了上下文向量,但仍有改進空間,能否實現(xiàn)更加細粒度的文本到圖像映射?
?? 能否擴展到視頻生成?EBCA 通過逐層傳遞優(yōu)化的上下文向量,如果將其應用到 擴散視頻生成,是否能改進時序一致性?