自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

能量驅動注意力:提升文本到圖像擴散模型的語義對齊新范式

人工智能
當前的文本到圖像擴散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質(zhì)量圖像方面取得了巨大成功。

一眼概覽

該論文提出了一種基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 機制,以解決文本到圖像擴散模型中的語義不對齊(semantic misalignment)問題。通過建模上下文向量的后驗分布,該方法能夠自適應地調(diào)整語義上下文,實現(xiàn)更精準的文本引導圖像生成,無需額外訓練,并在 多概念生成、文本引導修復、圖像編輯任務上取得了優(yōu)異表現(xiàn)。

核心問題

當前的 文本到圖像擴散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質(zhì)量圖像方面取得了巨大成功。然而,語義不對齊問題依然突出:

? 生成的圖像可能忽略文本中的某些概念(概念忽略問題)。

? 在多概念合成任務中,不同概念可能無法正確綁定(屬性綁定問題)。

? 在文本引導修復(Inpainting)任務中,模型可能無法準確填充缺失區(qū)域。

為解決這些問題,該研究引入了一種新的 貝葉斯框架,通過最小化層次化的能量函數(shù),實現(xiàn)上下文語義的動態(tài)更新。

技術亮點

1. 能量驅動的上下文更新(Energy-Based Context Update, EBCU)

? 通過 能量函數(shù) 計算 上下文向量的最大后驗概率(MAP)估計,從而優(yōu)化跨注意力機制。

? 通過梯度優(yōu)化動態(tài)調(diào)整文本與圖像的語義匹配,提高文本到圖像的精準度。

2. 能量驅動的查詢組合(Energy-Based Composition of Queries, EBCQ)

? 通過多個上下文向量的 能量函數(shù)線性組合,實現(xiàn) 零樣本可組合生成(Zero-shot Compositional Generation)。

? 允許在無需訓練的情況下,以自然方式合成多個文本概念。

3. 無需額外訓練,即插即用

? 該方法可以直接應用于 Stable Diffusion 等主流擴散模型,無需額外訓練或微調(diào),計算開銷幾乎為零。

方法框架

圖片圖片

EBCA 框架的核心思路:

1. 構建能量函數(shù)

? 在擴散模型的 跨注意力層 中,定義查詢(Query, Q)和鍵(Key, K)的 能量函數(shù),并以此建模上下文向量的后驗分布:[p(\text{context} | \text{representations})]

? 通過 梯度下降 最小化能量函數(shù),實現(xiàn)自適應的上下文優(yōu)化。

2. 動態(tài)更新跨注意力層的上下文向量

   ? 計算 最大后驗估計(MAP),并將 更新后的上下文向量 級聯(lián)傳遞到后續(xù)的跨注意力層,逐步調(diào)整語義對齊。

3. 實現(xiàn)可組合生成

    ? 采用 能量組合策略,允許對不同的文本概念進行自然合成,實現(xiàn)更靈活的文本控制。

實驗結果速覽

圖片圖片

論文在多個文本到圖像任務上驗證了 EBCA 的有效性:

? 多概念生成(Multi-Concept Generation)

? 解決了 概念忽略 和 屬性綁定 問題,使多個文本概念能夠共存于生成圖像中。

? 例如,在 "A cat wearing a shirt"(一只穿著襯衫的貓)任務中,該方法確保貓和襯衫同時出現(xiàn),而非忽略某一部分。

? 文本引導修復(Text-Guided Inpainting)

? 在 Stable Diffusion Inpaint 和 Stable Repaint 基礎上,應用 EBCU 顯著提升修復質(zhì)量,無需額外微調(diào)。

? 例如,在修復 被遮擋的泰迪熊 任務中,該方法能夠精準填充缺失部分,并與上下文保持一致。

? 圖像編輯(Compositional Image Editing)

? 可用于 真實和合成圖像編輯,支持可控編輯(如修改圖像風格、添加或刪除特定元素)。

? 例如,在 "A castle next to a river (+ Monet, Boat)" 任務中,該方法能夠自然地合成莫奈風格的河邊城堡,并額外添加船只。

量化評估:

? CLIP 相似度(CLIP Accuracy):相比基線方法,EBCA 在文本-圖像匹配精度上更高。

? DINO-ViT 結構距離(Structure Distance):該方法在保持圖像原始結構的同時,實現(xiàn)更精準的編輯。

實用價值與應用

?? AI 生成藝術:可用于生成更加精準的 AI 藝術作品,使風格融合更自然。

?? 內(nèi)容創(chuàng)作:適用于 游戲、美術、廣告 等創(chuàng)意內(nèi)容生成,提升多概念融合能力。

?? 自動駕駛 & 監(jiān)控:可用于增強計算機視覺模型的理解能力,提高對復雜場景的精準度。

?? 醫(yī)療影像:該方法可擴展至 醫(yī)學圖像分析,改善不確定性估計和視覺可解釋性。

開放問題

?? 如何適配更大規(guī)模的模型?EBCA 目前主要應用于 Stable Diffusion,未來如何擴展到 DALLE、Imagen 甚至 3D 生成模型?

?? 如何實現(xiàn)更細粒度的文本控制?目前的 EBCU 方法優(yōu)化了上下文向量,但仍有改進空間,能否實現(xiàn)更加細粒度的文本到圖像映射?

?? 能否擴展到視頻生成?EBCA 通過逐層傳遞優(yōu)化的上下文向量,如果將其應用到 擴散視頻生成,是否能改進時序一致性?


責任編輯:武曉燕 來源: 萍哥學AI
相關推薦

2017-10-15 21:43:36

2023-12-11 14:21:00

模型訓練

2022-05-25 10:28:35

模型AI

2024-12-17 14:39:16

2023-01-02 13:12:07

模型圖像

2022-03-25 11:29:04

視覺算法美團

2024-06-28 08:04:43

語言模型應用

2023-06-09 07:29:03

模型文本document

2024-09-19 10:07:41

2023-05-05 13:11:16

2023-09-04 12:59:03

AI數(shù)據(jù)

2024-12-09 00:00:10

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡ResNet

2024-11-04 10:40:00

AI模型

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2025-01-15 09:28:42

訓練模型圖像生成

2025-02-19 09:18:04

2011-07-07 13:12:58

移動設備端設計注意力

2025-02-10 00:00:55

MHAValue向量
點贊
收藏

51CTO技術棧公眾號