自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!

發(fā)布于 2025-1-22 11:50
瀏覽
0收藏

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2501.09503
項目鏈接:https://aigcdesigngroup.github.io/AnyStory/

亮點直擊

  • 提出了一種統(tǒng)一的單主體和多主體個性化框架,稱為AnyStory。該框架在個性化單主體和多主體時實現(xiàn)了一致性,同時遵循文本提示;
  • 引入了一種增強的主體表示編碼器,由簡化的輕量級 ReferenceNet 和 CLIP 視覺編碼器組成,能夠?qū)σ话阒黧w進行高保真細節(jié)編碼;
  • 提出了一種解耦的實例感知router模塊,能夠準確感知和預(yù)測主體的隱空間條件區(qū)域,從而實現(xiàn)對單個或多個主體的靈活和可控的個性化生成;
  • 實驗結(jié)果表明,本方法在保持主體細節(jié)的真實性、對齊文本描述以及個性化多個主體方面表現(xiàn)出色。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

總結(jié)速覽

解決的問題:

  • 生成具有特定主體的高保真?zhèn)€性化圖像面臨挑戰(zhàn),尤其是在涉及多個主體的情況下。
  • 在不犧牲主體保真度的情況下,處理多個主體的個性化生成。

提出的方案:

  • 提出 AnyStory,一種統(tǒng)一的單主體和多主體個性化框架。
  • 采用“編碼-route”的方式來建模主體個性化問題。
  • 在編碼步驟中,利用 ReferenceNet 和 CLIP 視覺編碼器實現(xiàn)高保真編碼。
  • 在route步驟中,使用解耦的實例感知主體router,準確感知和預(yù)測隱空間中主體的位置。

應(yīng)用的技術(shù):

  • ReferenceNet:一種簡化的輕量級圖像編碼器,用于高保真細節(jié)編碼。
  • CLIP 視覺編碼器:用于增強主體表示的編碼。
  • 解耦的實例感知route模塊:用于準確感知和預(yù)測主體的隱條件區(qū)域,實現(xiàn)靈活和可控的個性化生成。

達到的效果:

  • 在保留主體細節(jié)、對齊文本描述和個性化多個主體方面表現(xiàn)優(yōu)異。
  • 實現(xiàn)了單主體和多主體個性化的一致性,同時遵循文本提示。

方法

AnyStory,這是一種在文本到圖像生成中實現(xiàn)單主體和多主體個性化的開創(chuàng)性方法。首先回顧擴散模型的背景,然后詳細介紹兩個提出的關(guān)鍵組件,即增強的主體編碼器和解耦的實例感知主體router。最后,介紹本文的訓(xùn)練方案。方法的框架如下圖 2 所示。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

預(yù)備知識

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

增強的主體表示編碼

在開放領(lǐng)域中個性化主體圖像,同時確保對主體細節(jié)和文本描述的忠實度,仍然是一個未解決的問題。一個關(guān)鍵的挑戰(zhàn)在于主體信息的編碼,這需要在最大限度地保留主體特征的同時,保持一定的編輯能力。當前主流方法[16, 39, 44, 46, 56, 66, 69, 70]主要依賴CLIP視覺編碼器來編碼主體。然而,由于對比圖像-文本訓(xùn)練范式的原因,CLIP的特征主要是語義性的,并且分辨率較低(通常為224 × 224),因此在提供主體詳細信息方面存在局限性。替代方法[19, 41, 48, 64]結(jié)合了特定領(lǐng)域的專家模型,如面部編碼器[12, 29],以增強主體身份表示。盡管這些方法取得了一定的成功,但它們在其領(lǐng)域內(nèi)是有限的,不能擴展到一般主體。


為了解決這些問題,引入了ReferenceNet,一種強大而多功能的圖像編碼器,與CLIP視覺編碼器一起編碼主體。ReferenceNet利用變分自編碼器(VAE)來編碼參考圖像,然后通過與U-Net相同架構(gòu)的網(wǎng)絡(luò)提取其特征。它具有三個顯著優(yōu)勢:(1)支持更高分辨率的輸入,從而能夠保留更多的主體細節(jié);(2)其特征空間與去噪U-Net對齊,便于U-Net在不同深度和尺度上直接提取主體特征;(3)使用預(yù)訓(xùn)練的U-Net權(quán)重進行初始化,這些權(quán)重具有豐富的視覺先驗,并在學(xué)習(xí)一般主體概念方面表現(xiàn)出良好的泛化能力。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

ReferenceNet 編碼。 在原始實現(xiàn)中ReferenceNet 采用與 U-Net 相同的架構(gòu),包括帶有文本條件注入的交叉注意力塊。然而,由于在我們的任務(wù)中 ReferenceNet 僅用作視覺特征提取器,并不需要文本條件注入,我們跳過了所有交叉注意力塊,從而減少了參數(shù)數(shù)量和計算復(fù)雜度(見下表 1)。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

解耦的實例感知主體route

注入主體條件時需要仔細考慮注入位置,以避免影響不相關(guān)的目標。以前的方法 [37, 39, 56, 66, 69, 70] 通常通過簡單的注意力模塊將條件特征注入隱空間。然而,由于軟加權(quán)機制,這些方法容易出現(xiàn)語義泄漏 [10, 67],導(dǎo)致主體特征的混合,特別是在生成外觀相似的實例時。一些方法 [18, 34, 38, 44, 46, 65, 71] 引入了預(yù)定義的布局mask來解決這個問題,但這限制了它們的實際應(yīng)用。UniPortrait [23] 提出了一種router,可以自適應(yīng)地感知并限制主體條件的影響區(qū)域;然而,其route特征完全與主體特征耦合,這限制了route模塊的能力;此外,它沒有考慮主體條件對背景的影響。在本研究中,我們提出了一種解耦的實例感知主體route模塊,可以準確有效地將主體特征route到相應(yīng)區(qū)域,同時減少對不相關(guān)區(qū)域的影響。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

實例感知route正則化損失。 為了促進router學(xué)習(xí)并區(qū)分不同實例的主體,我們引入了一種實例感知route正則化損失。損失函數(shù)定義為:

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

route引導(dǎo)的主體信息注入。 對于CLIP編碼的主體表示,我們使用解耦的交叉注意力 [69] 將其整合到U-Net中,但增加了route引導(dǎo)的定位約束:

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

關(guān)于ReferenceNet編碼的主體特征的注入,采用原始參考注意力,但增加了由route圖引導(dǎo)的額外注意力mask。稍微濫用一下符號,這個過程可以表示為:

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

訓(xùn)練

根據(jù) UniPortrait,AnyStory 的訓(xùn)練過程分為兩個階段:主體編碼器訓(xùn)練階段和router訓(xùn)練階段。

主體編碼器訓(xùn)練:訓(xùn)練主體 QFormer、ReferenceNet 及注意力塊中的對應(yīng)鍵和值矩陣。ReferenceNet 使用預(yù)訓(xùn)練的 UNet 權(quán)重進行初始化。為了避免主體特征的細粒度編碼導(dǎo)致的復(fù)制粘貼效應(yīng),收集了大量配對數(shù)據(jù),這些數(shù)據(jù)在保持主體身份一致的同時展示了背景、姿勢和視角的變化。這些數(shù)據(jù)來自于圖像、視頻和 3D 渲染數(shù)據(jù)庫,并由 Qwen2-VL 進行標注。具體來說,圖像(約 41 萬)和視頻(約 52 萬)數(shù)據(jù)主要來自以人為中心的數(shù)據(jù)集,如 DeepFashion2 和人類舞蹈視頻,而 3D 數(shù)據(jù)(約 560 萬)則來自 Objaverse ,其中從七個不同角度渲染的物體圖像作為配對數(shù)據(jù)。在訓(xùn)練過程中,這些配對中的一張圖像用作參考輸入,而另一張圖像則在不同的背景下展示相同的主體身份,作為預(yù)測目標。此外,還對參考圖像應(yīng)用了包括隨機旋轉(zhuǎn)、裁剪和零填充在內(nèi)的數(shù)據(jù)增強技術(shù),以進一步防止主體過擬合。該階段的訓(xùn)練損失與原始擴散損失相同,如公式(1)所示。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

實驗

設(shè)置

使用 stable diffusion XL 作為基礎(chǔ)模型。所使用的 CLIP 圖像編碼器是 OpenAI 的 clip-vit-huge-patch14。主體 QFormer 和route QFormer 都由 4 層組成。ReferenceNet 的輸入圖像分辨率為 512×512。所有訓(xùn)練在 8 個 A100 GPU 上進行,批大小為 64,使用 AdamW優(yōu)化器,學(xué)習(xí)率為 1e-4。為了促進無分類器引導(dǎo)的采樣 [25],在訓(xùn)練時對 10% 的圖像去掉 CLIP 主體條件。在推理過程中,使用 25 步 EDM采樣和 7.5 的無分類器引導(dǎo)比例,并使用來自 huggingface 的 RealVisXL V4.0 模型以實現(xiàn)更逼真的圖像生成。

ReferenceNet 編碼器的效果

下圖 3 展示了 ReferenceNet 編碼器的有效性,相較于僅使用 CLIP 視覺編碼器,它增強了主體細節(jié)的保留。然而,顯然僅使用 ReferenceNet 并不能產(chǎn)生令人滿意的結(jié)果。事實上,在大量測試中發(fā)現(xiàn),ReferenceNet 編碼器只能實現(xiàn)主體細節(jié)的對齊,而不能引導(dǎo)主體生成。仍然需要依賴與文本embedding良好對齊的 CLIP 編碼特征來觸發(fā)主體生成。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

解耦實例感知router的效果

下圖 4 展示了所提出router的有效性,它可以有效避免多主體生成中主體之間的特征混合。此外,觀察到在單主體設(shè)置中使用router也提高了生成圖像的質(zhì)量,特別是在圖像背景中。這是因為router限制了主體條件的影響區(qū)域,從而減少了主體特征固有的隱偏差(例如,從大量 3D 渲染數(shù)據(jù)中學(xué)習(xí)到的簡單白色背景偏好)對生成圖像質(zhì)量的影響。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

上圖 5 可視化了擴散模型在去噪過程中不同時間步的route圖。這些結(jié)果表明,所提出的router可以在去噪過程中準確感知并定位每個主體條件的影響區(qū)域。顯示的route圖類似于圖像分割mask,表明通過去噪 U-Net 和訓(xùn)練好的router可以實現(xiàn)基于參考圖像的引導(dǎo)圖像分割的潛力。此外,如前文所述,盡管router主要在以人為中心的數(shù)據(jù)集上訓(xùn)練,但它對一般主體(如上圖 5 中的卡通恐龍)具有良好的泛化能力。我們將此歸因于 CLIP 模型強大的泛化能力和高度壓縮的單token route特征。


下圖 6 展示了將router建模為微型圖像分割解碼器的有效性。與通過簡單點積獲得的粗略route圖相比,通過輕量級mask交叉注意模塊細化后的route圖可以更準確地預(yù)測每個主體的隱位置。

面向統(tǒng)一的單、多主體個性化文生圖框架!阿里通義發(fā)布AnyStory!-AI.x社區(qū)

示例生成

在上圖 1、上圖 7 和上圖 8 中,展示了本方法的更多結(jié)果,顯示了其在保持主體細節(jié)、對齊文本提示以及實現(xiàn)多主體個性化方面的卓越性能。

結(jié)論

AnyStory是一種針對單主體和多主體個性化生成的統(tǒng)一方法。AnyStory 利用通用且強大的 ReferenceNet 以及 CLIP 視覺編碼器來實現(xiàn)高保真度的主體編碼,并采用解耦的、實例感知的route模塊,以靈活和準確地注入單/多主體條件。實驗結(jié)果表明,本方法在保留主體細節(jié)、與文本描述對齊以及多主體個性化方面表現(xiàn)出色。


局限性和未來工作。 目前,AnyStory 無法為圖像生成個性化背景。然而,在序列圖像生成中保持圖像背景的一致性同樣重要。未來,將擴展 AnyStory 的控制能力,從主體域擴展到背景域。此外,AnyStory 生成的主體中仍然存在復(fù)制粘貼效應(yīng),我們計劃通過數(shù)據(jù)增強和使用更強大的文本到圖像生成模型來進一步緩解這一問題。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/PtPwtABgfHCBQwP8144oGA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦