自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="dnwus"><s id="dnwus"></s></sub>

<cite id="dnwus"></cite>

<sub id="dnwus"></sub>

<legend id="dnwus"><abbr id="dnwus"></abbr></legend><p id="dnwus"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！

發(fā)布于 2025-1-22 11:50

瀏覽

0收藏

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2501.09503
項目鏈接：https://aigcdesigngroup.github.io/AnyStory/

亮點直擊

提出了一種統(tǒng)一的單主體和多主體個性化框架，稱為AnyStory。該框架在個性化單主體和多主體時實現(xiàn)了一致性，同時遵循文本提示；
引入了一種增強的主體表示編碼器，由簡化的輕量級 ReferenceNet 和 CLIP 視覺編碼器組成，能夠?qū)σ话阒黧w進行高保真細節(jié)編碼；
提出了一種解耦的實例感知router模塊，能夠準確感知和預(yù)測主體的隱空間條件區(qū)域，從而實現(xiàn)對單個或多個主體的靈活和可控的個性化生成；
實驗結(jié)果表明，本方法在保持主體細節(jié)的真實性、對齊文本描述以及個性化多個主體方面表現(xiàn)出色。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

總結(jié)速覽

解決的問題：

生成具有特定主體的高保真?zhèn)€性化圖像面臨挑戰(zhàn)，尤其是在涉及多個主體的情況下。
在不犧牲主體保真度的情況下，處理多個主體的個性化生成。

提出的方案：

提出 AnyStory，一種統(tǒng)一的單主體和多主體個性化框架。
采用“編碼-route”的方式來建模主體個性化問題。
在編碼步驟中，利用 ReferenceNet 和 CLIP 視覺編碼器實現(xiàn)高保真編碼。
在route步驟中，使用解耦的實例感知主體router，準確感知和預(yù)測隱空間中主體的位置。

應(yīng)用的技術(shù)：

ReferenceNet：一種簡化的輕量級圖像編碼器，用于高保真細節(jié)編碼。
CLIP 視覺編碼器：用于增強主體表示的編碼。
解耦的實例感知route模塊：用于準確感知和預(yù)測主體的隱條件區(qū)域，實現(xiàn)靈活和可控的個性化生成。

達到的效果：

在保留主體細節(jié)、對齊文本描述和個性化多個主體方面表現(xiàn)優(yōu)異。
實現(xiàn)了單主體和多主體個性化的一致性，同時遵循文本提示。

方法

AnyStory，這是一種在文本到圖像生成中實現(xiàn)單主體和多主體個性化的開創(chuàng)性方法。首先回顧擴散模型的背景，然后詳細介紹兩個提出的關(guān)鍵組件，即增強的主體編碼器和解耦的實例感知主體router。最后，介紹本文的訓(xùn)練方案。方法的框架如下圖 2 所示。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

預(yù)備知識

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

增強的主體表示編碼

在開放領(lǐng)域中個性化主體圖像，同時確保對主體細節(jié)和文本描述的忠實度，仍然是一個未解決的問題。一個關(guān)鍵的挑戰(zhàn)在于主體信息的編碼，這需要在最大限度地保留主體特征的同時，保持一定的編輯能力。當前主流方法[16, 39, 44, 46, 56, 66, 69, 70]主要依賴CLIP視覺編碼器來編碼主體。然而，由于對比圖像-文本訓(xùn)練范式的原因，CLIP的特征主要是語義性的，并且分辨率較低（通常為224 × 224），因此在提供主體詳細信息方面存在局限性。替代方法[19, 41, 48, 64]結(jié)合了特定領(lǐng)域的專家模型，如面部編碼器[12, 29]，以增強主體身份表示。盡管這些方法取得了一定的成功，但它們在其領(lǐng)域內(nèi)是有限的，不能擴展到一般主體。

為了解決這些問題，引入了ReferenceNet，一種強大而多功能的圖像編碼器，與CLIP視覺編碼器一起編碼主體。ReferenceNet利用變分自編碼器（VAE）來編碼參考圖像，然后通過與U-Net相同架構(gòu)的網(wǎng)絡(luò)提取其特征。它具有三個顯著優(yōu)勢：（1）支持更高分辨率的輸入，從而能夠保留更多的主體細節(jié)；（2）其特征空間與去噪U-Net對齊，便于U-Net在不同深度和尺度上直接提取主體特征；（3）使用預(yù)訓(xùn)練的U-Net權(quán)重進行初始化，這些權(quán)重具有豐富的視覺先驗，并在學(xué)習(xí)一般主體概念方面表現(xiàn)出良好的泛化能力。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

ReferenceNet 編碼。 在原始實現(xiàn)中ReferenceNet 采用與 U-Net 相同的架構(gòu)，包括帶有文本條件注入的交叉注意力塊。然而，由于在我們的任務(wù)中 ReferenceNet 僅用作視覺特征提取器，并不需要文本條件注入，我們跳過了所有交叉注意力塊，從而減少了參數(shù)數(shù)量和計算復(fù)雜度（見下表 1）。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

解耦的實例感知主體route

注入主體條件時需要仔細考慮注入位置，以避免影響不相關(guān)的目標。以前的方法 [37, 39, 56, 66, 69, 70] 通常通過簡單的注意力模塊將條件特征注入隱空間。然而，由于軟加權(quán)機制，這些方法容易出現(xiàn)語義泄漏 [10, 67]，導(dǎo)致主體特征的混合，特別是在生成外觀相似的實例時。一些方法 [18, 34, 38, 44, 46, 65, 71] 引入了預(yù)定義的布局mask來解決這個問題，但這限制了它們的實際應(yīng)用。UniPortrait [23] 提出了一種router，可以自適應(yīng)地感知并限制主體條件的影響區(qū)域；然而，其route特征完全與主體特征耦合，這限制了route模塊的能力；此外，它沒有考慮主體條件對背景的影響。在本研究中，我們提出了一種解耦的實例感知主體route模塊，可以準確有效地將主體特征route到相應(yīng)區(qū)域，同時減少對不相關(guān)區(qū)域的影響。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

實例感知route正則化損失。 為了促進router學(xué)習(xí)并區(qū)分不同實例的主體，我們引入了一種實例感知route正則化損失。損失函數(shù)定義為：

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

route引導(dǎo)的主體信息注入。 對于CLIP編碼的主體表示，我們使用解耦的交叉注意力 [69] 將其整合到U-Net中，但增加了route引導(dǎo)的定位約束：

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

關(guān)于ReferenceNet編碼的主體特征的注入，采用原始參考注意力，但增加了由route圖引導(dǎo)的額外注意力mask。稍微濫用一下符號，這個過程可以表示為：

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

訓(xùn)練

根據(jù) UniPortrait，AnyStory 的訓(xùn)練過程分為兩個階段：主體編碼器訓(xùn)練階段和router訓(xùn)練階段。

主體編碼器訓(xùn)練：訓(xùn)練主體 QFormer、ReferenceNet 及注意力塊中的對應(yīng)鍵和值矩陣。ReferenceNet 使用預(yù)訓(xùn)練的 UNet 權(quán)重進行初始化。為了避免主體特征的細粒度編碼導(dǎo)致的復(fù)制粘貼效應(yīng)，收集了大量配對數(shù)據(jù)，這些數(shù)據(jù)在保持主體身份一致的同時展示了背景、姿勢和視角的變化。這些數(shù)據(jù)來自于圖像、視頻和 3D 渲染數(shù)據(jù)庫，并由 Qwen2-VL 進行標注。具體來說，圖像（約 41 萬）和視頻（約 52 萬）數(shù)據(jù)主要來自以人為中心的數(shù)據(jù)集，如 DeepFashion2 和人類舞蹈視頻，而 3D 數(shù)據(jù)（約 560 萬）則來自 Objaverse ，其中從七個不同角度渲染的物體圖像作為配對數(shù)據(jù)。在訓(xùn)練過程中，這些配對中的一張圖像用作參考輸入，而另一張圖像則在不同的背景下展示相同的主體身份，作為預(yù)測目標。此外，還對參考圖像應(yīng)用了包括隨機旋轉(zhuǎn)、裁剪和零填充在內(nèi)的數(shù)據(jù)增強技術(shù)，以進一步防止主體過擬合。該階段的訓(xùn)練損失與原始擴散損失相同，如公式（1）所示。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

實驗

設(shè)置

使用 stable diffusion XL 作為基礎(chǔ)模型。所使用的 CLIP 圖像編碼器是 OpenAI 的 clip-vit-huge-patch14。主體 QFormer 和route QFormer 都由 4 層組成。ReferenceNet 的輸入圖像分辨率為 512×512。所有訓(xùn)練在 8 個 A100 GPU 上進行，批大小為 64，使用 AdamW優(yōu)化器，學(xué)習(xí)率為 1e-4。為了促進無分類器引導(dǎo)的采樣 [25]，在訓(xùn)練時對 10% 的圖像去掉 CLIP 主體條件。在推理過程中，使用 25 步 EDM采樣和 7.5 的無分類器引導(dǎo)比例，并使用來自 huggingface 的 RealVisXL V4.0 模型以實現(xiàn)更逼真的圖像生成。

ReferenceNet 編碼器的效果

下圖 3 展示了 ReferenceNet 編碼器的有效性，相較于僅使用 CLIP 視覺編碼器，它增強了主體細節(jié)的保留。然而，顯然僅使用 ReferenceNet 并不能產(chǎn)生令人滿意的結(jié)果。事實上，在大量測試中發(fā)現(xiàn)，ReferenceNet 編碼器只能實現(xiàn)主體細節(jié)的對齊，而不能引導(dǎo)主體生成。仍然需要依賴與文本embedding良好對齊的 CLIP 編碼特征來觸發(fā)主體生成。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

解耦實例感知router的效果

下圖 4 展示了所提出router的有效性，它可以有效避免多主體生成中主體之間的特征混合。此外，觀察到在單主體設(shè)置中使用router也提高了生成圖像的質(zhì)量，特別是在圖像背景中。這是因為router限制了主體條件的影響區(qū)域，從而減少了主體特征固有的隱偏差（例如，從大量 3D 渲染數(shù)據(jù)中學(xué)習(xí)到的簡單白色背景偏好）對生成圖像質(zhì)量的影響。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

上圖 5 可視化了擴散模型在去噪過程中不同時間步的route圖。這些結(jié)果表明，所提出的router可以在去噪過程中準確感知并定位每個主體條件的影響區(qū)域。顯示的route圖類似于圖像分割mask，表明通過去噪 U-Net 和訓(xùn)練好的router可以實現(xiàn)基于參考圖像的引導(dǎo)圖像分割的潛力。此外，如前文所述，盡管router主要在以人為中心的數(shù)據(jù)集上訓(xùn)練，但它對一般主體（如上圖 5 中的卡通恐龍）具有良好的泛化能力。我們將此歸因于 CLIP 模型強大的泛化能力和高度壓縮的單token route特征。

下圖 6 展示了將router建模為微型圖像分割解碼器的有效性。與通過簡單點積獲得的粗略route圖相比，通過輕量級mask交叉注意模塊細化后的route圖可以更準確地預(yù)測每個主體的隱位置。

面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！-AI.x社區(qū)

示例生成

在上圖 1、上圖 7 和上圖 8 中，展示了本方法的更多結(jié)果，顯示了其在保持主體細節(jié)、對齊文本提示以及實現(xiàn)多主體個性化方面的卓越性能。

結(jié)論

AnyStory是一種針對單主體和多主體個性化生成的統(tǒng)一方法。AnyStory 利用通用且強大的 ReferenceNet 以及 CLIP 視覺編碼器來實現(xiàn)高保真度的主體編碼，并采用解耦的、實例感知的route模塊，以靈活和準確地注入單/多主體條件。實驗結(jié)果表明，本方法在保留主體細節(jié)、與文本描述對齊以及多主體個性化方面表現(xiàn)出色。

局限性和未來工作。 目前，AnyStory 無法為圖像生成個性化背景。然而，在序列圖像生成中保持圖像背景的一致性同樣重要。未來，將擴展 AnyStory 的控制能力，從主體域擴展到背景域。此外，AnyStory 生成的主體中仍然存在復(fù)制粘貼效應(yīng)，我們計劃通過數(shù)據(jù)增強和使用更強大的文本到圖像生成模型來進一步緩解這一問題。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/PtPwtABgfHCBQwP8144oGA??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

?ICLR 2024 | UTS提出全新聯(lián)邦推薦算法：從全面個性化過渡到加性個性化

laokugonggao ? 3528瀏覽 ? 0回復(fù)
「個性化」圖像生成時代來了！六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架

duhorse ? 2935瀏覽 ? 0回復(fù)
深入探索個性化推薦新境界：AI通過語言理解你的喜好，效率提升131%

AI論文解讀 ? 3066瀏覽 ? 0回復(fù)
AI生圖可“量身定制”了，華為&清華聯(lián)手打造個性化多模態(tài)生成方法PMG

Crystalcxt ? 2257瀏覽 ? 0回復(fù)
AUTODETECT：面向大規(guī)模語言模型中自動弱點檢測的統(tǒng)一框架

AIRoobt ? 4728瀏覽 ? 0回復(fù)
統(tǒng)一單ID和多ID個性化框架！阿里發(fā)布UniPortrait:質(zhì)量和多樣性超越現(xiàn)有方法

angel ? 2603瀏覽 ? 0回復(fù)
PreciseControl:單肖像生成精細個性化圖像！

angel ? 2046瀏覽 ? 0回復(fù)
《自然》期刊發(fā)布最新科學(xué)報告：人工智能技術(shù)在個性化醫(yī)療中的創(chuàng)新與挑戰(zhàn)

xuxiangda ? 1.1w瀏覽 ? 0回復(fù)
PreciseControl:單肖像生成精細個性化圖像！

angel ? 2148瀏覽 ? 0回復(fù)
一文總結(jié)特征增強&個性化在CTR預(yù)估中的經(jīng)典方法和效果對比

海因斯DK ? 2161瀏覽 ? 0回復(fù)
小紅書開源StoryMaker：個性化圖像生成模型，實現(xiàn)角色一致性與背景變化的完美結(jié)合

angel ? 6138瀏覽 ? 0回復(fù)
突破個性化圖像生成局限！MagicTailor：組件可控個性化圖像生成創(chuàng)新框架！

angel ? 2566瀏覽 ? 0回復(fù)
LLM合集：Meta推出PGraphRAG框架，異構(gòu)圖關(guān)系助力個性化RAG突破界限

AIPaperDaily ? 1584瀏覽 ? 0回復(fù)
Snap&卡內(nèi)基梅隆提出多主體開集個性化視頻生成新范式Video Alchemist！

angel ? 2045瀏覽 ? 0回復(fù)
個性化大語言模型：PPlug——讓AI更懂你

AIGC前沿技術(shù)追蹤 ? 1736瀏覽 ? 0回復(fù)
阿里發(fā)布通義萬相2.1 :最佳視頻生成模型

Halo咯咯 ? 2464瀏覽 ? 0回復(fù)
探究PEPNet模型：多任務(wù)多領(lǐng)域推薦的個性化建模！

南夏的算法驛站 ? 1779瀏覽 ? 0回復(fù)
新加坡國立開源Conceptrol：讓個性化圖像生成更懂你的文字提示

angel ? 1101瀏覽 ? 0回復(fù)
單模型統(tǒng)一多圖個性化生成！字節(jié)重磅開源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開源！

angel ? 1470瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD

下一篇：基于CogVideoX-2B，視覺一致和語義對齊超越最新SOTA！南洋理工等發(fā)布RepVideo

社區(qū)精華內(nèi)容

目錄

<blockquote id="81nnm"><i id="81nnm"><video id="81nnm"></video></i></blockquote><legend id="81nnm"><track id="81nnm"></track></legend>

^{<blockquote id="81nnm"></blockquote>}