自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))

發(fā)布于 2024-6-14 09:43
瀏覽
0收藏

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2406.07540
項(xiàng)目鏈接:https://genforce.github.io/ctrl-x/


最近的可控生成方法,如FreeControl和Diffusion Self-guidance,為文本到圖像(T2I)擴(kuò)散模型帶來了細(xì)粒度的空間和外觀控制,而無需訓(xùn)練輔助模塊。然而,這些方法針對(duì)每種類型的評(píng)分函數(shù)優(yōu)化潛在embedding,并采用較長(zhǎng)的擴(kuò)散步驟,使生成過程耗時(shí)且限制了它們的靈活性和使用。


本文提出了Ctrl-X,這是一個(gè)簡(jiǎn)單的T2I擴(kuò)散控制結(jié)構(gòu)和外觀的框架,無需額外的訓(xùn)練或引導(dǎo)。Ctrl-X設(shè)計(jì)了前饋結(jié)構(gòu)控制,以實(shí)現(xiàn)與結(jié)構(gòu)圖像的結(jié)構(gòu)對(duì)齊,并進(jìn)行語義的外觀遷移,以促進(jìn)從用戶輸入圖像進(jìn)行外觀遷移。


廣泛的定性和定量實(shí)驗(yàn)說明了 Ctrl-X 在各種條件輸入和模型 checkpoints 上的卓越性能。特別是,Ctrl-X支持任何形式的條件圖像的新型結(jié)構(gòu)和外觀控制,與現(xiàn)有工作相比具有更高的圖像質(zhì)量和外觀遷移,并為任何T2I和文本到視頻(T2V)擴(kuò)散模型提供即插即用功能。

總結(jié)本文的貢獻(xiàn)如下:


  • 提出了Ctrl-X,這是一個(gè)簡(jiǎn)單的即插即用方法,基于預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型,在生成過程中提供結(jié)構(gòu)和外觀的解耦和 zero-shot 控制,無需額外的訓(xùn)練或指導(dǎo)。
  • Ctrl-X 提出了第一個(gè)支持多個(gè)條件信號(hào)(結(jié)構(gòu)和外觀)和模型架構(gòu)(例如文本到圖像和文本到視頻)的通用無需引導(dǎo)的解決方案。
  • 本文的方法在條件對(duì)齊、文本圖像對(duì)齊和圖像質(zhì)量方面與以往基于訓(xùn)練和指導(dǎo)的基線(如ControlNet + IP-Adapter和FreeControl)相比表現(xiàn)出更好的結(jié)果。

無導(dǎo)向結(jié)構(gòu)和外觀控制

Ctrl-X是一個(gè)通用框架,用于免訓(xùn)練、無引導(dǎo)、zero-shot的T2I擴(kuò)散,具有結(jié)構(gòu)和外觀控制。給定結(jié)構(gòu)圖像和外觀圖像,Ctrl-X操作一個(gè)預(yù)訓(xùn)練的T2I擴(kuò)散模型εθ,生成一個(gè)輸出圖像,該圖像繼承了的結(jié)構(gòu)和的外觀。


方法概述。方法如下圖2所示,并概括如下:給定干凈的結(jié)構(gòu)和外觀潛變量和,首先通過擴(kuò)散正向過程直接獲得噪聲結(jié)構(gòu)和外觀潛變量和,然后從預(yù)訓(xùn)練的T2I擴(kuò)散模型中提取它們的U-Net特征。在對(duì)輸出潛變量進(jìn)行去噪時(shí),從注入卷積和自注意力特征,并利用自注意力對(duì)應(yīng)關(guān)系將的空間感知外觀統(tǒng)計(jì)信息傳輸?shù)?,以?shí)現(xiàn)結(jié)構(gòu)和外觀控制。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

前饋結(jié)構(gòu)控制

T2I擴(kuò)散的結(jié)構(gòu)控制需要將結(jié)構(gòu)信息從轉(zhuǎn)移到,特別是在早期時(shí)間步驟中。為此,初始化,并使用和隨機(jī)采樣的ε在方程1中通過擴(kuò)散正向過程獲得。受到擴(kuò)散特征包含豐富布局信息的觀察的啟發(fā),執(zhí)行以下特征和自注意力注入:對(duì)于U-Net層l和擴(kuò)散時(shí)間步t,令和為來自和的卷積塊后的特征/激活,并且令和為來自和的自注意力塊的注意力映射。然后,替換

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

與[36, 18, 24]相比,研究者們不執(zhí)行反演,而是直接使用前向擴(kuò)散(方程1)獲得。觀察到,通過前向擴(kuò)散過程獲得的即使在非常早期/高時(shí)間步中也包含足夠的結(jié)構(gòu)信息,如下圖3所示。這也減少了由FreeControl觀察到的基于反演的方法常見的外觀泄漏。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

對(duì)層應(yīng)用特征注入,并對(duì)層進(jìn)行自注意力注入,對(duì)于(歸一化的)時(shí)間步τ,其中τ是結(jié)構(gòu)控制計(jì)劃。

空間外觀遷移

受先前定義外觀為特征統(tǒng)計(jì)量的工作的啟發(fā),研究者們認(rèn)為外觀遷移是一項(xiàng)風(fēng)格化任務(wù)。T2I擴(kuò)散自注意力用注意力映射A轉(zhuǎn)換值V,其中后者表示Q中的像素與K中的像素對(duì)應(yīng)的方式。正如Cross-Image Attention所觀察到的那樣,當(dāng)從每個(gè)圖像的特征計(jì)算Q和K時(shí),即使兩個(gè)圖像在結(jié)構(gòu)上有顯著差異,也可以表示兩個(gè)圖像之間的語義對(duì)應(yīng)關(guān)系。因此,受AdaAttN的啟發(fā),提出了空間感知外觀遷移,其中利用這種對(duì)應(yīng)關(guān)系從生成自注意力加權(quán)的均值和標(biāo)準(zhǔn)差圖到規(guī)范化:對(duì)于任何自注意力層l,讓和分別為和的自注意力之前的擴(kuò)散特征。然后,計(jì)算注意力映射

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

norm是應(yīng)用于空間維度(hw)的。值得注意的是,我們首先對(duì)和進(jìn)行歸一化,以去除外觀統(tǒng)計(jì)信息,從而隔離結(jié)構(gòu)對(duì)應(yīng)關(guān)系。然后,計(jì)算由A加權(quán)的的均值和標(biāo)準(zhǔn)差圖M和S,并使-+用它們對(duì)進(jìn)行歸一化。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

由和之間的結(jié)構(gòu)對(duì)應(yīng)加權(quán)的M和S是的空間感知特征統(tǒng)計(jì)量,它們被轉(zhuǎn)移到。最后,像平常一樣對(duì)執(zhí)行層l的自注意力。對(duì)層應(yīng)用外觀遷移,對(duì)于(歸一化的)時(shí)間步τ,其中τ是外觀控制計(jì)劃。

結(jié)構(gòu)和外觀控制。最后,用 Equation 2 中的 εθ 替換

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

在這里,,和 分別對(duì)應(yīng)于用于特征注入的特征,用于自注意力注入的xst注意力映射,以及用于外觀遷移的特征。

實(shí)驗(yàn)

研究者們提供了大量的定量和定性結(jié)果,以展示Ctrl-X在T2I擴(kuò)散上的結(jié)構(gòu)保留和外觀對(duì)齊。

具有結(jié)構(gòu)和外觀控制的T2I擴(kuò)散

基線。對(duì)于基于訓(xùn)練的方法,ControlNet 和 T2I-Adapter學(xué)習(xí)了一個(gè)輔助模塊,該模塊將條件圖像注入到預(yù)訓(xùn)練的擴(kuò)散模型中,以實(shí)現(xiàn)結(jié)構(gòu)對(duì)齊。然后,將它們與IP-Adapter(用于圖像提示和外觀遷移)相結(jié)合。Splicing ViT Features針對(duì)每個(gè)源-外觀圖像對(duì)從頭開始訓(xùn)練一個(gè) U-Net,以最小化它們的 DINO-ViT 自相似性距離和全局 [CLS] token損失。

(對(duì)于基于訓(xùn)練的基準(zhǔn)不支持的結(jié)構(gòu)條件,將其轉(zhuǎn)換為邊緣檢測(cè)圖。)對(duì)于基于引導(dǎo)的方法,F(xiàn)reeControl 通過從擴(kuò)散特征子空間計(jì)算的反向傳播得到的分?jǐn)?shù)函數(shù)來強(qiáng)制結(jié)構(gòu)和外觀對(duì)齊。對(duì)于無指導(dǎo)的方法,Cross-Image Attention 操縱注意力權(quán)重以在保持結(jié)構(gòu)的同時(shí)轉(zhuǎn)移外觀。盡可能在 SDXL v1.0 上運(yùn)行所有方法,否則使用它們的默認(rèn)基礎(chǔ)模型。


數(shù)據(jù)集。本文的方法支持具有外觀遷移和任意條件結(jié)構(gòu)控制的T2I擴(kuò)散。由于沒有針對(duì)這種靈活任務(wù)的基準(zhǔn),創(chuàng)建了一個(gè)新數(shù)據(jù)集,包含256個(gè)不同的結(jié)構(gòu)-外觀對(duì)。結(jié)構(gòu)圖像包括31%的自然圖像,49%的ControlNet支持的條件(如邊緣檢測(cè)、深度、分割),以及20%的野外條件(如3D網(wǎng)格、點(diǎn)云),外觀圖像是Web和生成圖像的混合。使用模板和手動(dòng)注釋來制作結(jié)構(gòu)、外觀和輸出文本提示。


評(píng)估指標(biāo)。對(duì)于定量評(píng)估,報(bào)告了兩個(gè)廣泛采用的指標(biāo):DINO Self-sim 衡量了DINO-ViT 特征空間中結(jié)構(gòu)圖像和輸出圖像之間的自相似距離,較低的距離表示更好的結(jié)構(gòu)保留;DINO CLS 衡量了外觀圖像和輸出圖像之間的DINO-ViT全局 [CLS] token之間的損失,較低的損失表示更好的外觀對(duì)齊。


定性結(jié)果。如下圖4和圖5所示,Ctrl-X從各種結(jié)構(gòu)圖像中忠實(shí)地保留了結(jié)構(gòu),包括自然圖像和ControlNet支持的條件(如HED、分割),以及野外條件(如線框、3D網(wǎng)格),這在先前的基于訓(xùn)練的方法中是不可能的,同時(shí)靈活地從外觀圖像中轉(zhuǎn)移外觀,具有語義對(duì)應(yīng)關(guān)系。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

與基線方法的比較。上圖5和下表1將Ctrl-X與基線方法進(jìn)行了比較。對(duì)于基于訓(xùn)練和基于指導(dǎo)的方法,盡管T2I-Adapter和FreeControl在結(jié)構(gòu)保留方面更強(qiáng)(較小的DINO自相似距離),但它們通常難以實(shí)現(xiàn)忠實(shí)的外觀遷移,并且產(chǎn)生更差的全局CLS損失,這在圖5的第1行和第3行特別明顯。由于基于訓(xùn)練的方法將結(jié)構(gòu)控制模塊(ControlNet和T2I-Adapter)與單獨(dú)訓(xùn)練的外觀遷移模塊IP-Adapter 結(jié)合在一起,這兩個(gè)模塊有時(shí)會(huì)以犧牲外觀遷移為代價(jià)產(chǎn)生沖突的控制信號(hào)(例如第1行)—對(duì)于ControlNet來說,也包括結(jié)構(gòu)保留。對(duì)于FreeControl來說,其從提取的embedding中獲得的外觀評(píng)分函數(shù)可能無法充分捕捉更復(fù)雜的外觀對(duì)應(yīng)關(guān)系,再加上需要每個(gè)圖像的超參數(shù)調(diào)整,導(dǎo)致輸出的對(duì)比度較低,并且有時(shí)無法進(jìn)行外觀遷移(例如第4行)。此外,盡管Splicing ViT Features在表1中具有最佳的DINO自相似性和CLS分?jǐn)?shù),但圖5顯示,其輸出圖像通常模糊不清,并顯示出與非自然圖像的結(jié)構(gòu)圖像外觀泄漏(例如第3行、第5行和第6行)。它之所以在基準(zhǔn)測(cè)試中表現(xiàn)良好,是因?yàn)槠涿總€(gè)圖像的訓(xùn)練直接最小化了這兩個(gè)指標(biāo)。


效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

與無指導(dǎo)基線Cross-Image Attention相比,該方法不夠穩(wěn)健,對(duì)結(jié)構(gòu)圖像的外觀更為敏感,因?yàn)榉囱莸慕Y(jié)構(gòu)潛變量包含了強(qiáng)烈的外觀信息。這導(dǎo)致了結(jié)構(gòu)對(duì)齊較差,并且經(jīng)常出現(xiàn)外觀泄漏或偽影(例如第6行),從結(jié)構(gòu)到輸出圖像,導(dǎo)致更差的DINO自相似性距離和全局CLS損失。在實(shí)踐中,發(fā)現(xiàn)Cross-Image Attention對(duì)其遮罩域非常敏感,并且有時(shí)無法產(chǎn)生具有跨模態(tài)對(duì)(例如線框到照片)的輸出。


推理效率。研究者們研究了該方法與基線方法的推理時(shí)間,所有方法都使用基礎(chǔ)模型SDXL v1.0,除了Cross-Image Attention(SD v1.5)和Splicing ViT Features(U-Net)。表1報(bào)告了使用單個(gè)NVIDIA A6000 GPU的平均推理時(shí)間。與基于訓(xùn)練的ControlNet(1.32倍)和T2I-Adapter(1.73倍)及IP-Adapter相比,Ctrl-X稍慢一些,但明顯快于每個(gè)圖像訓(xùn)練的Splicing ViT(0.0071倍)、基于指導(dǎo)的FreeControl(0.025倍)和無指導(dǎo)的Cross-Image Attention(0.14倍)。無訓(xùn)練和無指導(dǎo)方法達(dá)到了與基于訓(xùn)練的方法相當(dāng)?shù)倪\(yùn)行時(shí),表明了其靈活性。


擴(kuò)展到基于提示的條件生成。Ctrl-X還支持基于提示的條件生成,它生成一個(gè)符合給定文本提示的輸出圖像,并與結(jié)構(gòu)圖像對(duì)齊,如前面圖4和下圖6所示。受FreeControl的啟發(fā),Ctrl-X可以聯(lián)合生成,基于文本提示以及,其中使用方程2從xat中獲得xat?1進(jìn)行去噪處理而沒有控制。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

擴(kuò)展到視頻擴(kuò)散模型

Ctrl-X無需訓(xùn)練、無需指導(dǎo),并且運(yùn)行時(shí)具有競(jìng)爭(zhēng)力。因此,可以直接將方法應(yīng)用于文本到視頻(T2V)模型,如下圖7所示。本文的方法將結(jié)構(gòu)圖像和輸出視頻之間的結(jié)構(gòu)緊密對(duì)齊,同時(shí)從外觀圖像中傳遞時(shí)間一致的外觀。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

消融實(shí)驗(yàn)

控制效果。如下圖8(a)所示,結(jié)構(gòu)控制負(fù)責(zé)結(jié)構(gòu)保留(僅外觀 vs. 本文的方法)。此外,僅結(jié)構(gòu)控制不能夠隔離結(jié)構(gòu)信息,會(huì)顯示出強(qiáng)烈的結(jié)構(gòu)圖像外觀泄漏和低質(zhì)量的輸出(僅結(jié)構(gòu) vs. 本文的方法),因?yàn)樗鼉H僅注入了結(jié)構(gòu)特征,這為外觀控制創(chuàng)造了語義對(duì)應(yīng)關(guān)系。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

外觀遷移方法。由于研究者們將外觀遷移視為一項(xiàng)風(fēng)格化任務(wù),比較了帶有和不帶有注意力加權(quán)的外觀統(tǒng)計(jì)量轉(zhuǎn)移。沒有注意力加權(quán)(相當(dāng)于AdaIN)時(shí),歸一化是全局的,因此不能考慮外觀圖像和輸出圖像之間的語義對(duì)應(yīng)關(guān)系,因此輸出看起來對(duì)比度低。


反演效果。比較了DDIM反演和前向擴(kuò)散(本文的方法)來獲得和,如上圖8(c)所示。在具有挑戰(zhàn)性的條件下(左側(cè)),反演顯示了從結(jié)構(gòu)圖像中的外觀泄漏,而在其他條件下(右側(cè))與本文的方法類似??紤]到反演成本和額外的模型推理時(shí)間,對(duì)于本文的方法來說,前向擴(kuò)散是一個(gè)更好的選擇。

結(jié)論

本文提出了Ctrl-X,這是一個(gè)針對(duì)任何T2I和T2V擴(kuò)散模型的結(jié)構(gòu)和外觀控制的無需訓(xùn)練和無需引導(dǎo)的框架。Ctrl-X利用了預(yù)訓(xùn)練的T2I擴(kuò)散模型的特征對(duì)應(yīng)關(guān)系,支持任意的結(jié)構(gòu)圖像條件,適用于多種模型架構(gòu),并在與基于訓(xùn)練和指導(dǎo)的方法相比取得了競(jìng)爭(zhēng)性的結(jié)構(gòu)保留和更優(yōu)異的外觀遷移,同時(shí)享受了無需指導(dǎo)方法的低開銷優(yōu)勢(shì)。


局限性。如下圖9所示,Ctrl-X的關(guān)鍵局限性在于語義外觀遷移方法可能無法捕捉到目標(biāo)外觀,特別是當(dāng)實(shí)例很小時(shí),因?yàn)樘卣鲌D的低分辨率。希望本文的方法和發(fā)現(xiàn)能夠揭示在生成模型變得更大、更強(qiáng)大時(shí),控制生成方面的新可能性和研究。

效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生圖新框架(加州大學(xué)&英偉達(dá))-AI.x社區(qū)

更廣泛的影響。Ctrl-X通過支持多種條件信號(hào)(結(jié)構(gòu)和外觀)和模型架構(gòu),而無需額外的訓(xùn)練或優(yōu)化計(jì)算開銷,使可控生成變得更加易于訪問和靈活。然而,這種易用性也使得將預(yù)訓(xùn)練的T2I/T2V模型用于惡意應(yīng)用(例如深度偽造)變得更加容易,特別是由于可控性使用戶能夠生成特定圖像,從而引發(fā)了關(guān)于同意和為使用他們的工作作為條件圖像而給予藝術(shù)家的信用的倫理關(guān)切。針對(duì)這些安全問題,T2I和T2V模型變得更加安全。同樣,Ctrl-X可以繼承相同的安全保障措施,其即插即用的性質(zhì)允許開源社區(qū)審查和改進(jìn)其安全性。


本文轉(zhuǎn)自AI生成未來 ?????,作者:Kuan Heng Lin 等


原文鏈接:??https://mp.weixin.qq.com/s/w3WMkmia2fR6EC3YtZTv1w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦