自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR

發(fā)布于 2024-10-14 14:57
瀏覽
0收藏

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.04671
項目鏈接:https://github.com/MiracleDance/CAR

亮點直擊

  • CAR是首個為自回歸模型家族設(shè)計的靈活、高效且即插即用的可控框架。
  • CAR基于預(yù)訓(xùn)練的自回歸模型,不僅保留了原有的生成能力,還能在有限資源的情況下實現(xiàn)可控生成——所用數(shù)據(jù)量不到預(yù)訓(xùn)練所需數(shù)據(jù)的10%。
  • 設(shè)計了一個通用框架來捕捉多尺度的控制表示,這些表示具有魯棒性,并能無縫集成到預(yù)訓(xùn)練的基礎(chǔ)模型中。
  • 大量實驗表明,CAR在各種條件信號下實現(xiàn)了精確的細粒度視覺控制。CAR有效地學(xué)習(xí)了這些條件的語義,能夠在訓(xùn)練集中未見過的類別上實現(xiàn)魯棒的泛化。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

總結(jié)速覽

解決的問題:

當(dāng)前的視覺生成模型主要有兩種技術(shù)路徑:擴散模型和自回歸模型。擴散模型在生成控制上表現(xiàn)出色,但自回歸模型雖然具備強大的生成能力和可擴展性,控制性和靈活性方面仍然未被充分探索。

提出的方案:

提出了一種名為可控自回歸建模(CAR) 的全新框架,該框架可作為插件,整合條件控制機制到多尺度潛變量建模中,允許在預(yù)訓(xùn)練的視覺自回歸模型中進行高效的控制生成。CAR逐步細化并捕捉控制表示,并將其注入到預(yù)訓(xùn)練模型的每個自回歸步驟中,以引導(dǎo)生成過程。

應(yīng)用的技術(shù):

  • 多尺度潛變量建模:用于捕捉和細化控制表示。
  • 預(yù)訓(xùn)練視覺自回歸模型:在預(yù)訓(xùn)練模型的基礎(chǔ)上注入控制,逐步指導(dǎo)生成。
  • 條件控制機制:整合到自回歸生成的每個步驟中,以實現(xiàn)細粒度控制。

達到的效果:

  • 在各種條件下實現(xiàn)了出色的控制能力。
  • 在圖像質(zhì)量上優(yōu)于以往的方法。
  • 與預(yù)訓(xùn)練模型相比,CAR在實現(xiàn)良好泛化能力的同時顯著減少了訓(xùn)練資源需求。
  • CAR是首個針對預(yù)訓(xùn)練自回歸視覺生成模型的控制框架。

方法

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

首先介紹視覺自回歸建模中“下一尺度預(yù)測”范式的基礎(chǔ)概念。接著解釋了CAR框架如何通過多尺度潛變量建模控制視覺生成。通過應(yīng)用貝葉斯推理,我們識別出CAR的學(xué)習(xí)目標(biāo)是獲取一個魯棒的控制表示。最后詳細討論了控制表示的表達以及網(wǎng)絡(luò)優(yōu)化策略。

自回歸建模的基礎(chǔ)知識

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

可控視覺自回歸建模

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

遵循VAR的“下一尺度預(yù)測”范式,CAR模型采用了多尺度潛變量框架,其中每個尺度的潛變量(token圖)捕捉逐步更高分辨率的圖像結(jié)構(gòu)。控制信息提供了額外的觀測,用于輔助推斷每個尺度的潛變量。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

控制表示和優(yōu)化

控制表示表達

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

實驗

實驗設(shè)置

模型架構(gòu)設(shè)計

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)集
在 ImageNet數(shù)據(jù)集上進行實驗。首先,為訓(xùn)練集偽標(biāo)記了五個條件:Canny 邊緣、深度圖、法線圖、HED 圖和草圖,允許 CAR 在不同的條件控制下分別進行訓(xùn)練。從總共 1000 個類別中隨機選擇 100 個用于訓(xùn)練 CAR,并在剩余的 900 個未見類別上進行評估,以評估其可泛化的可控性。


評估指標(biāo)
利用 Fréchet Inception Distance (FID)、Inception Score (IS)、精準(zhǔn)度和召回率指標(biāo)來評估生成結(jié)果的質(zhì)量。還與現(xiàn)有的可控生成方法(如 ControlNet和 T2I-Adapter)比較推理速度。


訓(xùn)練細節(jié)
將預(yù)訓(xùn)練的 VAR 深度設(shè)置為 16、20、24 或 30,并使用 VAR 的前半部分的權(quán)重初始化控制 Transformer T(.),以加速收斂。CAR 模型在 8 個 NVIDIA V100 GPU 上訓(xùn)練 100 輪,推理速度在單個 NVIDIA 4090 GPU 上進行評估。

定量評估

與以前方法的比較
將 CAR 模型與兩個經(jīng)典的可控生成基線 ControlNet 和 T2I-Adapter 進行了比較。為確保公平,我們在 ImageNet 數(shù)據(jù)集上重新訓(xùn)練了這兩個模型,并對每個模型在所有五個條件注釋上分別進行訓(xùn)練。如下表 1 所示,CAR 顯示出顯著的改進,F(xiàn)ID 分別在 Canny、深度、法線、HED 和草圖條件下減少了 3.3、2.3、2.3、3.0 和 5.1,相較于 ControlNet。IS 指標(biāo)也觀察到類似的改進。將這些收益歸因于自回歸模型的最新進展,這些模型通過在生成過程中逐步擴大分辨率,超越了擴散模型的圖像生成能力。除了圖像質(zhì)量外,還比較了推理速度,CAR 的速度比 ControlNet 和 T2I-Adapter 快五倍以上,進一步凸顯了 CAR 在實際應(yīng)用中的效率優(yōu)勢??傮w而言,這些令人鼓舞的定量結(jié)果表明,CAR 可以作為一種比基于擴散模型的 ControlNet 更高效、可擴展的可控生成范式。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

不同類型條件的評估值得注意,HED 圖、深度圖和法線圖顯示出相對較優(yōu)的指標(biāo),這可能歸因于輸入條件的清晰性和明確的目標(biāo)。這些因素為模型提供了更精確的指導(dǎo),提升了高質(zhì)量圖像的生成。相比之下,草圖條件往往比較簡單,僅由基本輪廓構(gòu)成,視覺細節(jié)較少,使其可控性較差,導(dǎo)致模型生成更自由。這可能導(dǎo)致圖像質(zhì)量波動。

規(guī)模法則
評估 CAR 模型在其深度增加時的圖像質(zhì)量。如下圖 3 所示,隨著模型深度的增加,CAR 在五種不同條件下生成更高質(zhì)量的圖像,表現(xiàn)出更低的 FID 指標(biāo)以及更高的 IS、精準(zhǔn)度和召回率,這與自回歸生成建模的規(guī)模法則一致。在 HED 圖、深度圖和法線圖中觀察到最高的指標(biāo),而 Canny 邊緣和草圖則相對較低,這與表 1 的觀察結(jié)果一致。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

用戶研究
研究者們邀請了 30 位參與者進行用戶研究,以評估CAR 在與之前的方法 ControlNet 和 T2I-Adapter 的生成性能比較。對于五種類型的條件,輸入 30 張條件圖像,并為每種方法生成相應(yīng)的結(jié)果,每種方法生成 150 個結(jié)果。對于每個條件輸入,參與者需要根據(jù)三個標(biāo)準(zhǔn)選擇最佳結(jié)果:1)圖像質(zhì)量,2)條件保真度,3)圖像多樣性。如下表 2 所示,CAR 在這三個方面均優(yōu)于 ControlNet 和 T2I-Adapter,證明了所提出的可控自回歸建模的有效性。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

整體可控性和圖像質(zhì)量
下圖 4 展示了CAR 模型根據(jù)給定的條件控制生成高質(zhì)量和多樣化的結(jié)果。各種條件輸入的視覺細節(jié)在生成的圖像中得到了有效反映,確保了圖像與其對應(yīng)條件之間的強對齊。值得注意的是,展示的類別不在訓(xùn)練期間使用的 100 個類別之內(nèi),但 CAR 仍然能對這些未見類別實現(xiàn)精確控制,這表明CAR 學(xué)會了從給定的條件控制中提取一般語義信息,而不是對訓(xùn)練集進行過擬合。這一優(yōu)勢突顯了CAR 框架的跨類別泛化能力和強大的可控性。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

數(shù)據(jù)分布分析從數(shù)據(jù)分布的角度分析 CAR 的可控性。具體而言,HED 圖被用作一種條件,引導(dǎo)圖像生成過程,這一條件是從真實圖像中提取的。我們采用一種不可控的傳統(tǒng)自回歸模型來生成比較樣本。我們應(yīng)用 t-SNE可視化所有生成圖像的嵌入特征的前兩個主成分。這些嵌入特征是使用 HED 圖提取方法的主干提取的。


如下圖 5 所示,傳統(tǒng)自回歸模型的生成分布與真實圖像之間存在顯著的不對齊,因為傳統(tǒng)模型缺乏條件控制信息。相比之下,CAR 模型生成結(jié)果的分布與真實圖像密切對齊,表明我們的樣本準(zhǔn)確捕捉了 HED 圖的視覺細節(jié),使 HED 嵌入特征更接近真實圖像。這突顯了CAR 模型增強了基于提供的條件控制 C 生成結(jié)果的可控性和準(zhǔn)確性。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

消融研究

在 ImageNet 驗證集上進行消融研究,以探索 CAR 框架中每個組件(包括 F(·)、T(·) 和 G(·))不同功能選擇的影響。

F(·) 的不同功能選擇
探討了不同方法引入條件控制 ck 以形成 sk 在 F(·) 中的影響。具體而言,比較了兩種策略:1)使用 VAR 模型的預(yù)訓(xùn)練 VQ-VAE 編碼器直接將條件圖像映射到不同尺度的標(biāo)記圖;2)我們的方法,通過像素級調(diào)整條件圖像至不同尺度,使用共享的可學(xué)習(xí)卷積編碼器進行控制特征提取。


結(jié)果如表 3 所示,可學(xué)習(xí)編碼器在 IS 分?jǐn)?shù)上顯示出顯著改善,表明圖像質(zhì)量得到提升。我們推測,預(yù)訓(xùn)練的 VQ-VAE 編碼器設(shè)計用于圖像重建,可能無法有效捕捉圖像語義,因此不太適合提取控制語義。圖 6 的可視化結(jié)果也證明了這一點,使用 VQ-VAE 編碼器的生成圖像存在失真和質(zhì)量差的問題。

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

自回歸視覺生成里程碑!比ControlNet和T2I-Adapter 快五倍!北大&騰訊等重磅發(fā)布CAR-AI.x社區(qū)

T(·) 的不同功能選擇
我們設(shè)計了 T(·) 的編碼器以提取準(zhǔn)確有效的控制表示 ?sk。具體而言,我們比較了兩種架構(gòu):1)簡單卷積網(wǎng)絡(luò);2)GPT-2 風(fēng)格的 Transformer。下表 3 和圖 6 顯示,Transformer 相比簡單卷積網(wǎng)絡(luò)基線在圖像質(zhì)量上顯著更高,這歸因于其強大的表示能力。同時,基于 Transformer 的編碼器與預(yù)訓(xùn)練自回歸模型的架構(gòu)相匹配,可能導(dǎo)致更接近的分布,增強后續(xù)注入過程。

G(·) 的不同功能選擇
我們比較了不同的注入函數(shù) G(·),在預(yù)訓(xùn)練自回歸模型中將控制表示 ?sk 注入圖像表示 rk,以更新圖像表示 ?rk。具體而言,我們比較了三種技術(shù):1)對控制表示應(yīng)用零卷積(Zhang et al., 2023),然后加上控制和圖像特征;2)應(yīng)用交叉歸一化,使用圖像表示的均值和方差歸一化控制表示,然后將這兩個特征相加;3)我們的方法,將兩個表示進行拼接,應(yīng)用可學(xué)習(xí)的 LayerNorm 進行歸一化,然后進行線性變換以調(diào)整通道維度。如上面表 3 所示,無論在加法之前是否應(yīng)用零卷積和交叉歸一化,添加圖像和控制特征都會導(dǎo)致 IS 指標(biāo)下降。這表明這些操作導(dǎo)致的圖像質(zhì)量降低,與我們的方法相比,生成結(jié)果在圖像質(zhì)量和自然性上表現(xiàn)較差。我們將此歸因于兩種不同領(lǐng)域表示的不兼容性。盡管交叉歸一化試圖對齊領(lǐng)域間的分布差異,但這種操作是不夠的。因此,拼接這兩個表示,再進行 LayerNorm,更有效地協(xié)調(diào)條件特征和主干特征,從而解決數(shù)據(jù)分布中的差異。

結(jié)論

本文提出了可控自回歸建模(CAR),該模型建立了一種新穎的控制 VAR 生成的范式。CAR 捕捉了強大的多尺度控制表示,這些表示可以無縫集成到預(yù)訓(xùn)練的自回歸模型中。實驗結(jié)果表明,CAR 在可控性和圖像質(zhì)量方面均優(yōu)于現(xiàn)有方法,同時降低了所需的計算成本。CAR 代表了自回歸視覺生成的一個重要進展,為各種可控生成任務(wù)提供了一種靈活、高效且可擴展的解決方案。

討論與未來工作

盡管所提出的 CAR 框架在可控視覺生成方面表現(xiàn)出色,但仍面臨 VAR 模型固有的一些限制。具體而言,依賴于順序token預(yù)測有時會限制模型的效率,特別是在處理長圖像序列或需要在高分辨率下進行精細控制時。CAR 中使用的多尺度注入機制也可以擴展,以探索替代注入策略,例如基于注意力的或自適應(yīng)注入,以進一步增強控制精度。此外,盡管當(dāng)前設(shè)計在遞歸方式中優(yōu)秀地注入了控制信號,但擴展框架以處理更復(fù)雜的任務(wù),如視頻生成,仍然是未來工作的一個開放挑戰(zhàn)。


本文轉(zhuǎn)自 AI生成未來 ,作者:Ziyu Yao等


原文鏈接:??https://mp.weixin.qq.com/s/WpjvAMQiRfW8PfnFjH24Pw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦