自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="yvv04"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))

發(fā)布于 2024-4-17 10:04

瀏覽

0收藏

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2404.01143.pdf

項(xiàng)目鏈接：??https://github.com/mit-han-lab/efficientvit??

今天和大家一起學(xué)習(xí)條件感知神經(jīng)網(wǎng)絡(luò)（CAN），這是一種向圖像生成模型添加控制的新方法。與先前的條件控制方法并行，CAN通過(guò)動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重來(lái)控制圖像生成過(guò)程。這是通過(guò)引入一個(gè)條件感知權(quán)重生成模塊來(lái)實(shí)現(xiàn)的，該模塊根據(jù)輸入條件生成卷積/線性層的條件權(quán)重。

本文在ImageNet上進(jìn)行了類別條件圖像生成以及在COCO上進(jìn)行了文本到圖像的生成測(cè)試。CAN始終為擴(kuò)散Transformer模型（包括DiT和UViT）提供顯著改進(jìn)。特別是，結(jié)合EfficientViT（CaT）的CAN在ImageNet 512×512上實(shí)現(xiàn)了2.78的FID，超過(guò)了DiT-XL/2，同時(shí)每個(gè)采樣步驟需要的MAC數(shù)量減少了52倍。

部分成果展示

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

介紹

大規(guī)模圖像和視頻生成模型已經(jīng)展示了在合成逼真圖像和視頻方面的驚人能力。要將這些模型轉(zhuǎn)化為人類的有效工具，一個(gè)關(guān)鍵步驟是添加控制。本文不希望模型隨機(jī)生成數(shù)據(jù)樣本，而是希望生成模型能夠按照本文的指示生成圖像（例如，類別標(biāo)簽、文本、姿態(tài)）。

為了實(shí)現(xiàn)這一目標(biāo)，已經(jīng)進(jìn)行了大量研究。例如，在GANs中，一個(gè)廣泛采用的解決方案是使用自適應(yīng)歸一化，根據(jù)輸入條件動(dòng)態(tài)調(diào)整和偏移中間特征圖。此外，另一種廣泛采用的技術(shù)是使用交叉注意力或自注意力將條件特征與圖像特征融合。盡管在使用的操作上有所不同，但這些方法分享著相同的基礎(chǔ)機(jī)制，即通過(guò)特征空間操作添加控制。與此同時(shí)，神經(jīng)網(wǎng)絡(luò)權(quán)重（卷積/線性層）對(duì)不同條件保持不變。

本文旨在回答以下問(wèn)題：

可以通過(guò)操縱權(quán)重來(lái)控制圖像生成模型嗎？
受控圖像生成模型能否從這種新的條件控制方法中獲益？

為此，本文引入了條件感知神經(jīng)網(wǎng)絡(luò)（CAN），這是一種基于權(quán)重空間操作的新的條件控制方法。與普通神經(jīng)網(wǎng)絡(luò)不同，CAN引入了一個(gè)額外的權(quán)重生成模塊（如下圖2）。該模塊的輸入是條件embedding，包括用戶指令（例如，類別標(biāo)簽）和擴(kuò)散模型的時(shí)間步長(zhǎng)。模塊的輸出是用于調(diào)整卷積/線性層的靜態(tài)權(quán)重的條件權(quán)重。本文進(jìn)行了大量消融研究實(shí)驗(yàn)，探究了CAN在diffusion transformers上的實(shí)際應(yīng)用。本文的研究揭示了CAN的兩個(gè)關(guān)鍵見(jiàn)解。

首先，與使所有層都具有條件感知能力相比，精心選擇一小部分模塊具有條件感知能力（下圖3）對(duì)于效率和性能（下表1）都是有益的。其次，本文發(fā)現(xiàn)，直接生成條件權(quán)重比自適應(yīng)地合并一組基本靜態(tài)層以進(jìn)行條件控制（下圖4）要更有效。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

本文在兩種代表性的擴(kuò)散transformer模型上評(píng)估了CAN，包括DiT和UViT。CAN為所有這些擴(kuò)散transformer模型實(shí)現(xiàn)了顯著的性能提升，同時(shí)增加的計(jì)算成本可以忽略不計(jì)（下圖7）。本文還發(fā)現(xiàn)，CAN單獨(dú)為圖像生成模型提供了有效的條件控制，其FID較低，CLIP分?jǐn)?shù)較高，優(yōu)于先前的條件控制方法（下表3）。除了將CAN應(yīng)用于現(xiàn)有的擴(kuò)散transformer模型外，本文還通過(guò)將CAN與EfficientViT結(jié)合，構(gòu)建了一個(gè)名為CaT的新型擴(kuò)散transformer模型家族（下圖6）。本文總結(jié)本文的貢獻(xiàn)如下：

本文引入了一種用于控制圖像生成模型的新機(jī)制。據(jù)本文所知，本文的工作是第一個(gè)展示權(quán)重操作在條件控制中有效性的工作。
本文提出了Condition-Aware Neural Network（CAN），這是一種用于控制圖像生成的新條件控制方法。本文還提供了設(shè)計(jì)見(jiàn)解，使CAN在實(shí)踐中可用。
本文的CAN在圖像生成模型上提高性能，在很大程度上優(yōu)于先前的條件控制方法。此外，CAN還可以有助于圖像生成模型的部署。在ImageNet 512×512上實(shí)現(xiàn)更好的FID，本文的CAN模型在每個(gè)采樣步驟中需要的MAC數(shù)量比DiT-XL/2少52倍（上圖1），為擴(kuò)散模型在邊緣設(shè)備上的應(yīng)用鋪平了道路。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

方法

Condition-Aware Neural Network

圖像生成過(guò)程可以看作是從源域（噪聲或嘈雜圖像）到目標(biāo)域（真實(shí)圖像）的映射。對(duì)于受控圖像生成，不同條件（例如，貓圖像的數(shù)據(jù)分布與城堡圖像的數(shù)據(jù)分布）給定時(shí)，目標(biāo)數(shù)據(jù)分布是不同的。此外，擴(kuò)散模型在不同時(shí)間步的輸入數(shù)據(jù)分布也是不同的。盡管存在這些差異，先前的模型對(duì)所有情況使用相同的靜態(tài)卷積/線性層，由于不同子任務(wù)之間的負(fù)遷移，限制了整體性能。為了緩解這個(gè)問(wèn)題，一個(gè)可能的解決方案是為每個(gè)子任務(wù)都有一個(gè)專家模型。然而，由于巨大的成本，這種方法在實(shí)際使用中是不可行的。本文的條件感知神經(jīng)網(wǎng)絡(luò)（CAN）通過(guò)使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)給定條件動(dòng)態(tài)調(diào)整其權(quán)重來(lái)解決這個(gè)問(wèn)題，而不是顯式地?fù)碛袑＜夷Ｐ汀?/p>

上圖2展示了CAN的一般思想。與常規(guī)神經(jīng)網(wǎng)絡(luò)的關(guān)鍵區(qū)別在于CAN具有額外的條件權(quán)重生成模塊。該模塊以條件embeddingc作為輸入，并輸出條件權(quán)重。除了條件權(quán)重外，每一層都有靜態(tài)權(quán)重W。在訓(xùn)練和推理過(guò)程中，通過(guò)對(duì)權(quán)重值進(jìn)行求和，將和W融合成單個(gè)核調(diào)用。這相當(dāng)于在輸入圖像特征上獨(dú)立應(yīng)用和W，然后將它們的輸出相加。

實(shí)用設(shè)計(jì)

哪些模塊應(yīng)該是條件感知的？ 從理論上講，可以使神經(jīng)網(wǎng)絡(luò)中的所有層都是條件感知的。然而，在實(shí)踐中，這可能不是一個(gè)好的設(shè)計(jì)。首先，從性能的角度來(lái)看，具有太多條件感知層可能會(huì)使模型的優(yōu)化變得困難。其次，從效率的角度來(lái)看，雖然為所有層生成條件權(quán)重的計(jì)算開(kāi)銷可以忽略不計(jì)，但會(huì)產(chǎn)生顯著的參數(shù)開(kāi)銷。例如，假設(shè)將條件embedding的維度表示為d（例如，384、512、1024等），將模型的靜態(tài)參數(shù)大小表示為＃params。使用單個(gè)線性層將條件embedding映射到條件權(quán)重需要＃params×d個(gè)參數(shù)，這在實(shí)際應(yīng)用中是不切實(shí)際的。在這項(xiàng)工作中，本文仔細(xì)選擇了一組模塊應(yīng)用CAN來(lái)解決這個(gè)問(wèn)題。

上圖3提供了將CAN應(yīng)用于擴(kuò)散transformer的概述。深度卷積的參數(shù)大小比常規(guī)卷積小得多，使其成為一個(gè)低成本的條件感知候選模塊。因此，本文在FFN中間添加了一個(gè)深度卷積，遵循先前的設(shè)計(jì)。本文使用UViT-S/2在ImageNet 256×256上進(jìn)行消融研究實(shí)驗(yàn)，以確定要成為條件感知模塊的一組模塊。所有模型，包括基線模型，都具有相同的架構(gòu)。唯一的區(qū)別是條件感知模塊的集合不同。

在上表1中總結(jié)了結(jié)果。在消融研究實(shí)驗(yàn)中，有以下觀察：

使模塊成為條件感知并不總是會(huì)提高性能。例如，使用靜態(tài)頭部比使用條件感知頭部的FID更低，CLIP分?jǐn)?shù)更高（上表1中第2行與第4行對(duì)比）。
使深度卷積層、block embedding層和輸出投影層成為條件感知可以顯著提高性能。它將FID從28.32提高到8.82，將CLIP分?jǐn)?shù)從30.09提高到31.74。

基于這些結(jié)果，本文選擇了這種CAN的設(shè)計(jì)。具體細(xì)節(jié)如上圖3所示。對(duì)于深度卷積層和block embedding層，本文為每個(gè)層使用單獨(dú)的條件權(quán)重生成模塊，因?yàn)樗鼈兊膮?shù)大小較小。相反，對(duì)于輸出投影層，本文使用一個(gè)共享的條件權(quán)重生成模塊，因?yàn)樗鼈兊膮?shù)大小較大。由于不同的輸出投影層具有不同的靜態(tài)權(quán)重，因此本文仍然對(duì)不同的輸出投影層使用不同的權(quán)重。

CAN與自適應(yīng)核選擇。與直接生成條件權(quán)重不同，另一種可能的方法是維護(hù)一組基本卷積核，并動(dòng)態(tài)生成縮放參數(shù)來(lái)組合這些基本核。這種方法的參數(shù)開(kāi)銷小于CAN。然而，這種自適應(yīng)核選擇策略無(wú)法達(dá)到CAN的性能（上圖4）。這表明，單純的動(dòng)態(tài)參數(shù)化并不是獲得更好性能的關(guān)鍵；更好的條件感知適應(yīng)能力是關(guān)鍵。

實(shí)現(xiàn)。 由于條件感知層在不同樣本下具有不同的權(quán)重，本文不能進(jìn)行批處理訓(xùn)練和推理。相反，本文必須獨(dú)立地為每個(gè)樣本運(yùn)行核調(diào)用，如下圖5（左）所示。這將顯著減慢GPU上的訓(xùn)練過(guò)程。為了解決這個(gè)問(wèn)題，本文采用了一種高效的CAN實(shí)現(xiàn)方法（下圖5右）。其核心思想是將所有卷積核調(diào)用融合成一個(gè)分組卷積，其中#Groups是批處理大小B。本文在運(yùn)行分組卷積之前進(jìn)行批到通道轉(zhuǎn)換以保留功能。操作后，本文添加通道到批次轉(zhuǎn)換，將特征圖轉(zhuǎn)換為原始格式。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

理論上，使用這種高效的實(shí)現(xiàn)方式，與運(yùn)行靜態(tài)模型相比，訓(xùn)練開(kāi)銷將可以忽略不計(jì)。在實(shí)踐中，由于NVIDIA GPU對(duì)常規(guī)卷積的支持要比對(duì)分組卷積好得多，本文仍然觀察到30%-40%的訓(xùn)練開(kāi)銷。這個(gè)問(wèn)題可以通過(guò)編寫(xiě)定制的CUDA核來(lái)解決。本文將其留給未來(lái)的工作。

實(shí)驗(yàn)

setups

數(shù)據(jù)集。 由于資源限制，本文使用ImageNet數(shù)據(jù)集進(jìn)行類別條件的圖像生成實(shí)驗(yàn)，并使用COCO進(jìn)行文本到圖像生成實(shí)驗(yàn)。對(duì)于大規(guī)模文本到圖像生成實(shí)驗(yàn)，本文將其留給未來(lái)的工作。

評(píng)估指標(biāo)。 按照常見(jiàn)做法，本文使用FID作為圖像質(zhì)量的評(píng)估指標(biāo)。此外，本文使用CLIP分?jǐn)?shù)作為可控性的指標(biāo)。本文使用公開(kāi)的CLIP ViT-B/32來(lái)衡量CLIP分?jǐn)?shù)，遵循的做法。文本prompt是根據(jù)CLIP的zero-shot圖像分類設(shè)置構(gòu)建的。

實(shí)現(xiàn)細(xì)節(jié)。 本文將CAN應(yīng)用于最近的擴(kuò)散transformer模型，包括DiT和UViT。本文遵循官方論文或GitHub存儲(chǔ)庫(kù)中建議的訓(xùn)練設(shè)置。除非另有說(shuō)明，默認(rèn)情況下，所有模型均使用無(wú)分類器引導(dǎo)?；€模型的架構(gòu)與CAN模型相同，都在FFN層中使用深度卷積。本文使用Pytorch實(shí)現(xiàn)本文的模型，并使用A6000 GPU進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中使用自動(dòng)混合精度。除了將CAN應(yīng)用于現(xiàn)有模型外，本文還通過(guò)將CAN與EfficientViT結(jié)合，構(gòu)建了一個(gè)名為CaT的新型擴(kuò)散transformer家族。CaT的宏觀架構(gòu)如上圖6所示。

消融研究

本文對(duì)所有模型進(jìn)行了80個(gè)epoch的訓(xùn)練，批量大小為1024（大約10萬(wàn)次迭代），用于消融研究實(shí)驗(yàn)，除非另有明確說(shuō)明。所有模型使用DPM-Solver進(jìn)行圖像采樣，步數(shù)為50。

CAN的有效性。 上圖7總結(jié)了CAN在各種UViT和DiT變體上的結(jié)果。對(duì)于所有變體，CAN顯著提高了圖像質(zhì)量和可控性，超過(guò)了基線。此外，這些改進(jìn)帶來(lái)的計(jì)算成本增加可以忽略不計(jì)。因此，CAN通過(guò)以更低成本的模型實(shí)現(xiàn)相同的FID和CLIP分?jǐn)?shù)，也提高了效率。

下圖8比較了UViT-S/2和DiT-S/2上CAN和基線模型的訓(xùn)練曲線。本文可以看到，即使對(duì)這兩個(gè)模型進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練，絕對(duì)改善仍然顯著。這表明改善不是由于更快的收斂而來(lái)，而是通過(guò)添加CAN提高了模型的性能上限。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

分析。 對(duì)于擴(kuò)散模型，條件embedding包含類別標(biāo)簽和時(shí)間步長(zhǎng)。為了分析哪一個(gè)對(duì)條件權(quán)重生成過(guò)程更重要，本文使用UViT-S/2進(jìn)行消融研究實(shí)驗(yàn)，并在下表2中總結(jié)結(jié)果。本文發(fā)現(xiàn)：

在權(quán)重生成過(guò)程中，類別標(biāo)簽信息比時(shí)間步信息更重要。僅添加類別標(biāo)簽比僅添加時(shí)間步長(zhǎng)可以使FID降低5.15，CLIP分?jǐn)?shù)提高0.33。
包括類別標(biāo)簽和時(shí)間步長(zhǎng)在條件embedding中可以獲得最佳結(jié)果。因此，在接下來(lái)的實(shí)驗(yàn)中，本文堅(jiān)持采用這種設(shè)計(jì)。

?

與先前條件控制方法的比較在之前的實(shí)驗(yàn)中，本文保留了原來(lái)的條件控制添加 CAN 時(shí)，DiT（自適應(yīng)歸一化）和 UViT（以條件為標(biāo)記的注意力）方法保持不變。為了看看CAN是否可以單獨(dú)工作以及CAN與以前的條件控制方法的比較，進(jìn)行實(shí)驗(yàn)并提供上表3中的結(jié)果，有以下發(fā)現(xiàn)

CAN單獨(dú)可以作為一種有效的條件控制方法。例如，CAN單獨(dú)在DiT-S/2上比自適應(yīng)歸一化實(shí)現(xiàn)了13.00更好的FID和0.97更高的CLIP分?jǐn)?shù)。此外，CAN單獨(dú)在UViT-S/2上比注意力（條件作為標(biāo)記）實(shí)現(xiàn)了19.53更低的FID和1.66更高的CLIP分?jǐn)?shù)。
CAN可以與其他條件控制方法結(jié)合以獲得更好的結(jié)果。例如，將CAN與自適應(yīng)歸一化結(jié)合，可以為DiT-S/2提供最佳結(jié)果。
對(duì)于UViT模型，將CAN與注意力（條件作為tokens）結(jié)合會(huì)略微降低性能。因此，在接下來(lái)的實(shí)驗(yàn)中，本文將在UViT模型上使用單獨(dú)的CAN。

與最先進(jìn)模型的比較

將本文的最終模型與ImageNet和COCO上的其他擴(kuò)散模型進(jìn)行比較。結(jié)果總結(jié)在下表4和下表6中。對(duì)于CaT模型，本文使用UniPC來(lái)采樣圖像，以減少采樣步驟的數(shù)量。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

在ImageNet 256×256上進(jìn)行類別條件生成。 如上表4（底部）所示，使用無(wú)分類器引導(dǎo)（cfg），本文的CaT-B0在ImageNet 256×256上實(shí)現(xiàn)了2.09的FID，優(yōu)于DiT-XL/2和UViT-H/2。更重要的是，本文的CaT-B0比這些模型要高效得多：比DiT-XL/2少了9.9×的MAC，比UViT-H/2少了11.1×的MAC。在沒(méi)有分類器引導(dǎo)的情況下，本文的CaT-B0在所有比較的模型中也實(shí)現(xiàn)了最低的FID（8.81 vs. 9.62 vs. 10.56）。

ImageNet 512×512 上的類條件生成 在更具挑戰(zhàn)性的512×512圖像生成任務(wù)上，本文觀察到CAN的優(yōu)點(diǎn)變得更加顯著。例如，本文的CAN（UViT-S-Deep/4）可以與UViT-H的性能相匹配（4.04 vs. 4.05），而每個(gè)擴(kuò)散步驟只需要UViT-H計(jì)算成本的12%。此外，本文的CaT-L0在ImageNet 512×512上實(shí)現(xiàn)了2.78的FID，優(yōu)于每個(gè)擴(kuò)散步驟需要52×更高計(jì)算成本的DiT-XL/2（3.04 FID）。此外，通過(guò)略微擴(kuò)大模型，本文的CaT-L1將FID從2.78提高到2.48。

除了計(jì)算成本比較外，下表5還比較了CaT-L0和DiT-XL/2在NVIDIA Jetson AGX Orin上的性能。延遲是使用TensorRT，fp16測(cè)量的。在ImageNet 512×512上提供更好的FID，結(jié)合訓(xùn)練無(wú)關(guān)的快速采樣方法（UniPC），CaT-L0在Orin上比DiT-XL/2快229倍。通過(guò)將CaT與基于訓(xùn)練的少步驟方法結(jié)合起來(lái)，有可能進(jìn)一步推動(dòng)效率的前沿，展示在邊緣設(shè)備上實(shí)現(xiàn)實(shí)時(shí)擴(kuò)散模型應(yīng)用的潛力。

穩(wěn)定提升！CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

除了定量結(jié)果外，上圖9展示了由CAN模型隨機(jī)生成的圖像樣本，展示了本文模型在生成高質(zhì)量圖像方面的能力。

在COCO 256×256上的文本到圖像

相關(guān)工作

受控圖像生成。 受控圖像生成要求模型將條件信息納入計(jì)算過(guò)程中，以生成相關(guān)的圖像。社區(qū)中已經(jīng)開(kāi)發(fā)了各種技術(shù)用于受控圖像生成。一個(gè)典型的例子是自適應(yīng)歸一化，它從條件信息中回歸出尺度和偏移參數(shù)，并應(yīng)用特征級(jí)別的仿射變換來(lái)影響輸出。除了自適應(yīng)歸一化，另一個(gè)典型的方法是將條件信息視為標(biāo)記，并使用交叉注意力或自注意力來(lái)融合條件信息。ControlNet是另一種代表性技術(shù)，它使用特征級(jí)別的加法來(lái)為預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型添加額外的控制。與這些技術(shù)并行，本工作探索了另一種機(jī)制，用于將條件控制添加到圖像生成模型中，即使神經(jīng)網(wǎng)絡(luò)層（conv/linear）的權(quán)重具有條件感知性。

動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。 本文的工作可以被視為一種新型的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。除了在本文中探討的添加條件控制外，動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于許多深度學(xué)習(xí)應(yīng)用。例如，CondConv提出根據(jù)輸入圖像特征動(dòng)態(tài)組合一組基礎(chǔ)卷積核，以增加模型容量。類似地，專家混合技術(shù)使用門(mén)控網(wǎng)絡(luò)動(dòng)態(tài)地將輸入路由到不同的專家。為了實(shí)現(xiàn)高效部署，一次性全網(wǎng)絡(luò)和可調(diào)整神經(jīng)網(wǎng)絡(luò)根據(jù)給定的效率約束動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)，以實(shí)現(xiàn)效率和準(zhǔn)確性之間更好的權(quán)衡。

權(quán)重生成網(wǎng)絡(luò)。 本文的條件權(quán)重生成模塊可以被視為一種專門(mén)設(shè)計(jì)用于向生成模型添加條件控制的新型權(quán)重生成網(wǎng)絡(luò)。在其他情況下，一些先前的工作利用權(quán)重生成網(wǎng)絡(luò)。例如，[33]提出使用一個(gè)小網(wǎng)絡(luò)為一個(gè)更大的網(wǎng)絡(luò)生成權(quán)重。這些權(quán)重對(duì)于數(shù)據(jù)集中的每個(gè)示例都是相同的，以提高參數(shù)效率。此外，權(quán)重生成網(wǎng)絡(luò)已被應(yīng)用于神經(jīng)結(jié)構(gòu)搜索，以預(yù)測(cè)給定其架構(gòu)的神經(jīng)網(wǎng)絡(luò)的權(quán)重，以降低神經(jīng)結(jié)構(gòu)搜索的訓(xùn)練和搜索成本。

高效深度學(xué)習(xí)計(jì)算。 本文的工作也與高效深度學(xué)習(xí)計(jì)算聯(lián)系在一起，旨在提高深度學(xué)習(xí)模型的效率，使它們適合在硬件上部署。最先進(jìn)的圖像生成模型具有巨大的計(jì)算和內(nèi)存成本，這使得在資源受限的邊緣設(shè)備上部署它們并保持高質(zhì)量具有挑戰(zhàn)性。本文的工作可以通過(guò)提供相同性能但使用更少的擴(kuò)散步驟和更低成本模型來(lái)提高受控生成模型的效率。對(duì)于未來(lái)的工作，本文將探索將本文的工作與高效深度學(xué)習(xí)計(jì)算技術(shù)結(jié)合起來(lái)，以進(jìn)一步提高效率。

結(jié)論

這項(xiàng)工作研究了通過(guò)操縱權(quán)重向圖像生成模型添加控制。本文引入了一種新的條件控制方法，稱為條件感知神經(jīng)網(wǎng)絡(luò)（CAN），并提供了高效實(shí)用的設(shè)計(jì)，使CAN在實(shí)踐中可用。本文進(jìn)行了廣泛的實(shí)驗(yàn)，使用ImageNet進(jìn)行類別條件生成和使用COCO進(jìn)行文本到圖像生成，以評(píng)估CAN的有效性。CAN相對(duì)于先前的條件控制方法實(shí)現(xiàn)了一致且顯著的改進(jìn)。本文還通過(guò)將CAN與EfficientViT結(jié)合，構(gòu)建了一個(gè)新的擴(kuò)散transformer模型系列。對(duì)于未來(lái)的工作，本文將把CAN應(yīng)用于更具挑戰(zhàn)性的任務(wù)，如大規(guī)模文本到圖像生成、視頻生成等。

本文轉(zhuǎn)自 AI生成未來(lái) ，作者：Han Cai等

原文鏈接:??https://mp.weixin.qq.com/s/ROX6yyh2pfOg0pcz778GZw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.1w瀏覽 ? 0回復(fù)
完美提升Stable Diffusion生成質(zhì)量和效率！UniFL:統(tǒng)一反饋學(xué)習(xí)框架

angel ? 3957瀏覽 ? 0回復(fù)
英偉達(dá)股價(jià)暴跌！或與 Llama 3 發(fā)布有關(guān)？

開(kāi)發(fā)者阿橙 ? 3071瀏覽 ? 0回復(fù)
清華SuperBench全球測(cè)評(píng)出爐，Claude 3拿下多個(gè)冠軍！合成數(shù)據(jù)才是人類未來(lái)？

duhorse ? 2552瀏覽 ? 0回復(fù)
英偉達(dá)開(kāi)源大模型對(duì)齊框架—NeMo-Aligner

Aceryt ? 2752瀏覽 ? 0回復(fù)
效果超越ControlNet+IP-Adapter和FreeControl！Ctrl-X：可控文生圖新框架（加州大學(xué)&英偉達(dá)）

angel ? 3919瀏覽 ? 0回復(fù)
又來(lái)一個(gè)RAG：RankRAG，英偉達(dá)RAG新思路

大語(yǔ)言模型論文跟蹤 ? 2558瀏覽 ? 0回復(fù)
IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔

angel ? 3069瀏覽 ? 0回復(fù)
生成式模型實(shí)現(xiàn)的區(qū)別——VAE、GAN、Diffusion和transformer

AI探索時(shí)代 ? 2857瀏覽 ? 0回復(fù)
8B參數(shù)媲美GPT-4o mini | 英偉達(dá)&MIT等發(fā)布NVILA：前沿高效

angel ? 2690瀏覽 ? 0回復(fù)
英偉達(dá)NVLM多模態(tài)大模型細(xì)節(jié)和數(shù)據(jù)集

大模型自然語(yǔ)言處理 ? 2234瀏覽 ? 0回復(fù)
MIT：LLM的思考方式竟然和大腦相似

AIGC前沿技術(shù)追蹤 ? 2124瀏覽 ? 0回復(fù)
“大模型+知識(shí)圖譜”雙輪驅(qū)動(dòng)的見(jiàn)解、技術(shù)和評(píng)估 - 英偉達(dá)的GraphRAG

知識(shí)圖譜科技 ? 2434瀏覽 ? 0回復(fù)
英偉達(dá)開(kāi)源世界大模型，完美模擬物理世界！

Aceryt ? 2462瀏覽 ? 0回復(fù)
英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

大模型自然語(yǔ)言處理 ? 1628瀏覽 ? 0回復(fù)
英偉達(dá)發(fā)布天氣模型CorrDiff，預(yù)測(cè)效率大漲

Aceryt ? 1596瀏覽 ? 0回復(fù)
英偉達(dá)全力發(fā)展AI Agent！開(kāi)源專屬大模型，最強(qiáng)AI工廠

Aceryt ? 1305瀏覽 ? 0回復(fù)
18種RAG技術(shù)大比拼：誰(shuí)才是檢索增強(qiáng)生成的最佳選擇？

Halo咯咯 ? 1477瀏覽 ? 0回復(fù)
英偉達(dá)押注Agent新基建！AI專屬搜索引擎問(wèn)世

探索AGI ? 1146瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： CVPR 2024 Highlight | 讓SD乖乖學(xué)會(huì)文本生360°全景！PanFusion 強(qiáng)勢(shì)來(lái)襲！

下一篇：擴(kuò)散模型中進(jìn)行條件插值？AID:無(wú)需訓(xùn)練，保證一致、平滑和保真度(新加坡國(guó)立&南洋理工)

社區(qū)精華內(nèi)容

目錄