自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))

發(fā)布于 2024-4-17 10:04
瀏覽
0收藏

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2404.01143.pdf

項(xiàng)目鏈接:??https://github.com/mit-han-lab/efficientvit??


今天和大家一起學(xué)習(xí)條件感知神經(jīng)網(wǎng)絡(luò)(CAN),這是一種向圖像生成模型添加控制的新方法。與先前的條件控制方法并行,CAN通過(guò)動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重來(lái)控制圖像生成過(guò)程。這是通過(guò)引入一個(gè)條件感知權(quán)重生成模塊來(lái)實(shí)現(xiàn)的,該模塊根據(jù)輸入條件生成卷積/線性層的條件權(quán)重。


本文在ImageNet上進(jìn)行了類別條件圖像生成以及在COCO上進(jìn)行了文本到圖像的生成測(cè)試。CAN始終為擴(kuò)散Transformer模型(包括DiT和UViT)提供顯著改進(jìn)。特別是,結(jié)合EfficientViT(CaT)的CAN在ImageNet 512×512上實(shí)現(xiàn)了2.78的FID,超過(guò)了DiT-XL/2,同時(shí)每個(gè)采樣步驟需要的MAC數(shù)量減少了52倍。

部分成果展示

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

介紹

大規(guī)模圖像和視頻生成模型已經(jīng)展示了在合成逼真圖像和視頻方面的驚人能力。要將這些模型轉(zhuǎn)化為人類的有效工具,一個(gè)關(guān)鍵步驟是添加控制。本文不希望模型隨機(jī)生成數(shù)據(jù)樣本,而是希望生成模型能夠按照本文的指示生成圖像(例如,類別標(biāo)簽、文本、姿態(tài))。


為了實(shí)現(xiàn)這一目標(biāo),已經(jīng)進(jìn)行了大量研究。例如,在GANs中,一個(gè)廣泛采用的解決方案是使用自適應(yīng)歸一化,根據(jù)輸入條件動(dòng)態(tài)調(diào)整和偏移中間特征圖。此外,另一種廣泛采用的技術(shù)是使用交叉注意力或自注意力將條件特征與圖像特征融合。盡管在使用的操作上有所不同,但這些方法分享著相同的基礎(chǔ)機(jī)制,即通過(guò)特征空間操作添加控制。與此同時(shí),神經(jīng)網(wǎng)絡(luò)權(quán)重(卷積/線性層)對(duì)不同條件保持不變。

本文旨在回答以下問(wèn)題:

  • 可以通過(guò)操縱權(quán)重來(lái)控制圖像生成模型嗎?
  • 受控圖像生成模型能否從這種新的條件控制方法中獲益?

為此,本文引入了條件感知神經(jīng)網(wǎng)絡(luò)(CAN),這是一種基于權(quán)重空間操作的新的條件控制方法。與普通神經(jīng)網(wǎng)絡(luò)不同,CAN引入了一個(gè)額外的權(quán)重生成模塊(如下圖2)。該模塊的輸入是條件embedding,包括用戶指令(例如,類別標(biāo)簽)和擴(kuò)散模型的時(shí)間步長(zhǎng)。模塊的輸出是用于調(diào)整卷積/線性層的靜態(tài)權(quán)重的條件權(quán)重。本文進(jìn)行了大量消融研究實(shí)驗(yàn),探究了CAN在diffusion transformers上的實(shí)際應(yīng)用。本文的研究揭示了CAN的兩個(gè)關(guān)鍵見(jiàn)解。


首先,與使所有層都具有條件感知能力相比,精心選擇一小部分模塊具有條件感知能力(下圖3)對(duì)于效率和性能(下表1)都是有益的。其次,本文發(fā)現(xiàn),直接生成條件權(quán)重比自適應(yīng)地合并一組基本靜態(tài)層以進(jìn)行條件控制(下圖4)要更有效。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

本文在兩種代表性的擴(kuò)散transformer模型上評(píng)估了CAN,包括DiT和UViT。CAN為所有這些擴(kuò)散transformer模型實(shí)現(xiàn)了顯著的性能提升,同時(shí)增加的計(jì)算成本可以忽略不計(jì)(下圖7)。本文還發(fā)現(xiàn),CAN單獨(dú)為圖像生成模型提供了有效的條件控制,其FID較低,CLIP分?jǐn)?shù)較高,優(yōu)于先前的條件控制方法(下表3)。除了將CAN應(yīng)用于現(xiàn)有的擴(kuò)散transformer模型外,本文還通過(guò)將CAN與EfficientViT結(jié)合,構(gòu)建了一個(gè)名為CaT的新型擴(kuò)散transformer模型家族(下圖6)。本文總結(jié)本文的貢獻(xiàn)如下:


  • 本文引入了一種用于控制圖像生成模型的新機(jī)制。據(jù)本文所知,本文的工作是第一個(gè)展示權(quán)重操作在條件控制中有效性的工作
  • 本文提出了Condition-Aware Neural Network(CAN),這是一種用于控制圖像生成的新條件控制方法。本文還提供了設(shè)計(jì)見(jiàn)解,使CAN在實(shí)踐中可用。
  • 本文的CAN在圖像生成模型上提高性能,在很大程度上優(yōu)于先前的條件控制方法。此外,CAN還可以有助于圖像生成模型的部署。在ImageNet 512×512上實(shí)現(xiàn)更好的FID,本文的CAN模型在每個(gè)采樣步驟中需要的MAC數(shù)量比DiT-XL/2少52倍(上圖1),為擴(kuò)散模型在邊緣設(shè)備上的應(yīng)用鋪平了道路。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

方法

Condition-Aware Neural Network

圖像生成過(guò)程可以看作是從源域(噪聲或嘈雜圖像)到目標(biāo)域(真實(shí)圖像)的映射。對(duì)于受控圖像生成,不同條件(例如,貓圖像的數(shù)據(jù)分布與城堡圖像的數(shù)據(jù)分布)給定時(shí),目標(biāo)數(shù)據(jù)分布是不同的。此外,擴(kuò)散模型在不同時(shí)間步的輸入數(shù)據(jù)分布也是不同的。盡管存在這些差異,先前的模型對(duì)所有情況使用相同的靜態(tài)卷積/線性層,由于不同子任務(wù)之間的負(fù)遷移,限制了整體性能。為了緩解這個(gè)問(wèn)題,一個(gè)可能的解決方案是為每個(gè)子任務(wù)都有一個(gè)專家模型。然而,由于巨大的成本,這種方法在實(shí)際使用中是不可行的。本文的條件感知神經(jīng)網(wǎng)絡(luò)(CAN)通過(guò)使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)給定條件動(dòng)態(tài)調(diào)整其權(quán)重來(lái)解決這個(gè)問(wèn)題,而不是顯式地?fù)碛袑<夷P汀?/p>


上圖2展示了CAN的一般思想。與常規(guī)神經(jīng)網(wǎng)絡(luò)的關(guān)鍵區(qū)別在于CAN具有額外的條件權(quán)重生成模塊。該模塊以條件embeddingc作為輸入,并輸出條件權(quán)重。除了條件權(quán)重外,每一層都有靜態(tài)權(quán)重W。在訓(xùn)練和推理過(guò)程中,通過(guò)對(duì)權(quán)重值進(jìn)行求和,將和W融合成單個(gè)核調(diào)用。這相當(dāng)于在輸入圖像特征上獨(dú)立應(yīng)用和W,然后將它們的輸出相加。

實(shí)用設(shè)計(jì)

哪些模塊應(yīng)該是條件感知的? 從理論上講,可以使神經(jīng)網(wǎng)絡(luò)中的所有層都是條件感知的。然而,在實(shí)踐中,這可能不是一個(gè)好的設(shè)計(jì)。首先,從性能的角度來(lái)看,具有太多條件感知層可能會(huì)使模型的優(yōu)化變得困難。其次,從效率的角度來(lái)看,雖然為所有層生成條件權(quán)重的計(jì)算開(kāi)銷可以忽略不計(jì),但會(huì)產(chǎn)生顯著的參數(shù)開(kāi)銷。例如,假設(shè)將條件embedding的維度表示為d(例如,384、512、1024等),將模型的靜態(tài)參數(shù)大小表示為#params。使用單個(gè)線性層將條件embedding映射到條件權(quán)重需要#params×d個(gè)參數(shù),這在實(shí)際應(yīng)用中是不切實(shí)際的。在這項(xiàng)工作中,本文仔細(xì)選擇了一組模塊應(yīng)用CAN來(lái)解決這個(gè)問(wèn)題。


上圖3提供了將CAN應(yīng)用于擴(kuò)散transformer的概述。深度卷積的參數(shù)大小比常規(guī)卷積小得多,使其成為一個(gè)低成本的條件感知候選模塊。因此,本文在FFN中間添加了一個(gè)深度卷積,遵循先前的設(shè)計(jì)。本文使用UViT-S/2在ImageNet 256×256上進(jìn)行消融研究實(shí)驗(yàn),以確定要成為條件感知模塊的一組模塊。所有模型,包括基線模型,都具有相同的架構(gòu)。唯一的區(qū)別是條件感知模塊的集合不同。


在上表1中總結(jié)了結(jié)果。在消融研究實(shí)驗(yàn)中,有以下觀察:

  • 使模塊成為條件感知并不總是會(huì)提高性能。例如,使用靜態(tài)頭部比使用條件感知頭部的FID更低,CLIP分?jǐn)?shù)更高(上表1中第2行與第4行對(duì)比)。
  • 使深度卷積層、block embedding層和輸出投影層成為條件感知可以顯著提高性能。它將FID從28.32提高到8.82,將CLIP分?jǐn)?shù)從30.09提高到31.74。


基于這些結(jié)果,本文選擇了這種CAN的設(shè)計(jì)。具體細(xì)節(jié)如上圖3所示。對(duì)于深度卷積層和block embedding層,本文為每個(gè)層使用單獨(dú)的條件權(quán)重生成模塊,因?yàn)樗鼈兊膮?shù)大小較小。相反,對(duì)于輸出投影層,本文使用一個(gè)共享的條件權(quán)重生成模塊,因?yàn)樗鼈兊膮?shù)大小較大。由于不同的輸出投影層具有不同的靜態(tài)權(quán)重,因此本文仍然對(duì)不同的輸出投影層使用不同的權(quán)重。


CAN與自適應(yīng)核選擇。與直接生成條件權(quán)重不同,另一種可能的方法是維護(hù)一組基本卷積核,并動(dòng)態(tài)生成縮放參數(shù)來(lái)組合這些基本核。這種方法的參數(shù)開(kāi)銷小于CAN。然而,這種自適應(yīng)核選擇策略無(wú)法達(dá)到CAN的性能(上圖4)。這表明,單純的動(dòng)態(tài)參數(shù)化并不是獲得更好性能的關(guān)鍵;更好的條件感知適應(yīng)能力是關(guān)鍵。


實(shí)現(xiàn)。 由于條件感知層在不同樣本下具有不同的權(quán)重,本文不能進(jìn)行批處理訓(xùn)練和推理。相反,本文必須獨(dú)立地為每個(gè)樣本運(yùn)行核調(diào)用,如下圖5(左)所示。這將顯著減慢GPU上的訓(xùn)練過(guò)程。為了解決這個(gè)問(wèn)題,本文采用了一種高效的CAN實(shí)現(xiàn)方法(下圖5右)。其核心思想是將所有卷積核調(diào)用融合成一個(gè)分組卷積,其中#Groups是批處理大小B。本文在運(yùn)行分組卷積之前進(jìn)行批到通道轉(zhuǎn)換以保留功能。操作后,本文添加通道到批次轉(zhuǎn)換,將特征圖轉(zhuǎn)換為原始格式。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

理論上,使用這種高效的實(shí)現(xiàn)方式,與運(yùn)行靜態(tài)模型相比,訓(xùn)練開(kāi)銷將可以忽略不計(jì)。在實(shí)踐中,由于NVIDIA GPU對(duì)常規(guī)卷積的支持要比對(duì)分組卷積好得多,本文仍然觀察到30%-40%的訓(xùn)練開(kāi)銷。這個(gè)問(wèn)題可以通過(guò)編寫(xiě)定制的CUDA核來(lái)解決。本文將其留給未來(lái)的工作。

實(shí)驗(yàn)

setups

數(shù)據(jù)集。 由于資源限制,本文使用ImageNet數(shù)據(jù)集進(jìn)行類別條件的圖像生成實(shí)驗(yàn),并使用COCO進(jìn)行文本到圖像生成實(shí)驗(yàn)。對(duì)于大規(guī)模文本到圖像生成實(shí)驗(yàn),本文將其留給未來(lái)的工作。


評(píng)估指標(biāo)。 按照常見(jiàn)做法,本文使用FID作為圖像質(zhì)量的評(píng)估指標(biāo)。此外,本文使用CLIP分?jǐn)?shù)作為可控性的指標(biāo)。本文使用公開(kāi)的CLIP ViT-B/32來(lái)衡量CLIP分?jǐn)?shù),遵循的做法。文本prompt是根據(jù)CLIP的zero-shot圖像分類設(shè)置構(gòu)建的。


實(shí)現(xiàn)細(xì)節(jié)。 本文將CAN應(yīng)用于最近的擴(kuò)散transformer模型,包括DiT和UViT。本文遵循官方論文或GitHub存儲(chǔ)庫(kù)中建議的訓(xùn)練設(shè)置。除非另有說(shuō)明,默認(rèn)情況下,所有模型均使用無(wú)分類器引導(dǎo)?;€模型的架構(gòu)與CAN模型相同,都在FFN層中使用深度卷積。本文使用Pytorch實(shí)現(xiàn)本文的模型,并使用A6000 GPU進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中使用自動(dòng)混合精度。除了將CAN應(yīng)用于現(xiàn)有模型外,本文還通過(guò)將CAN與EfficientViT結(jié)合,構(gòu)建了一個(gè)名為CaT的新型擴(kuò)散transformer家族。CaT的宏觀架構(gòu)如上圖6所示。

消融研究

本文對(duì)所有模型進(jìn)行了80個(gè)epoch的訓(xùn)練,批量大小為1024(大約10萬(wàn)次迭代),用于消融研究實(shí)驗(yàn),除非另有明確說(shuō)明。所有模型使用DPM-Solver進(jìn)行圖像采樣,步數(shù)為50。


CAN的有效性。 上圖7總結(jié)了CAN在各種UViT和DiT變體上的結(jié)果。對(duì)于所有變體,CAN顯著提高了圖像質(zhì)量和可控性,超過(guò)了基線。此外,這些改進(jìn)帶來(lái)的計(jì)算成本增加可以忽略不計(jì)。因此,CAN通過(guò)以更低成本的模型實(shí)現(xiàn)相同的FID和CLIP分?jǐn)?shù),也提高了效率。

下圖8比較了UViT-S/2和DiT-S/2上CAN和基線模型的訓(xùn)練曲線。本文可以看到,即使對(duì)這兩個(gè)模型進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練,絕對(duì)改善仍然顯著。這表明改善不是由于更快的收斂而來(lái),而是通過(guò)添加CAN提高了模型的性能上限。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

分析。 對(duì)于擴(kuò)散模型,條件embedding包含類別標(biāo)簽和時(shí)間步長(zhǎng)。為了分析哪一個(gè)對(duì)條件權(quán)重生成過(guò)程更重要,本文使用UViT-S/2進(jìn)行消融研究實(shí)驗(yàn),并在下表2中總結(jié)結(jié)果。本文發(fā)現(xiàn):

  • 在權(quán)重生成過(guò)程中,類別標(biāo)簽信息比時(shí)間步信息更重要。僅添加類別標(biāo)簽比僅添加時(shí)間步長(zhǎng)可以使FID降低5.15,CLIP分?jǐn)?shù)提高0.33。
  • 包括類別標(biāo)簽和時(shí)間步長(zhǎng)在條件embedding中可以獲得最佳結(jié)果。因此,在接下來(lái)的實(shí)驗(yàn)中,本文堅(jiān)持采用這種設(shè)計(jì)。

?

與先前條件控制方法的比較在之前的實(shí)驗(yàn)中,本文保留了原來(lái)的條件控制添加 CAN 時(shí),DiT(自適應(yīng)歸一化)和 UViT(以條件為標(biāo)記的注意力)方法保持不變。為了看看CAN是否可以單獨(dú)工作以及CAN與以前的條件控制方法的比較,進(jìn)行實(shí)驗(yàn)并提供上表3中的結(jié)果,有以下發(fā)現(xiàn)

  • CAN單獨(dú)可以作為一種有效的條件控制方法。例如,CAN單獨(dú)在DiT-S/2上比自適應(yīng)歸一化實(shí)現(xiàn)了13.00更好的FID和0.97更高的CLIP分?jǐn)?shù)。此外,CAN單獨(dú)在UViT-S/2上比注意力(條件作為標(biāo)記)實(shí)現(xiàn)了19.53更低的FID和1.66更高的CLIP分?jǐn)?shù)。
  • CAN可以與其他條件控制方法結(jié)合以獲得更好的結(jié)果。例如,將CAN與自適應(yīng)歸一化結(jié)合,可以為DiT-S/2提供最佳結(jié)果。
  • 對(duì)于UViT模型,將CAN與注意力(條件作為tokens)結(jié)合會(huì)略微降低性能。因此,在接下來(lái)的實(shí)驗(yàn)中,本文將在UViT模型上使用單獨(dú)的CAN。

與最先進(jìn)模型的比較

將本文的最終模型與ImageNet和COCO上的其他擴(kuò)散模型進(jìn)行比較。結(jié)果總結(jié)在下表4和下表6中。對(duì)于CaT模型,本文使用UniPC來(lái)采樣圖像,以減少采樣步驟的數(shù)量。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

在ImageNet 256×256上進(jìn)行類別條件生成。 如上表4(底部)所示,使用無(wú)分類器引導(dǎo)(cfg),本文的CaT-B0在ImageNet 256×256上實(shí)現(xiàn)了2.09的FID,優(yōu)于DiT-XL/2和UViT-H/2。更重要的是,本文的CaT-B0比這些模型要高效得多:比DiT-XL/2少了9.9×的MAC,比UViT-H/2少了11.1×的MAC。在沒(méi)有分類器引導(dǎo)的情況下,本文的CaT-B0在所有比較的模型中也實(shí)現(xiàn)了最低的FID(8.81 vs. 9.62 vs. 10.56)。


ImageNet 512×512 上的類條件生成 在更具挑戰(zhàn)性的512×512圖像生成任務(wù)上,本文觀察到CAN的優(yōu)點(diǎn)變得更加顯著。例如,本文的CAN(UViT-S-Deep/4)可以與UViT-H的性能相匹配(4.04 vs. 4.05),而每個(gè)擴(kuò)散步驟只需要UViT-H計(jì)算成本的12%。此外,本文的CaT-L0在ImageNet 512×512上實(shí)現(xiàn)了2.78的FID,優(yōu)于每個(gè)擴(kuò)散步驟需要52×更高計(jì)算成本的DiT-XL/2(3.04 FID)。此外,通過(guò)略微擴(kuò)大模型,本文的CaT-L1將FID從2.78提高到2.48。


除了計(jì)算成本比較外,下表5還比較了CaT-L0和DiT-XL/2在NVIDIA Jetson AGX Orin上的性能。延遲是使用TensorRT,fp16測(cè)量的。在ImageNet 512×512上提供更好的FID,結(jié)合訓(xùn)練無(wú)關(guān)的快速采樣方法(UniPC),CaT-L0在Orin上比DiT-XL/2快229倍。通過(guò)將CaT與基于訓(xùn)練的少步驟方法結(jié)合起來(lái),有可能進(jìn)一步推動(dòng)效率的前沿,展示在邊緣設(shè)備上實(shí)現(xiàn)實(shí)時(shí)擴(kuò)散模型應(yīng)用的潛力。

穩(wěn)定提升!CAN和Diffusion Transformer才是最佳拍檔(MIT&清華&英偉達(dá))-AI.x社區(qū)

除了定量結(jié)果外,上圖9展示了由CAN模型隨機(jī)生成的圖像樣本,展示了本文模型在生成高質(zhì)量圖像方面的能力。


在COCO 256×256上的文本到圖像 

相關(guān)工作

受控圖像生成。 受控圖像生成要求模型將條件信息納入計(jì)算過(guò)程中,以生成相關(guān)的圖像。社區(qū)中已經(jīng)開(kāi)發(fā)了各種技術(shù)用于受控圖像生成。一個(gè)典型的例子是自適應(yīng)歸一化,它從條件信息中回歸出尺度和偏移參數(shù),并應(yīng)用特征級(jí)別的仿射變換來(lái)影響輸出。除了自適應(yīng)歸一化,另一個(gè)典型的方法是將條件信息視為標(biāo)記,并使用交叉注意力或自注意力來(lái)融合條件信息。ControlNet是另一種代表性技術(shù),它使用特征級(jí)別的加法來(lái)為預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型添加額外的控制。與這些技術(shù)并行,本工作探索了另一種機(jī)制,用于將條件控制添加到圖像生成模型中,即使神經(jīng)網(wǎng)絡(luò)層(conv/linear)的權(quán)重具有條件感知性。


動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。 本文的工作可以被視為一種新型的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。除了在本文中探討的添加條件控制外,動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)可以應(yīng)用于許多深度學(xué)習(xí)應(yīng)用。例如,CondConv提出根據(jù)輸入圖像特征動(dòng)態(tài)組合一組基礎(chǔ)卷積核,以增加模型容量。類似地,專家混合技術(shù)使用門(mén)控網(wǎng)絡(luò)動(dòng)態(tài)地將輸入路由到不同的專家。為了實(shí)現(xiàn)高效部署,一次性全網(wǎng)絡(luò)和可調(diào)整神經(jīng)網(wǎng)絡(luò)根據(jù)給定的效率約束動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu),以實(shí)現(xiàn)效率和準(zhǔn)確性之間更好的權(quán)衡。


權(quán)重生成網(wǎng)絡(luò)。 本文的條件權(quán)重生成模塊可以被視為一種專門(mén)設(shè)計(jì)用于向生成模型添加條件控制的新型權(quán)重生成網(wǎng)絡(luò)。在其他情況下,一些先前的工作利用權(quán)重生成網(wǎng)絡(luò)。例如,[33]提出使用一個(gè)小網(wǎng)絡(luò)為一個(gè)更大的網(wǎng)絡(luò)生成權(quán)重。這些權(quán)重對(duì)于數(shù)據(jù)集中的每個(gè)示例都是相同的,以提高參數(shù)效率。此外,權(quán)重生成網(wǎng)絡(luò)已被應(yīng)用于神經(jīng)結(jié)構(gòu)搜索,以預(yù)測(cè)給定其架構(gòu)的神經(jīng)網(wǎng)絡(luò)的權(quán)重,以降低神經(jīng)結(jié)構(gòu)搜索的訓(xùn)練和搜索成本。


高效深度學(xué)習(xí)計(jì)算。 本文的工作也與高效深度學(xué)習(xí)計(jì)算聯(lián)系在一起,旨在提高深度學(xué)習(xí)模型的效率,使它們適合在硬件上部署。最先進(jìn)的圖像生成模型具有巨大的計(jì)算和內(nèi)存成本,這使得在資源受限的邊緣設(shè)備上部署它們并保持高質(zhì)量具有挑戰(zhàn)性。本文的工作可以通過(guò)提供相同性能但使用更少的擴(kuò)散步驟和更低成本模型來(lái)提高受控生成模型的效率。對(duì)于未來(lái)的工作,本文將探索將本文的工作與高效深度學(xué)習(xí)計(jì)算技術(shù)結(jié)合起來(lái),以進(jìn)一步提高效率。

結(jié)論

這項(xiàng)工作研究了通過(guò)操縱權(quán)重向圖像生成模型添加控制。本文引入了一種新的條件控制方法,稱為條件感知神經(jīng)網(wǎng)絡(luò)(CAN),并提供了高效實(shí)用的設(shè)計(jì),使CAN在實(shí)踐中可用。本文進(jìn)行了廣泛的實(shí)驗(yàn),使用ImageNet進(jìn)行類別條件生成和使用COCO進(jìn)行文本到圖像生成,以評(píng)估CAN的有效性。CAN相對(duì)于先前的條件控制方法實(shí)現(xiàn)了一致且顯著的改進(jìn)。本文還通過(guò)將CAN與EfficientViT結(jié)合,構(gòu)建了一個(gè)新的擴(kuò)散transformer模型系列。對(duì)于未來(lái)的工作,本文將把CAN應(yīng)用于更具挑戰(zhàn)性的任務(wù),如大規(guī)模文本到圖像生成、視頻生成等。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Han Cai等


原文鏈接:??https://mp.weixin.qq.com/s/ROX6yyh2pfOg0pcz778GZw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄