只需一步!One-Step圖像轉(zhuǎn)換來了!親測效果驚艷!
項目鏈接:https://github.com/GaParmar/img2img-turbo
文章鏈接:https://arxiv.org/pdf/2403.12036
demo鏈接:??https://huggingface.co/spaces/gparmar/img2img-turbo-sketch(親測驚艷)??
現(xiàn)有條件擴散模型的兩個局限性:
- 由于迭代去噪過程而導(dǎo)致的推理速度較慢
- 依賴成對數(shù)據(jù)進(jìn)行模型微調(diào)
為了解決這些問題,本文引入了一種通用方法,通過對抗性學(xué)習(xí)目標(biāo)來將單步擴散模型調(diào)整到新的任務(wù)和領(lǐng)域中。具體來說,將原生latent diffusion model的各種模塊整合到一個端到端的生成器網(wǎng)絡(luò)中,該網(wǎng)絡(luò)具有較小的可訓(xùn)練權(quán)重,增強了其保持輸入圖像結(jié)構(gòu)的能力,同時減少了過擬合。
通過證明,在無配對設(shè)置下,CycleGAN-Turbo模型在各種場景轉(zhuǎn)換任務(wù)中優(yōu)于現(xiàn)有的基于GAN 和擴散的方法,例如將白天轉(zhuǎn)換為夜晚以及添加/去除霧、雪和雨等天氣效果。并將該方法擴展到配對設(shè)置,模型 pix2pix-Turbo 與最近的工作如 Control-Net for Sketch2Photo 和 Edge2Image 相當(dāng),但只需單步推理。這項工作表明,單步擴散模型可以作為一系列 GAN 學(xué)習(xí)目標(biāo)的強大骨干。
介紹
條件擴散模型使用戶能夠基于空間條件和文本提示生成圖像,從而實現(xiàn)了對場景布局、用戶草圖和人體姿勢等進(jìn)行精確控制的各種圖像合成應(yīng)用。盡管這些模型取得了巨大成功,但它們面臨兩個主要挑戰(zhàn)。首先,擴散模型的迭代性質(zhì)使推理速度變慢,限制了實時應(yīng)用,例如交互式 Sketch2Photo。其次,模型訓(xùn)練通常需要篩選大規(guī)模的配對數(shù)據(jù)集,對許多應(yīng)用造成了重大成本,而對其他應(yīng)用來說則不可行。
本項工作介紹了一種適用于配對和無配對設(shè)置的one-step圖像到圖像轉(zhuǎn)換方法。該方法實現(xiàn)了與現(xiàn)有條件擴散模型相當(dāng)?shù)囊曈X吸引力結(jié)果,同時將推理步驟的數(shù)量減少到1步。更重要的是,可以在沒有圖像對的情況下進(jìn)行訓(xùn)練。通過對抗性學(xué)習(xí)目標(biāo)有效地調(diào)整預(yù)訓(xùn)練的文本條件one-step擴散模型(例如 SD-Turbo)到新的領(lǐng)域和任務(wù)中。
不幸的是,在實驗中,直接將標(biāo)準(zhǔn)擴散適配器(如 Control-Net)應(yīng)用到one-step設(shè)置中的效果不如預(yù)期。與傳統(tǒng)的擴散模型不同,作者觀察到噪聲圖直接影響one-step模型的輸出結(jié)構(gòu)。因此,通過額外的適配器分支將噪聲圖和輸入條件輸入到網(wǎng)絡(luò)中會導(dǎo)致網(wǎng)絡(luò)得到相互沖突的信息。特別是對于無配對情況,這種策略會導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練結(jié)束時原始網(wǎng)絡(luò)被忽視。
此外,在圖像到圖像轉(zhuǎn)換過程中,由于SD-Turbo模型的多階段pipeline(Encoder-UNet-Decoder)的不完美重建,輸入圖像中的許多視覺細(xì)節(jié)都會丟失。當(dāng)輸入是真實圖像時,這種細(xì)節(jié)的丟失尤為顯著和關(guān)鍵,例如在白天到夜晚的轉(zhuǎn)換中。
為了解決這些挑戰(zhàn),本文提出了一種新的生成器架構(gòu),利用了??SD-Turbo 權(quán)重?
?同時保持輸入圖像的結(jié)構(gòu)。首先,直接將條件信息饋送到 UNet 的噪聲編碼器分支中。這使得網(wǎng)絡(luò)能夠直接適應(yīng)新的控制,避免了噪聲圖和輸入控制之間的沖突。其次,將編碼器、UNet 和解碼器這三個獨立模塊整合到一個端到端可訓(xùn)練的架構(gòu)中。為此,采用了 LoRA 來將原始網(wǎng)絡(luò)調(diào)整到新的控制和領(lǐng)域,減少過擬合和微調(diào)時間。最后,為了保留輸入的高頻細(xì)節(jié),通過零卷積在編碼器和解碼器之間引入了跳躍連接。本文的架構(gòu)是多功能的,可作為條件 GAN 學(xué)習(xí)目標(biāo)(如 CycleGAN 和 pix2pix)的即插即用模型。據(jù)我們所知,本文的工作是首次使用文本到圖像模型實現(xiàn)one-step圖像轉(zhuǎn)換。
本文主要關(guān)注更具挑戰(zhàn)性的無配對轉(zhuǎn)換任務(wù),例如從白天到黑夜的轉(zhuǎn)換,反之亦然,以及向圖像中添加/移除天氣效果。展示了該模型 CycleGAN-Turbo 在分布匹配和輸入結(jié)構(gòu)保持方面明顯優(yōu)于現(xiàn)有基于 GAN 和擴散的方法,同時比擴散方法實現(xiàn)更高的效率。本文進(jìn)行了廣泛的消融研究,探討了該方法的每個設(shè)計選擇。
為了展示架構(gòu)的多功能性,作者還進(jìn)行了配對設(shè)置的實驗,例如 Edge2Image 或 Sketch2Photo。模型 pix2pix-Turbo 在視覺上達(dá)到了與最近的條件擴散模型相媲美的結(jié)果,同時將推理步驟的數(shù)量減少到了1步??梢酝ㄟ^在預(yù)訓(xùn)練模型和我們模型的編碼器輸出之間插值噪聲圖,生成多樣化的輸出。工作表明,預(yù)訓(xùn)練的one-step文本到圖像模型可以作為許多下游圖像合成任務(wù)的強大而多功能的支撐。
相關(guān)工作
圖像到圖像轉(zhuǎn)換。生成模型的最新進(jìn)展使得許多圖像到圖像轉(zhuǎn)換應(yīng)用成為可能。配對圖像轉(zhuǎn)換方法將一幅圖像從源域映射到目標(biāo)域,使用了重建和對抗性損失的組合。最近,出現(xiàn)了各種條件擴散模型,整合了文本和空間條件用于圖像轉(zhuǎn)換任務(wù)。這些方法通常建立在預(yù)訓(xùn)練的文本到圖像模型之上。然而,模型訓(xùn)練仍然需要大量的訓(xùn)練對。與此相反,作者的方法可以利用大規(guī)模的擴散模型,而無需圖像對,推理速度顯著更快。
在許多無法獲得配對輸入和輸出圖像的情況下,已經(jīng)提出了幾種技術(shù),包括循環(huán)一致性、共享中間潛在空間、內(nèi)容保留損失和對比學(xué)習(xí)。最近的研究還探索了用于無配對轉(zhuǎn)換任務(wù)的擴散模型。然而,這些基于 GAN 或擴散的方法通常需要在新域從頭開始訓(xùn)練。相反,作者引入了第一個利用預(yù)訓(xùn)練擴散模型進(jìn)行無配對學(xué)習(xí)的方法,展示了優(yōu)于現(xiàn)有方法的結(jié)果。
文本到圖像模型。大規(guī)模文本條件模型已經(jīng)通過對互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的訓(xùn)練顯著提高了圖像的質(zhì)量和多樣性。一些方法提出了用于編輯真實圖像的zero-shot方法。盡管這些方法取得了令人印象深刻的結(jié)果,但它們在復(fù)雜場景中經(jīng)常遇到困難。我們的工作可以被視為使用來自新域/任務(wù)的配對或無配對數(shù)據(jù)增強這些方法的方式。
one-step生成模型。為了加速擴散模型的推理,最近的工作集中于減少采樣步驟的數(shù)量。與專注于one-step文本到圖像合成的其他工作不同,我們提出了第一個同時使用文本和條件圖像的one-step條件模型。本方法打敗了直接使用原始 ControlNet 的one-step蒸餾模型的基線。
方法
本文從一個能夠生成逼真圖像的one-step預(yù)訓(xùn)練文本到圖像模型開始。然而,作者的目標(biāo)是將輸入的真實圖像從源域轉(zhuǎn)換到目標(biāo)域,例如將白天駕駛圖像轉(zhuǎn)換為夜晚。分別探討了為我們的模型添加結(jié)構(gòu)的不同條件方法及其相應(yīng)的挑戰(zhàn)。研究了困擾潛在空間模型的常見細(xì)節(jié)丟失問題(例如文本、手部、街道標(biāo)志)并提出了解決方案。然后,討論了無配對圖像轉(zhuǎn)換方法,并將one-step擴展到配對設(shè)置和隨機生成。
添加條件輸入
要將文本到圖像模型轉(zhuǎn)換為圖像轉(zhuǎn)換模型,首先需要找到一種有效的方式將輸入圖像 x 合并到模型中。
噪聲和條件輸入之間的沖突。將條件輸入合并到擴散模型中的一種常見策略是引入額外的適配器分支,如下圖3所示。
具體來說,初始化第二個編碼器,標(biāo)記為條件編碼器,可以使用Stable Diffusion編碼器的權(quán)重,或者使用具有隨機初始化權(quán)重的輕量級網(wǎng)絡(luò)。該控制編碼器接收輸入圖像 x,并通過殘差連接將特征圖輸出到預(yù)訓(xùn)練的Stable Diffusion模型中的多個分辨率。這種方法在控制擴散模型方面取得了顯著的成果。然而,如上圖3所示,在one-step模型的上下文中,使用兩個編碼器(U-Net編碼器和條件編碼器)處理噪聲圖和輸入圖像會帶來挑戰(zhàn)。與多步擴散模型不同,one-step模型中的噪聲圖直接控制生成圖像的布局和姿態(tài),通常與輸入圖像的結(jié)構(gòu)相矛盾。因此,解碼器接收兩組殘差特征,每組特征表示不同的結(jié)構(gòu),使得訓(xùn)練過程更具挑戰(zhàn)性。
直接條件輸入。圖3還說明了預(yù)訓(xùn)練模型生成的圖像結(jié)構(gòu)受噪聲圖 z 的顯著影響?;谶@一觀察結(jié)果,我們提出應(yīng)該直接將條件輸入饋送到網(wǎng)絡(luò)中。下圖7和表4還顯示,使用直接條件輸入比使用額外編碼器獲得更好的結(jié)果。
為了讓骨干模型適應(yīng)新的條件,我們在U-Net的各個層中添加了幾個LoRA權(quán)重(下圖2)。
保留輸入細(xì)節(jié)
阻止使用潛在擴散模型(LDM)在多對象和復(fù)雜場景中使用的一個關(guān)鍵挑戰(zhàn)是缺乏細(xì)節(jié)保留。
細(xì)節(jié)丟失的原因。潛在擴散模型(LDMs)的圖像編碼器將輸入圖像在空間上壓縮了8倍,同時將通道數(shù)量從3增加到4。這種設(shè)計加快了擴散模型的訓(xùn)練和推理速度。然而,對于需要保留輸入圖像細(xì)節(jié)的圖像轉(zhuǎn)換任務(wù)來說,這可能并不理想。下圖4中說明了這個問題,在這個示例中,采用不使用跳躍連接的結(jié)構(gòu),將輸入的白天駕駛圖像(左)轉(zhuǎn)換成對應(yīng)的夜間駕駛圖像(中)。
可以觀察到,諸如文本、街道標(biāo)志和遠(yuǎn)處的汽車等細(xì)粒度細(xì)節(jié)并未得到保留。相比之下,使用包含跳躍連接的架構(gòu)(右)會導(dǎo)致轉(zhuǎn)換后的圖像更好地保留這些復(fù)雜的細(xì)節(jié)。
連接第一階段編碼器和解碼器。 為了捕獲輸入圖像的細(xì)粒度視覺細(xì)節(jié),我們在編碼器和解碼器網(wǎng)絡(luò)之間添加了跳躍連接(見上圖2)。具體地,在編碼器中的每個下采樣塊之后提取四個中間激活,并通過一個1×1零卷積層對它們進(jìn)行處理,然后將它們饋送到解碼器中相應(yīng)的上采樣塊中。這種方法確保了在整個圖像轉(zhuǎn)換過程中細(xì)節(jié)的保留。
無配對訓(xùn)練
擴展
雖然本文的主要重點是無配對學(xué)習(xí),但還展示了兩種擴展來學(xué)習(xí)其他類型的 GAN 目標(biāo),例如從配對數(shù)據(jù)中學(xué)習(xí)和生成隨機輸出。
- 重構(gòu)損失作為感知損失和像素空間重構(gòu)損失的組合
- GAN 損失,類似于方程 2 中的損失,但僅針對目標(biāo)域
- CLIP 文本-圖像對齊損失 LCLIP。
生成多樣化輸出 在許多圖像轉(zhuǎn)換任務(wù)中,例如草圖到圖像生成,生成多樣化的輸出非常重要。然而,讓one-step模型生成多樣化的輸出是具有挑戰(zhàn)性的,因為它需要利用額外的輸入噪聲,而這往往被忽略。本文提出通過插值特征和模型權(quán)重向預(yù)訓(xùn)練模型進(jìn)行生成多樣化的輸出。
值得注意的是,γ=0 對應(yīng)于預(yù)訓(xùn)練模型的默認(rèn)隨機行為,此時不會強制執(zhí)行重構(gòu)損失。γ =1對應(yīng)于確定性轉(zhuǎn)換。我們通過使用不同的插值系數(shù)對圖像轉(zhuǎn)換模型進(jìn)行微調(diào)。下圖 9 顯示,這種微調(diào)使我們的模型能夠通過在推理時采樣不同的噪聲來生成多樣化的輸出。
實驗
對幾個圖像轉(zhuǎn)換任務(wù)進(jìn)行了廣泛的實驗,主要分為三個類別。首先,將我們的方法與幾種先前的基于 GAN 和擴散模型的圖像轉(zhuǎn)換方法進(jìn)行了比較,展示了更好的定量和定性結(jié)果。其次,通過逐個將它們納入我們的無配對方法 CycleGAN-Turbo 的每個組件來分析其有效性。最后,展示了我們的方法如何在配對設(shè)置中運作,并生成多樣化的輸出。
訓(xùn)練細(xì)節(jié)。在駕駛數(shù)據(jù)集上的無配對模型的總訓(xùn)練參數(shù)為 330 MB,包括 LoRA 權(quán)重、零卷積層和 U-Net 的第一卷積層。請在附錄 D 中查找超參數(shù)和架構(gòu)細(xì)節(jié)。
數(shù)據(jù)集。在兩個常用數(shù)據(jù)集(馬 ? 斑馬 和優(yōu)勝美地夏季 ? 冬季)以及兩個更高分辨率的駕駛數(shù)據(jù)集(白天 ? 夜晚 和晴朗 ? 多霧來自 BDD100k 和 DENSE)上進(jìn)行了無配對轉(zhuǎn)換實驗。對于前兩個數(shù)據(jù)集,遵循 CycleGAN并加載 286×286 圖像,在訓(xùn)練時使用隨機的 256×256 裁剪。在推理過程中,直接在 256×256 上應(yīng)用轉(zhuǎn)換。對于駕駛數(shù)據(jù)集,在訓(xùn)練和推理時將所有圖像調(diào)整大小為 512×512。對于評估,使用相應(yīng)的驗證集。
評估協(xié)議。一個有效的圖像轉(zhuǎn)換方法必須滿足兩個關(guān)鍵標(biāo)準(zhǔn):(1)匹配目標(biāo)域的數(shù)據(jù)分布和(2)在轉(zhuǎn)換輸出中保留輸入圖像的結(jié)構(gòu)。
使用 FID評估數(shù)據(jù)分布的匹配,采用了 Clean-FID 實現(xiàn)。我們使用 DINO-Struct-Dist評估第二個標(biāo)準(zhǔn)的符合度,該指標(biāo)測量兩個圖像在特征空間中的結(jié)構(gòu)相似性。報告中所有 DINO 結(jié)構(gòu)分?jǐn)?shù)乘以 100。較低的 FID 分?jǐn)?shù)表示與參考目標(biāo)分布的更接近匹配和更大的逼真度,而較低的 DINO-Struct-Dist 表明在轉(zhuǎn)換圖像中更準(zhǔn)確地保留了輸入結(jié)構(gòu)。較低的 FID 分?jǐn)?shù)與較高的 DINO-Struct-Dist 表明該方法無法遵循輸入結(jié)構(gòu)。較低的 DINO-Struct-Dist 但較高的 FID 表明該方法幾乎不會改變輸入圖像??紤]這兩個分?jǐn)?shù)是非常關(guān)鍵的。此外,我們在 Nvidia RTX A6000 GPU 上比較所有方法的推理運行時間,并包括一個人類感知研究。
與無配對方法的比較
將 CycleGAN-Turbo 與先前基于 GAN 的無配對圖像轉(zhuǎn)換方法、zero-shot圖像編輯方法以及經(jīng)過公開可用代碼訓(xùn)練的擴散模型進(jìn)行比較。在定性上,下圖 5 和圖 6 顯示,現(xiàn)有的方法,無論是基于 GAN 還是基于擴散的,都難以在輸出逼真度和結(jié)構(gòu)保持之間取得正確的平衡。
與基于GAN方法的比較。將本文的方法與兩種無配對 GAN 模型 - CycleGAN和CUT進(jìn)行比較。使用默認(rèn)超參數(shù)在所有數(shù)據(jù)集上訓(xùn)練這些基線模型 100,000 步,并選擇最佳checkpoint。下表 1 和表 2 展示了八個無配對轉(zhuǎn)換任務(wù)的定量比較。
CycleGAN 和 CUT 在簡單的以對象為中心的數(shù)據(jù)集,例如馬 → 斑馬(下圖 13),上表現(xiàn)出有效的性能,達(dá)到了較低的 FID 和 DINO-Structure 分?jǐn)?shù)。
我們的方法在 FID 和 DINO 結(jié)構(gòu)距離指標(biāo)方面略優(yōu)于這些方法。然而,對于更復(fù)雜的場景,例如夜晚 → 白天,CycleGAN 和 CUT 的 FID 分?jǐn)?shù)明顯高于我們的方法,通常會產(chǎn)生不良的視覺效果(下圖 15)。
與基于擴散的編輯方法的比較。接下來,將我們的方法與幾種基于擴散的方法進(jìn)行比較。首先,考慮最近的zero-shot圖像轉(zhuǎn)換方法,包括 SDEdit、Plug-and-Play、pix2pix-zero、CycleDiffusion和 DDIB,它們使用預(yù)訓(xùn)練的文本到圖像擴散模型,并通過不同的文本提示轉(zhuǎn)換圖像。請注意,原始的 DDIB 實現(xiàn)涉及從頭訓(xùn)練兩個單獨的領(lǐng)域特定的擴散模型。為了提高其性能并進(jìn)行公平比較,我們用預(yù)訓(xùn)練的文本到圖像模型替換了領(lǐng)域特定的模型。還將 Instruct-pix2pix,一個用于基于文本的圖像編輯的條件擴散模型進(jìn)行比較。
如表1和圖14所示,在以物體為中心的數(shù)據(jù)集上,例如馬 → 斑馬,這些方法可以生成逼真的斑馬,但難以精確匹配物體的姿態(tài),這一點可以通過一致較大的DINO結(jié)構(gòu)分?jǐn)?shù)得到說明。
在駕駛數(shù)據(jù)集上,這些編輯方法表現(xiàn)明顯更差,原因有三:(1)模型難以生成包含多個對象的復(fù)雜場景,(2)這些方法(除了Instruct-pix2pix外)需要首先將圖像反轉(zhuǎn)為噪聲圖,從而引入潛在的偽影,以及(3)預(yù)訓(xùn)練模型無法合成與駕駛數(shù)據(jù)集捕獲的街景圖像相似的圖像。下表2和圖16顯示,在所有四個駕駛轉(zhuǎn)換任務(wù)中,這些方法輸出質(zhì)量較差的圖像,反映在較高的FID分?jǐn)?shù)和不符合輸入圖像結(jié)構(gòu)的較高的DINO結(jié)構(gòu)距離值中。
人類偏好研究 接下來,在Amazon Mechanical Turk(AMT)上進(jìn)行人類偏好研究,以評估不同方法產(chǎn)生的圖像質(zhì)量。使用相關(guān)數(shù)據(jù)集的完整驗證集,每個比較由三個獨立的用戶進(jìn)行獨立評估。將兩個模型的輸出并排呈現(xiàn),并要求用戶選擇哪個更準(zhǔn)確地符合目標(biāo)提示,時間不限。例如,我們對白天到夜晚的轉(zhuǎn)換任務(wù)收集了 1,500 個比較,其中包含 500 個驗證圖像。向用戶呈現(xiàn)的提示是:“哪張圖像更像是在夜晚拍攝的駕駛場景的真實照片?”
下表 3 將本文的方法與 CycleGAN(最佳性能的基于 GAN 的方法)和 Instruct-Pix2Pix(最佳性能的基于擴散的方法)進(jìn)行了比較。
本文的方法在所有數(shù)據(jù)集上均優(yōu)于這兩個基線,除了從晴朗到多霧的轉(zhuǎn)換任務(wù)。在這種情況下,用戶偏好 Instruct-Pix2Pix 的結(jié)果,因為它輸出了更具藝術(shù)性的霧圖像。然而,正如上面表 2 中所示,Instruct-Pix2Pix 未能保留輸入結(jié)構(gòu),其高 DINO-Struct 分?jǐn)?shù)(7.6)與我們的(1.4)相比。此外,其結(jié)果與目標(biāo)霧數(shù)據(jù)集的差異顯著,反映在高 FID 分?jǐn)?shù)(170.8)與我們的(137.0)之間的差異上。
消融研究
通過一個廣泛的消融研究,在前面表 4 和圖 7 中展示了我們算法設(shè)計的有效性。
使用預(yù)訓(xùn)練權(quán)重。首先,評估使用預(yù)訓(xùn)練網(wǎng)絡(luò)的影響。在前面表 4 的 Config A 中,我們在馬 ? 斑馬數(shù)據(jù)集上訓(xùn)練一個無配對模型,但使用的是隨機初始化的權(quán)重,而不是預(yù)訓(xùn)練的權(quán)重。沒有利用預(yù)訓(xùn)練文本到圖像模型的先驗知識,輸出圖像看起來不自然,如前面圖 7 的 Config A 所示。這一觀察結(jié)果在表 4 的兩個任務(wù)中都得到了證實,F(xiàn)ID 明顯增加。
不同添加結(jié)構(gòu)輸入的方法。接下來,比較了三種向模型添加結(jié)構(gòu)輸入的方法。Config B 使用了 ControlNet 編碼器,Config C 使用了 T2I-Adapter,最后,Config D 直接將輸入圖像饋送到基礎(chǔ)網(wǎng)絡(luò),而不需要任何額外的分支。Config B 的 FID 與 Config D 相當(dāng)。然而,它的 DINO-Structure 距離顯著更高,表明 ControlNet 編碼器難以匹配輸入的結(jié)構(gòu)。這也可以從圖 7 中觀察到;Config B(第三行)一直在改變場景結(jié)構(gòu),并產(chǎn)生新的物體幻覺,例如駕駛場景中的部分建筑以及馬到斑馬轉(zhuǎn)換中的不自然斑馬圖案。Config C 使用了輕量級的 T2I-Adapter 來學(xué)習(xí)結(jié)構(gòu),并取得了較差的 FID 和 DINO-Struct 分?jǐn)?shù),輸出圖像中有幾個偽影和結(jié)構(gòu)保留較差。
跳躍連接和可訓(xùn)練的編碼器和解碼器。最后,通過將 Config D 與我們的最終方法 CycleGAN-Turbo 進(jìn)行比較,來看到跳躍連接的效果,在表 4 和圖 7 中。在所有任務(wù)中,添加跳躍連接并聯(lián)合訓(xùn)練編碼器和解碼器可以顯著提高結(jié)構(gòu)保持,盡管 FID 稍微增加了一點。
其他結(jié)果。請參閱附錄 A 和 C,了解其他數(shù)據(jù)集的額外消融研究、在不同數(shù)量的訓(xùn)練圖像下模型訓(xùn)練的影響以及編碼器-解碼器微調(diào)的作用。具體如下圖:
擴展
配對轉(zhuǎn)換。在一個包含 300K 藝術(shù)圖片的社區(qū)收集的數(shù)據(jù)集上訓(xùn)練了 Edge2Photo 和 Sketch2Photo 模型。提取了 Canny 邊緣和 HED 輪廓。由于我們的方法和基線使用不同的數(shù)據(jù)集,我們展示了視覺比較,而不是進(jìn)行 FID 評估。關(guān)于訓(xùn)練數(shù)據(jù)和預(yù)處理的更多細(xì)節(jié)請參見附錄 D。
下圖 8 中將我們的配對方法 pix2pix-Turbo 與現(xiàn)有的one-step和多步轉(zhuǎn)換方法進(jìn)行了比較,包括兩個使用潛變一致性模型 和帶有 ControlNet 適配器的 Stable Diffusion - Turbo的one-step基線。雖然這些方法可以one-step生成結(jié)果,但其圖像質(zhì)量會下降。接下來,我們將其與基于 100 步Stable Diffusion的普通 ControlNet 進(jìn)行比較。還使用無分類器指導(dǎo)和一個描述性較長的負(fù)提示來進(jìn)行 100 步 ControlNet 的基線。與one-step基線相比,這種方法可以生成更令人滿意的輸出,如圖 8 所示。我們的方法只需一次前向傳遞就能生成引人注目的輸出,無需負(fù)提示或無分類器指導(dǎo)。
生成多樣化的輸出。最后,在下圖 9 中,展示了我們的方法可以生成多樣化的輸出。給定相同的輸入草圖和用戶提示,我們可以采樣不同的噪聲圖并生成多樣化的多模態(tài)輸出,例如不同風(fēng)格的貓、背景的變化和具有不同殼圖案的海龜。
討論與局限性
我們的工作表明,one-step預(yù)訓(xùn)練模型可以作為許多下游圖像合成任務(wù)的強大且多才多藝的骨干模型。通過各種 GAN 目標(biāo),可以將這些模型適應(yīng)到新的任務(wù)和領(lǐng)域,而無需進(jìn)行多步擴散訓(xùn)練。我們的模型訓(xùn)練只需要少量額外的可訓(xùn)練參數(shù)。
局限性。雖然我們的模型可以通過one-step生成產(chǎn)生視覺上令人滿意的結(jié)果,但它確實存在一些局限性。首先,我們無法指定指導(dǎo)的強度,因為我們的骨干模型 SD-Turbo 不使用無分類器指導(dǎo)。引導(dǎo)蒸餾可能是一個有前途的解決方案,可以實現(xiàn)指導(dǎo)的控制。其次,我們的方法不支持負(fù)提示,這是一種減少偽影的便捷方式。第三,使用循環(huán)一致性損失和高容量生成器的模型訓(xùn)練會消耗大量內(nèi)存。下一步,探索用于更高分辨率圖像合成的單邊方法是一個有意義的。
本文轉(zhuǎn)自 AI生成未來 ,作者:Jun-Yan Zhu等
