自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="anc8j"></p>

<style id="anc8j"></style>

<cite id="anc8j"><track id="anc8j"></track></cite>

<legend id="anc8j"><track id="anc8j"></track></legend>

<label id="anc8j"><button id="anc8j"><center id="anc8j"></center></button></label>

<s id="anc8j"></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI降維打擊人類畫家，文生圖引入ControlNet，深度、邊緣信息全能復(fù)用

作者：機(jī)器之心 2023-02-20 14:52:43

人工智能新聞

通過「添加額外條件」來控制擴(kuò)散模型，斯坦福大學(xué)最新的一項(xiàng)研究讓圖生圖效果更上了一層樓。

隨著大型文本 - 圖像模型的出現(xiàn)，生成一幅吸引人的圖像已經(jīng)變得非常簡單，用戶需要做的就是動動手指輸入簡單的 prompt 就可以。通過一系列操作得到圖像后，我們不免又會產(chǎn)生這樣幾個問題：基于 prompt 生成的圖像能夠滿足我們的要求嗎？我們應(yīng)該構(gòu)建怎樣的架構(gòu)來處理用戶提出的各種要求？在特定任務(wù)中，大型模型是否還能保持從數(shù)十億張圖像中獲得的優(yōu)勢和能力？

為了回答這些問題，來自斯坦福的研究者對各種圖像處理應(yīng)用進(jìn)行了大量調(diào)查，并得出以下三個發(fā)現(xiàn)：

首先，在特定領(lǐng)域中可用數(shù)據(jù)實(shí)際比訓(xùn)練通用模型的數(shù)據(jù)要少，這主要表現(xiàn)在，例如在特定問題上（例如姿態(tài)理解等）最大的數(shù)據(jù)集通常低于 100k，比大規(guī)模、多模態(tài)文本圖像數(shù)據(jù)集 LAION 5B 少了 5 × 10^4 數(shù)量級。這就要求神經(jīng)網(wǎng)絡(luò)魯棒性要好，以避免模型過度擬合，并在針對特定問題時具有良好的泛化性。

其次，當(dāng)使用數(shù)據(jù)驅(qū)動處理圖像任務(wù)時，大型計(jì)算集群并不總是可用的。這時快速訓(xùn)練方法就變得很重要，這種方法在可接受的時間和內(nèi)存空間內(nèi)能夠針對特定任務(wù)對大模型進(jìn)行優(yōu)化。更進(jìn)一步，在后續(xù)的處理過程中可能還需要微調(diào)、遷移學(xué)習(xí)等操作。

最后，在圖像處理過程中遇到的各種問題會有不同形式的定義方式。在解決這些問題時，雖然圖像擴(kuò)散算法可以以「程序化（procedural）」方式進(jìn)行調(diào)節(jié)，例如，約束去噪過程、編輯多頭注意力激活等，但這些手工制定的規(guī)則基本上是由人類指令規(guī)定的，考慮到一些特定的任務(wù)，如深度 - 圖像、姿態(tài) - 人等，這些問題本質(zhì)上需要將原始輸入解釋為對象級或場景級的理解，這使得手工制作的程序方法不太可行。因此，想要在多個任務(wù)中給出解決方案，端到端學(xué)習(xí)是必不可少的。

基于上述發(fā)現(xiàn)，本文提出了一種端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu) ControlNet，該架構(gòu)可以通過添加額外條件來控制擴(kuò)散模型（如 Stable Diffusion），從而改善圖生圖效果，并能實(shí)現(xiàn)線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、通過手部關(guān)鍵點(diǎn)還能優(yōu)化手部的生成等。

論文地址：https://arxiv.org/pdf/2302.05543.pdf

項(xiàng)目地址：https://github.com/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢？

Canny 邊緣檢測：通過從原始圖像中提取線稿，能夠生成同樣構(gòu)圖的圖像。

深度檢測：通過提取原始圖像中的深度信息，可以生成具有同樣深度結(jié)構(gòu)的圖。

帶有語義分割的 ControlNet：

使用基于學(xué)習(xí)的深度霍夫變換從 Places2 中檢測直線，然后使用 BLIP 生成字幕。

HED 邊緣檢測圖示。

人體姿態(tài)識別圖示。

方法介紹

ControlNet 是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，它可以增強(qiáng)具有任務(wù)特定（task-specific）條件的預(yù)訓(xùn)練圖像擴(kuò)散模型。我們先來看 ControlNet 的基本結(jié)構(gòu)。

ControlNet 操縱神經(jīng)網(wǎng)絡(luò)塊的輸入條件，從而進(jìn)一步控制整個神經(jīng)網(wǎng)絡(luò)的整體行為。這里「網(wǎng)絡(luò)塊」指的是一組神經(jīng)層，它們被放在一起作為一個構(gòu)建神經(jīng)網(wǎng)絡(luò)的常用單元，例如 resnet 塊、多頭注意力塊、Transformer 塊。

以 2D 特征為例，給定一個特征圖 x ? R^h×w×c，其中 {h, w, c} 分別為高度、寬度和通道數(shù)。具有一組參數(shù) Θ 的神經(jīng)網(wǎng)絡(luò)塊 F (?; Θ) 將 x 轉(zhuǎn)換為另一個特征圖 y，如下公式 (1) 所示。

這一過程如下圖 2-(a) 所示。

神經(jīng)網(wǎng)絡(luò)塊由一種被稱為「零卷積」的獨(dú)特卷積層連接，即權(quán)重和偏置都零初始化的 1×1 卷積層。研究者將零卷積運(yùn)算表示為 Z (?;?) ，并使用兩個參數(shù)實(shí)例 {Θ_z1, Θ_z2} 組成 ControlNet 結(jié)構(gòu)，如下公式 (2) 所示。

其中 y_c 成為該神經(jīng)網(wǎng)絡(luò)塊的輸出，如下圖 2-(b) 所示。

圖像擴(kuò)散模型中的 ControlNet

研究者以 Stable Diffusion 為例，介紹了如何使用 ControlNet 控制具有任務(wù)特定條件的大型擴(kuò)散模型。Stable Diffusion 是一種在數(shù)十億張圖像上訓(xùn)練的大型文本到圖像擴(kuò)散模型，本質(zhì)上是一個由編碼器、中間塊和殘差連接解碼器組成的 U-net。

如下圖 3 所示，研究者使用 ControlNet 來控制 U-net 的每一層。需要注意，這里連接 ControlNet 的方式在計(jì)算上是高效的：由于原始權(quán)重被鎖定，原始編碼器上的梯度計(jì)算不需要進(jìn)行訓(xùn)練。并且又由于原始模型上少了一半梯度計(jì)算，可以加快訓(xùn)練速度并節(jié)省 GPU 內(nèi)存。使用 ControlNet 訓(xùn)練一個 Stable Diffusion 模型只需要在每次訓(xùn)練迭代中增加大約 23% 的 GPU 內(nèi)存和 34% 的時間（在單個 Nvidia A100 PCIE 40G 上測試）。

具體地，研究者使用 ControlNet 創(chuàng)建了 12 個編碼塊和 1 個 Stable Diffusion 中間塊的可訓(xùn)練副本。這 12 個編碼塊有 4 種分辨率，分別為 64×64、32×32、16×16 和 8×8，每種分辨率有 3 個塊。輸出被添加到 U-net 的 12 個殘差連接和 1 個中間塊。由于 Stable Diffusion 是典型的 U-net 結(jié)構(gòu)，因此這種 ControlNet 架構(gòu)很可能可以用于其他擴(kuò)散模型。

訓(xùn)練及提升訓(xùn)練

給定圖像 z_0，擴(kuò)散算法漸進(jìn)地向圖像添加噪聲并產(chǎn)生噪聲圖像 z_t，t 是添加噪聲的次數(shù)。當(dāng) t 足夠大時，圖像近似于純噪聲。給定一組包括時間步長 t、文本 prompts c_t 的條件以及任務(wù)特定條件 c_f，圖像擴(kuò)散算法學(xué)習(xí)網(wǎng)絡(luò) ?_θ 以預(yù)測添加到噪聲圖像 z_t 的噪聲，如下公式 (10) 所示。

在訓(xùn)練過程中，研究者隨機(jī)將 50% 的文本 prompts c_t 替換為空字符串，這有利于 ControlNet 從輸入條件 map 中識別語義內(nèi)容的能力。

此外，研究者還討論了幾種改進(jìn) ControlNets 訓(xùn)練的策略，特別是在計(jì)算設(shè)備非常有限（如筆記本電腦）或非常強(qiáng)大（如具有可用大規(guī)模 GPU 的計(jì)算集群）的極端情況下。

更多技術(shù)細(xì)節(jié)請參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="5ctu3"></s>

<cite id="5ctu3"><track id="5ctu3"><dfn id="5ctu3"></dfn></track></cite>