自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="yfwx5"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen 原創(chuàng)

發(fā)布于 2024-7-4 10:25

瀏覽

0收藏

擴(kuò)散模型在生成高質(zhì)量圖像、視頻、聲音等方面表現(xiàn)突出。它們與物理學(xué)中的自然擴(kuò)散過程相似而得名，自然擴(kuò)散過程描述了分子如何從高濃度區(qū)域移動到低濃度區(qū)域。在機(jī)器學(xué)習(xí)的背景下，擴(kuò)散模型通過逆轉(zhuǎn)擴(kuò)散過程來生成新數(shù)據(jù)。主要的思想是向數(shù)據(jù)添加隨機(jī)噪聲，然后反過來從噪聲數(shù)據(jù)中推理和獲取原始數(shù)據(jù)。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

“是先有雕像，還是先有石頭，其實(shí)雕像已經(jīng)早在石頭里面！”

1.Diffusion Model

Diffusion Model（擴(kuò)散模型）其實(shí)理解起來不難，它分為兩個過程，正向擴(kuò)散和逆向擴(kuò)散。正向擴(kuò)散過程從基本分布（通常是高斯分布）采樣開始生成噪聲。選擇一幅圖片，然后對圖片不斷地增加噪聲，隨著噪聲不斷地增加，最后會變?yōu)橐粋€純噪聲圖片。可以想象一下較早期收不到信號的電視畫面！

每一個噪聲都是在前一時刻增加噪聲而來。從最開始的x0開始，反復(fù)迭代直到最終得到xt的純噪聲圖像（中間經(jīng)歷N輪）。因?yàn)镈iffusion的本質(zhì)是去噪，為了推導(dǎo)出逆向的去噪方法，采用了很取巧的加噪聲的原理。<大白話的意思是，讓你在畫上亂涂是很容易的，但是讓你畫出還是有難度的吧！>。

添加噪聲的過程的目的其實(shí)就是不斷構(gòu)建新的訓(xùn)練樣本，因?yàn)榍耙粫r刻可以預(yù)測出來后一時刻的噪聲。按照剛才的說法，在第一個過程的擴(kuò)散中將數(shù)據(jù)收集起來，用于下面的這個Noise Predicter的模型訓(xùn)練。最終訓(xùn)練出來的模型可以從噪聲中恢復(fù)（創(chuàng)造）出清晰的圖片。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

這個模型是一個逆噪聲的模型，它用于預(yù)測輸入圖片中在本輪需要去掉的噪聲，然后將原圖與預(yù)測生成的噪聲相減，突出下一輪更清晰的圖。這個訓(xùn)練過程將剛才正向迭代的數(shù)據(jù)集作為樣本反向訓(xùn)練這個模塊（上圖藍(lán)色的為輸入值，紅色的為預(yù)測值），讀者好好思考下為什么？<說白了就是訓(xùn)練它的去噪聲能力！> 是不是很巧妙，也是不是很簡單~

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

當(dāng)訓(xùn)練完畢再生成圖片的時候，就開始要表演魔術(shù)了?？梢噪S機(jī)生成噪聲，然后丟進(jìn)去Noise Predicter，一輪一輪的去掉噪聲，一幅清晰的圖片不就展示在讀者的眼前。具體的算法如上，在原來的論文中，第0步代表最清晰的圖，第N步代表噪聲圖，一般N是個超參數(shù)?？梢暬^程如下：

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

那么文縐縐的術(shù)語如下：“它逐漸增加了復(fù)雜性，通常被可視化為結(jié)構(gòu)化噪聲的添加。通過連續(xù)變換對初始數(shù)據(jù)的擴(kuò)散使模型能夠捕獲和再現(xiàn)目標(biāo)分布中固有的復(fù)雜模式和細(xì)節(jié)。前向擴(kuò)散過程的最終目標(biāo)是將這些簡單的開始演變?yōu)榫o密模擬所需復(fù)雜數(shù)據(jù)分布的樣本。前向擴(kuò)散過程的最終目標(biāo)是將這些簡單的開始演變?yōu)榫o密模擬所需復(fù)雜數(shù)據(jù)分布的樣本。這確實(shí)表明了如何從最少的信息開始可以帶來豐富、詳細(xì)的輸出?！?/p>

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

通過緩慢添加（去除）噪聲來生成樣本的馬爾可夫鏈前向（反向）擴(kuò)散過程。

2.文本生成圖片

現(xiàn)在的Stable Diffusion、DALL-E、Imagen背后都有比較類似的文本生成圖片的架構(gòu)。抽象出來一般分為三部分：1 文字Embedding（Encoder）、2 文字和圖的Diffusion的過程生成具有特定意義的中間向量（Latent Representation）、3 將最終的中間向量丟到解碼器（Decoder）進(jìn)而生成圖片。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

值得注意的是第2部分的過程也是Diffusion的逆生成過程，將噪聲和文本一起輸入去噪聲模塊，不斷地重復(fù)，值得生成的中間表達(dá)向量比較優(yōu)質(zhì)，在將中間表達(dá)向量丟到解碼器生成圖片。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

是不是很熟悉的味道和配方，其實(shí)類似于自動編解碼器。先來看看Stable Diffusion的架構(gòu)圖。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

上面的正向擴(kuò)散，下面是逆向訓(xùn)練過程。Z是原始的圖片，Zt是噪聲圖。讀者可以在圖中找1，2，3，其實(shí)就是從右到左的三個部分。

再來看看DALL-E的模型架構(gòu)圖，這時候的1，2，3則是從左往右。text-encoder就是之前說的1文字編碼器，prior就是2中間的Diffusion過程，最后的decoder就是3。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

上圖虛線上方，描述了CLIP訓(xùn)練過程，通過該過程可以學(xué)習(xí)文本和圖像的聯(lián)合表示空間。還記得CLIP么，不記得的話點(diǎn)擊鏈接回去溫習(xí)一下。

虛線下方，描述了文本到圖像的生成過程：將CLIP文本嵌入饋送到自回歸或擴(kuò)散prior以生成圖像嵌入，然后使用此嵌入來調(diào)節(jié)擴(kuò)散解碼器，從而生成最終圖像。值得一提的是，在prior和解碼器的訓(xùn)練期間，CLIP 模型處于凍結(jié)狀態(tài)。

而22年的Google的Imagen也是類似的架構(gòu)，從上往下1，2，3。讀者可以發(fā)現(xiàn)這個圖中，第二部分輸出的Latent Representation是64*64的圖（應(yīng)該稱呼為特征表達(dá)向量），最終64*64會經(jīng)過Decoder（這里也使用了Diffusion Model）生成1024*1024的圖片。

解鎖Diffusion Model: 初識Stable Diffusion、DALL-E、Imagen-AI.x社區(qū)

相信讀者還是會有很多疑問，不著急。先建立起基本的概念，形成初步的認(rèn)知，后續(xù)會循序漸進(jìn)地帶著讀者進(jìn)一步遨游這個領(lǐng)域。

本文轉(zhuǎn)載自 ??魯班模錘??，作者：龐德公

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-7-4 10:46:23修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

文生圖模型又卷起來了，Stable Diffusion涼涼，Midjourney流量被反超

liutao988 ? 3109瀏覽 ? 0回復(fù)
在ChatGPT中，能用DALL·E 3編輯圖片啦！

Aceryt ? 3933瀏覽 ? 0回復(fù)
完美提升Stable Diffusion生成質(zhì)量和效率！UniFL:統(tǒng)一反饋學(xué)習(xí)框架

angel ? 3957瀏覽 ? 0回復(fù)
Stable Diffusion 3，可通過API使用啦

Aceryt ? 2238瀏覽 ? 0回復(fù)
為Stable Diffusion模型瘦身并達(dá)到SOTA！LAPTOP-Diff：剪枝蒸餾新高度（哈工大&OPPO）

angel ? 3007瀏覽 ? 0回復(fù)
3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它

Crystalcxt ? 2870瀏覽 ? 0回復(fù)
探索DALL·E的強(qiáng)大功能！

echo_ning ? 2971瀏覽 ? 0回復(fù)
如何正確使用Stable Diffusion？文本到圖像擴(kuò)散模型中記憶化實(shí)用分析（浙大）

angel ? 3216瀏覽 ? 0回復(fù)
Stable Diffusion 3將在6月12日正式開源

Aceryt ? 2220瀏覽 ? 0回復(fù)
Stable Diffusion 3中型版模型開源！

AIGC最前線 ? 2363瀏覽 ? 0回復(fù)
Aditya Ramesh講DALL·E 2基本原理

AIGC最前線 ? 2830瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 2567瀏覽 ? 0回復(fù)
比Stable Diffusion便宜118倍！1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2090瀏覽 ? 0回復(fù)
一文總結(jié)擴(kuò)散模型（Diffusion Model）在時間序列中的應(yīng)用

海因斯DK ? 9305瀏覽 ? 0回復(fù)
ACM MM 2024 | 比SDXL和DALL-E·3更引人入勝！ReCorD:交互場景生成最新SOTA！

angel ? 2336瀏覽 ? 0回復(fù)
谷歌發(fā)布Imagen 3，超過SD3、DALL?E-3

Aceryt ? 2129瀏覽 ? 0回復(fù)
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2045瀏覽 ? 0回復(fù)
大模型圖像處理技術(shù)之?dāng)U散模型——Diffusion Model

AI探索時代 ? 2618瀏覽 ? 0回復(fù)
幾秒生成逼真3D場景，泛化媲美Stable Diffusion | 浙大&螞蟻等提出Prometheus

angel ? 1925瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學(xué)會LLM思維：語料質(zhì)量的自評估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

下一篇：優(yōu)雅談大模型：揭開計算機(jī)視覺任務(wù)神秘面紗

社區(qū)精華內(nèi)容

目錄

<legend id="b69up"><track id="b69up"></track></legend>

<style id="b69up"></style>

<sub id="b69up"><p id="b69up"></p></sub>