自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題

人工智能 新聞
微信視覺團隊與中山大學合作,聯(lián)手探究了擴散模型中的奇點問題,并提出了一個即插即用的方法,有效解決了初始時刻的采樣問題。

擴散模型憑借其在圖像生成方面的出色表現(xiàn),開啟了生成式模型的新紀元。諸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春筍般涌現(xiàn),進一步豐富了生成式 AI 的應用前景。然而,當前的擴散模型在理論上并非完美,鮮有研究關注到采樣時間端點處未定義的奇點問題。此外,奇點問題在應用中導致的平均灰度等影響生成圖像質(zhì)量的問題也一直未得到解決。

為了解決這一難題,微信視覺團隊與中山大學合作,聯(lián)手探究了擴散模型中的奇點問題,并提出了一個即插即用的方法,有效解決了初始時刻的采樣問題。該方法成功解決了平均灰度問題,顯著提升了現(xiàn)有擴散模型的生成能力。這一研究成果已在 CVPR 2024 會議上發(fā)表。

擴散模型在多模態(tài)內(nèi)容生成任務中取得了顯著的成功,包括圖像、音頻、文本和視頻等生成。這些模型的成功建模大多依賴于一個假設,即擴散過程的逆過程也符合高斯特性。然而,這一假設并沒有得到充分證明。特別是在端點處,即 t=0 或 t=1,會出現(xiàn)奇點問題,限制了現(xiàn)有方法對奇點處采樣的研究。

此外,奇點問題也會影響擴散模型的生成能力,導致模型出現(xiàn)平均灰度問題,即難以生成亮度強或者弱的圖像,如圖下所示。這在一定程度上也限制了當前擴散模型的應用范圍。

為了解決擴散模型在時間端點處的奇點問題,微信視覺團隊與中山大學合作,從理論和實踐兩個方面展開了深入探究。首先,該團隊提出了一個包含奇點時刻逆過程近似高斯分布的誤差上界,為后續(xù)研究提供了理論基礎?;谶@一理論保障,團隊對奇點處的采樣進行了研究,并得出了兩個重要的結(jié)論:1)t=1 處的奇點可以通過求取極限轉(zhuǎn)化為可去奇點,2)t=0 處的奇點是擴散模型的固有特性,不需要規(guī)避?;谶@些結(jié)論,該團隊提出了一個即插即用的方法:SingDiffusion,用于解決擴散模型在初始時刻采樣的問題。

通過大量的實驗驗證表明,僅需訓練一次,SingDiffusion 模塊即可無縫應用到現(xiàn)有的擴散模型中,顯著地解決了平均灰度值的問題。在不使用無分類器指引技術(shù)的情況下,SingDiffusion 能夠顯著提升當前方法的生成質(zhì)量,特別是在應用于 Stable Diffusion1.5(SD-1.5)后,其生成的圖像質(zhì)量更是提升了 33%

論文地址:https://arxiv.org/pdf/2403.08381.pdf

項目地址:https://pangzecheung.github.io/SingDiffusion/

論文題目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆過程的高斯特性

為了研究擴散模型的奇點問題,需要驗證全過程包含奇點處的逆過程滿足高斯特性。首先定義圖片為擴散模型的訓練樣本,訓練樣本的分布可以表示為:

圖片

其中 δ 表示狄拉克函數(shù)。根據(jù) [1] 中連續(xù)時間擴散模型的定義,對于任意兩個時刻 0≤s,t≤1,正向過程可以表示為:

圖片

其中圖片,圖片,圖片,圖片隨著時間單調(diào)的從 1 變化到 0??紤]到剛剛定義的訓練樣本分布,圖片的單時刻邊際概率密度可以表示為:

圖片

由此,可以通過貝葉斯公式計算逆過程的條件分布:

圖片

然而,得到的分布是混合高斯分布,難以用網(wǎng)絡進行擬合。因此,主流的擴散模型通常假設這一分布可以由單個高斯分布擬合:

圖片

其中,圖片為了驗證這一假設,該研究在 Proposition 1 中估計了這一擬合的誤差。

圖片

然而,該研究發(fā)現(xiàn)當 t=1 時,隨著 s 趨近 1,圖片也將趨近于 1,誤差無法忽略。因此,Proposition 1 并不能證明 t=1 時的逆向高斯特性。為了解決這一問題,該研究給出了新的命題:

圖片

根據(jù) Proposition 2,當 t=1 時,隨著 s 趨近 1,圖片將趨近于 0。由此,該研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。

奇點時刻的采樣

有了逆過程高斯特性的保證,該研究基于逆向采樣公式對奇點時刻的采樣展開了研究。

首先考慮 t=1 時刻的奇點問題。當 t=1 時,圖片=0,下面的采樣公式將出現(xiàn)分母除 0 的情況:

圖片

研究團隊發(fā)現(xiàn),通過計算極限,該奇點可以轉(zhuǎn)化為可去奇點:

圖片

然而,這一極限無法在測試過程中進行計算。為此,該研究提出可以在 t=1 時刻擬合圖片,使用 「x - 預測」,來解決的初始奇點處的采樣問題。

接著考慮 t=0 時刻,高斯分布擬合的逆過程將變成方差為 0 的高斯分布,即狄拉克函數(shù): 

圖片

其中圖片。這樣的奇異性會使得采樣過程收斂到正確的數(shù)據(jù)圖片上。因此,t=0 處的奇點是擴散模型良好的性質(zhì),并不需要規(guī)避。

此外,該研究還在附錄中探討了 DDIM,SDE,ODE 中的奇點問題。

即插即用的 SingDiffusion 模塊

圖片

奇點處的采樣會影響擴散模型生成圖像的質(zhì)量。例如,在輸入高或低亮度的提示時,現(xiàn)有方法往往只能生成平均灰度的圖像,這被稱為平均灰度問題。這個問題源于現(xiàn)有方法忽略了 t=0 時奇點處的采樣,而是在 1-? 時刻使用標準高斯分布作為初始分布進行采樣。然而,正如上圖所示,標準高斯分布與實際的 1-? 時刻的數(shù)據(jù)分布存在較大的差距。

圖片

在這樣的差距下,根據(jù) Proposition 3,現(xiàn)有方法等同于在 t=1 時朝著一個均值為 0 的圖像進行生成,即平均灰度圖像。因此,現(xiàn)有方法難以生成亮度極強或極弱的圖像。為了解決這個問題,該研究提出了一個即插即用的 SingDiffusion 方法,通過擬合標準高斯分布與實際數(shù)據(jù)分布之間的轉(zhuǎn)換來彌補這一差距。

SingDiffuion 的算法如下圖所示:

圖片

 根據(jù)上一節(jié)的結(jié)論,該研究在在 t=1 時刻使用了 「x - 預測」方法來解決奇點處的采樣問題。對于圖-文數(shù)據(jù)對圖片,該方法訓練了一個 Unet圖片來擬合圖片。損失函數(shù)表示為:

圖片

模型收斂后,就可以按照下面的 DDIM 采樣公式并使用新得到的模塊圖片采樣圖片。

圖片

DDIM 的采樣公式確保了生成的圖片符合 1-ε 時刻的數(shù)據(jù)分布圖片,從而解決了平均灰度問題。在這一步驟之后,就可以使用預訓練的模型執(zhí)行后續(xù)的采樣步驟,直到生成圖片。值得注意的是,由于該方法僅參與第一步的采樣,與后續(xù)的采樣過程無關,因此 SingDiffusion 可以應用在絕大多數(shù)已有的擴散模型中。另外,為了避免無分類器指導操作導致的數(shù)據(jù)溢出問題,該方法還使用了以下的歸一化操作:

圖片

其中 guidance 表示無分類器指導操作后的結(jié)果,neg 表示負面提示下的輸出,pos 表示正面提示下的輸出,ω 表示指導強度。

實驗

首先,該研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三個模型上驗證了 SingDiffusion 解決平均灰度問題的能力。該研究選擇了四個極端的提示,包括 「純白 / 黑背景」 和 「單色線條藝術(shù)標志在白 / 黑背景上」,作為條件進行生成,并計算生成圖像的平均灰度值,如下表所示: 

圖片

從表格中可以看出,該研究能夠顯著地解決平均灰度值問題,生成符合輸入文字描述亮度的圖像。此外,該研究還可視化了在這四個提示語句下的生成結(jié)果,如下圖所示:

圖片

從圖中可以看出,加入該方法后,現(xiàn)有的擴散模型能夠生成偏黑或者偏白的圖像。

為了進一步研究該方法對于圖像質(zhì)量的提升,該研究在 COCO 數(shù)據(jù)集上選擇了 30,000 個描述進行了測試。首先,該研究展示了在不使用無分類器引導下,模型本身的生成能力,如下表所示:

圖片

從表格中可以看出,所提出的方法能夠顯著降低生成圖像的 FID,并提升 CLIP 指標。值得注意的是,在 SD-1.5 模型中,該論文中的方法相比于原模型在 FID 指標上降低了 33%。

進一步地,為了驗證所提出方法在無分類器引導下的生成能力,該研究還在下圖中展示了在不同引導大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲線:

圖片

從圖中可以看出,在相同的 CLIP 水平下,所提出的方法能夠獲得更低的 FID 數(shù)值,生成更逼真的圖像。

此外,該研究還展示了所提出方法在不同 CIVITAI 預訓練模型下的泛化能力,如下圖所示:

圖片

可以看出,該研究所提出的方法僅需進行一次訓練,即可輕松地應用到已有的擴散模型中,解決平均灰度問題。

最后,該研究所提出的方法還能夠無縫地應用到預訓練的 ControlNet 模型上,如下圖所示:

圖片

從結(jié)果中可以看出,該方法能有效解決 ControlNet 的平均灰度問題。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-04 10:05:00

AI模型

2023-10-28 13:31:08

模型數(shù)據(jù)

2016-11-09 13:52:35

Hadoop分布式集群

2024-02-26 08:25:00

模型訓練

2013-11-19 10:09:03

微信微信公號微信公眾賬號

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2012-08-01 09:52:35

移動搜索

2024-01-16 17:17:30

模型訓練

2013-02-01 11:07:08

2022-09-02 16:07:02

團隊問題

2025-03-17 11:35:36

LLaDALLM大型語言模型

2022-09-13 15:40:56

模型分析

2015-10-08 14:32:19

微信Apk瘦身

2019-04-26 06:16:49

微隔離覆蓋網(wǎng)絡安全

2023-10-23 12:43:05

模型訓練

2024-11-22 13:30:00

2024-04-17 13:22:55

人工智能

2013-09-25 11:12:47

2025-03-25 09:04:12

點贊
收藏

51CTO技術(shù)棧公眾號