生成不了光線極強的圖片?微信視覺團隊有效解決擴散模型奇點問題
擴散模型憑借其在圖像生成方面的出色表現(xiàn),開啟了生成式模型的新紀元。諸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春筍般涌現(xiàn),進一步豐富了生成式 AI 的應用前景。然而,當前的擴散模型在理論上并非完美,鮮有研究關注到采樣時間端點處未定義的奇點問題。此外,奇點問題在應用中導致的平均灰度等影響生成圖像質(zhì)量的問題也一直未得到解決。
為了解決這一難題,微信視覺團隊與中山大學合作,聯(lián)手探究了擴散模型中的奇點問題,并提出了一個即插即用的方法,有效解決了初始時刻的采樣問題。該方法成功解決了平均灰度問題,顯著提升了現(xiàn)有擴散模型的生成能力。這一研究成果已在 CVPR 2024 會議上發(fā)表。
擴散模型在多模態(tài)內(nèi)容生成任務中取得了顯著的成功,包括圖像、音頻、文本和視頻等生成。這些模型的成功建模大多依賴于一個假設,即擴散過程的逆過程也符合高斯特性。然而,這一假設并沒有得到充分證明。特別是在端點處,即 t=0 或 t=1,會出現(xiàn)奇點問題,限制了現(xiàn)有方法對奇點處采樣的研究。
此外,奇點問題也會影響擴散模型的生成能力,導致模型出現(xiàn)平均灰度問題,即難以生成亮度強或者弱的圖像,如圖下所示。這在一定程度上也限制了當前擴散模型的應用范圍。
為了解決擴散模型在時間端點處的奇點問題,微信視覺團隊與中山大學合作,從理論和實踐兩個方面展開了深入探究。首先,該團隊提出了一個包含奇點時刻逆過程近似高斯分布的誤差上界,為后續(xù)研究提供了理論基礎?;谶@一理論保障,團隊對奇點處的采樣進行了研究,并得出了兩個重要的結(jié)論:1)t=1 處的奇點可以通過求取極限轉(zhuǎn)化為可去奇點,2)t=0 處的奇點是擴散模型的固有特性,不需要規(guī)避?;谶@些結(jié)論,該團隊提出了一個即插即用的方法:SingDiffusion,用于解決擴散模型在初始時刻采樣的問題。
通過大量的實驗驗證表明,僅需訓練一次,SingDiffusion 模塊即可無縫應用到現(xiàn)有的擴散模型中,顯著地解決了平均灰度值的問題。在不使用無分類器指引技術(shù)的情況下,SingDiffusion 能夠顯著提升當前方法的生成質(zhì)量,特別是在應用于 Stable Diffusion1.5(SD-1.5)后,其生成的圖像質(zhì)量更是提升了 33%
論文地址:https://arxiv.org/pdf/2403.08381.pdf
項目地址:https://pangzecheung.github.io/SingDiffusion/
論文題目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
逆過程的高斯特性
為了研究擴散模型的奇點問題,需要驗證全過程包含奇點處的逆過程滿足高斯特性。首先定義為擴散模型的訓練樣本,訓練樣本的分布可以表示為:
其中 δ 表示狄拉克函數(shù)。根據(jù) [1] 中連續(xù)時間擴散模型的定義,對于任意兩個時刻 0≤s,t≤1,正向過程可以表示為:
其中,
,
,
隨著時間單調(diào)的從 1 變化到 0??紤]到剛剛定義的訓練樣本分布,
的單時刻邊際概率密度可以表示為:
由此,可以通過貝葉斯公式計算逆過程的條件分布:
然而,得到的分布是混合高斯分布,難以用網(wǎng)絡進行擬合。因此,主流的擴散模型通常假設這一分布可以由單個高斯分布擬合:
其中,為了驗證這一假設,該研究在 Proposition 1 中估計了這一擬合的誤差。
然而,該研究發(fā)現(xiàn)當 t=1 時,隨著 s 趨近 1,也將趨近于 1,誤差無法忽略。因此,Proposition 1 并不能證明 t=1 時的逆向高斯特性。為了解決這一問題,該研究給出了新的命題:
根據(jù) Proposition 2,當 t=1 時,隨著 s 趨近 1,將趨近于 0。由此,該研究證明了包含奇點時刻的逆過程全過程都符合高斯特性。
奇點時刻的采樣
有了逆過程高斯特性的保證,該研究基于逆向采樣公式對奇點時刻的采樣展開了研究。
首先考慮 t=1 時刻的奇點問題。當 t=1 時,=0,下面的采樣公式將出現(xiàn)分母除 0 的情況:
研究團隊發(fā)現(xiàn),通過計算極限,該奇點可以轉(zhuǎn)化為可去奇點:
然而,這一極限無法在測試過程中進行計算。為此,該研究提出可以在 t=1 時刻擬合,使用 「x - 預測」,來解決的初始奇點處的采樣問題。
接著考慮 t=0 時刻,高斯分布擬合的逆過程將變成方差為 0 的高斯分布,即狄拉克函數(shù):
其中。這樣的奇異性會使得采樣過程收斂到正確的數(shù)據(jù)
上。因此,t=0 處的奇點是擴散模型良好的性質(zhì),并不需要規(guī)避。
此外,該研究還在附錄中探討了 DDIM,SDE,ODE 中的奇點問題。
即插即用的 SingDiffusion 模塊
奇點處的采樣會影響擴散模型生成圖像的質(zhì)量。例如,在輸入高或低亮度的提示時,現(xiàn)有方法往往只能生成平均灰度的圖像,這被稱為平均灰度問題。這個問題源于現(xiàn)有方法忽略了 t=0 時奇點處的采樣,而是在 1-? 時刻使用標準高斯分布作為初始分布進行采樣。然而,正如上圖所示,標準高斯分布與實際的 1-? 時刻的數(shù)據(jù)分布存在較大的差距。
在這樣的差距下,根據(jù) Proposition 3,現(xiàn)有方法等同于在 t=1 時朝著一個均值為 0 的圖像進行生成,即平均灰度圖像。因此,現(xiàn)有方法難以生成亮度極強或極弱的圖像。為了解決這個問題,該研究提出了一個即插即用的 SingDiffusion 方法,通過擬合標準高斯分布與實際數(shù)據(jù)分布之間的轉(zhuǎn)換來彌補這一差距。
SingDiffuion 的算法如下圖所示:
根據(jù)上一節(jié)的結(jié)論,該研究在在 t=1 時刻使用了 「x - 預測」方法來解決奇點處的采樣問題。對于圖-文數(shù)據(jù)對,該方法訓練了一個 Unet
來擬合
。損失函數(shù)表示為:
模型收斂后,就可以按照下面的 DDIM 采樣公式并使用新得到的模塊采樣
。
DDIM 的采樣公式確保了生成的符合 1-ε 時刻的數(shù)據(jù)分布
,從而解決了平均灰度問題。在這一步驟之后,就可以使用預訓練的模型執(zhí)行后續(xù)的采樣步驟,直到生成
。值得注意的是,由于該方法僅參與第一步的采樣,與后續(xù)的采樣過程無關,因此 SingDiffusion 可以應用在絕大多數(shù)已有的擴散模型中。另外,為了避免無分類器指導操作導致的數(shù)據(jù)溢出問題,該方法還使用了以下的歸一化操作:
其中 guidance 表示無分類器指導操作后的結(jié)果,neg 表示負面提示下的輸出,pos 表示正面提示下的輸出,ω 表示指導強度。
實驗
首先,該研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三個模型上驗證了 SingDiffusion 解決平均灰度問題的能力。該研究選擇了四個極端的提示,包括 「純白 / 黑背景」 和 「單色線條藝術(shù)標志在白 / 黑背景上」,作為條件進行生成,并計算生成圖像的平均灰度值,如下表所示:
從表格中可以看出,該研究能夠顯著地解決平均灰度值問題,生成符合輸入文字描述亮度的圖像。此外,該研究還可視化了在這四個提示語句下的生成結(jié)果,如下圖所示:
從圖中可以看出,加入該方法后,現(xiàn)有的擴散模型能夠生成偏黑或者偏白的圖像。
為了進一步研究該方法對于圖像質(zhì)量的提升,該研究在 COCO 數(shù)據(jù)集上選擇了 30,000 個描述進行了測試。首先,該研究展示了在不使用無分類器引導下,模型本身的生成能力,如下表所示:
從表格中可以看出,所提出的方法能夠顯著降低生成圖像的 FID,并提升 CLIP 指標。值得注意的是,在 SD-1.5 模型中,該論文中的方法相比于原模型在 FID 指標上降低了 33%。
進一步地,為了驗證所提出方法在無分類器引導下的生成能力,該研究還在下圖中展示了在不同引導大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲線:
從圖中可以看出,在相同的 CLIP 水平下,所提出的方法能夠獲得更低的 FID 數(shù)值,生成更逼真的圖像。
此外,該研究還展示了所提出方法在不同 CIVITAI 預訓練模型下的泛化能力,如下圖所示:
可以看出,該研究所提出的方法僅需進行一次訓練,即可輕松地應用到已有的擴散模型中,解決平均灰度問題。
最后,該研究所提出的方法還能夠無縫地應用到預訓練的 ControlNet 模型上,如下圖所示:
從結(jié)果中可以看出,該方法能有效解決 ControlNet 的平均灰度問題。