物理改變圖像生成:擴散模型啟發(fā)于熱力學,比它速度快10倍的挑戰(zhàn)者來自電動力學
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
現(xiàn)在,圖像生成領域的半壁江山已經(jīng)被物理學拿下了。
火出圈的DALL·E 2、Imagen和Stable Diffusion,它們共同基于的擴散模型——
都是受到物理熱力學的啟發(fā)誕生的。
不僅如此,來自MIT、收錄于NeurIPS 2022的一種比擴散模型效果還要好、速度還要快的新生成模型,則啟發(fā)于電動力學。
如此攻勢,讓人不得不感嘆:
留給圖像生成的物理模型已經(jīng)不多了?(手動狗頭)
熱力學如何啟發(fā)擴散模型?
雛形:從一滴墨水得到啟發(fā)
事實上,擴散模型并非從一開始就“嶄露頭角”。
很長一段時間里,圖像生成領域的王者都非GAN莫屬,即便期間不少新模型提出,它的生成效果仍然吊打其他一眾模型。
初版擴散模型也是在這個背景下誕生。
就在GAN論文發(fā)布的后一年,斯坦福大學博士后Jascha Sohl-Dickstein基于GAN“沒法學習完整概率分布”的缺陷,想到了一個idea。
對非平衡熱力學有鉆研的他,思考為何不能將物理和圖像生成結(jié)合起來?
非平衡熱力學是熱力學的一個分支,專門研究某些不處于熱力學平衡中的物理系統(tǒng)。
典型例子是一滴會在水中擴散的墨水。
在擴散之前,這滴墨水會是在水中的某個地方形成一個大斑點,但如果想模擬墨水開始擴散前的初始狀態(tài)概率分布就會非常困難,因為這個分布很復雜、導致很難采樣。
但隨著墨水擴散到水中、水逐漸變成淡藍色,墨水分子將分布得更簡單更均勻,我們就可以很輕松地用數(shù)學公式來描述其中的概率。
這時候,非平衡熱力學就上場了,它能將墨水擴散過程中每一步的概率分布都描述出來:
由于擴散過程的每一步都可逆,所以只要“步子”足夠小,就可以從簡單的分布再推斷出最初復雜的分布來。
△就像是將這個過程倒放
Jascha Sohl-Dickstein就是受這個擴散原理的啟發(fā),創(chuàng)建了“擴散模型”,具體分為兩步。
首先,通過某種算法將復雜圖像轉(zhuǎn)化為簡單的噪聲。
這一過程就類似于一滴墨水擴散到水全部變藍,然后再逆轉(zhuǎn)這一過程,將噪聲轉(zhuǎn)化為新圖像。
具體來說,當系統(tǒng)拿到一張訓練圖像,這張圖像的百萬像素中的每一個點都有相應的值,根據(jù)這些值就能將像素轉(zhuǎn)變?yōu)榘偃f維空間中的一個點。
隨后,用算法在每個時間步長中向每個像素點添加一些噪聲,相當于墨水的每一步擴散,這樣每個像素的值與其原始圖像中的值之間的關系就會越來越小,直到看起來更像是一個簡單的噪聲分布。
接下來,對數(shù)據(jù)集中的所有圖像執(zhí)行這一操作,百萬維空間中一開始由各個點組成的復雜分布(無法輕易描述和采樣),就會變成圍繞原點組成的簡單正態(tài)分布。
Jascha Sohl-Dickstein解釋道:
這個非常緩慢的“前向”轉(zhuǎn)換過程就好比將數(shù)據(jù)分布變成了一個巨大的“噪音球”,提供了一個可以輕松采樣的分布。
然后,再用這些被算法轉(zhuǎn)換的圖像,訓練得到最終的擴散模型。
具體來說,就是喂給神經(jīng)網(wǎng)絡從前向轉(zhuǎn)換過程中獲得的噪聲圖像,訓練它預測之前一步得到的噪聲較小的圖像,在這期間不斷調(diào)整參數(shù)、改善模型,最終,它就可以將噪聲圖像輸出成我們想要的圖像。
這樣訓練好的神經(jīng)網(wǎng)絡,無需學習原始圖像,就可以直接采樣生成全新的圖像。
2015年,Sohl Dickstein將這個擴散模型的雛形進行了發(fā)表。
遺憾的是,盡管它能夠?qū)φ麄€分布進行采樣,也不會只吐出圖像數(shù)據(jù)集的“子集”,但能力還遠遠落于GAN——既表現(xiàn)在生成質(zhì)量上,也表現(xiàn)在生成速度上。
改進:造就DALL·E2、Stable Diffusio等爆火模型
最終,是兩位博士生的相繼改變,造就了最終的“現(xiàn)代版”擴散模型。
首先是2019年,還在斯坦福大學讀博士的Yang Song,和他的導師在完全不知道Sohl Dickstein成果的情況下,想出了一種類似的新方法。
相比Sohl Dickstein估計數(shù)據(jù)(即高維表面)的概率分布的做法,Yang Song估計的是分布的梯度(即高維表面的斜率)。
而通過先用不斷增加的噪聲水平干擾訓練集中的每個圖像,然后再讓神經(jīng)網(wǎng)絡使用分布梯度預測原始圖像,可以非常有效地去噪,最終生成質(zhì)量很高的圖像。
不過,這種方法的采樣速度非常慢。
好在很快,2020年,UC伯克利的Jonathan Ho看到了這兩項研究,意識到后者的思路可以用來重新設計和改進Sohl Dickstein最開始的那版雛形。
于是,就有了后來大名鼎鼎的DDPM(Denoising Diffusion Probabilistic Models)——它在所有的任務中,要么打平、要么超過所有其他生成模型,包括統(tǒng)治了該領域多年的GAN。
至此,一個最初啟發(fā)于物理學原理的機器學習模型,幾經(jīng)周轉(zhuǎn),最終掀起了AIGC領域的熱潮——
我們現(xiàn)在看到的DALL·E2、Stable Diffusio、SD和Imagen……都是基于DDPM這一擴散模型改進而來。
MIT新電動力學圖像生成模型
現(xiàn)在,又是“拜物理學所賜”,擴散模型也迎來了新的挑戰(zhàn)者。
基于電動力學的啟發(fā),來自MIT的研究人員提出了一種新的“泊松流”生成模型PFGM(“Poisson Flow” Generative Models)。
具體來說,這個生成模型將數(shù)據(jù)看成空間中新增z=0平面上的電荷,電荷產(chǎn)生了空間中的電場。
其中,電荷產(chǎn)生的電場線對應數(shù)據(jù)采樣過程,電場線的方向即空間中泊松方程的解的梯度。
代表數(shù)據(jù)的電荷沿著產(chǎn)生的電場線向外移動,最終會形成一個半球面,并在球面半徑足夠大時,電荷在半球面上均勻分布。
與擴散模型中每一步概率分布都是可逆的一樣,電場線也是可逆的。
因此,可以利用這種效果訓練模型,讓它學會通過均勻分布在半球面上的數(shù)據(jù),反過來生成z=0平面上的數(shù)據(jù)。例如下圖這個例子,數(shù)據(jù)分布一開始呈愛心狀,但當數(shù)據(jù)最終移動到半徑足夠大的半球面上時,它們會呈現(xiàn)出均勻分布狀態(tài):
對應到圖像生成過程中也一樣,z=0平面上的數(shù)據(jù)分布,是我們希望生成的圖像。
而生成模型要做的,則是通過半球面上均勻分布的數(shù)據(jù),來反向推出希望生成的圖像:
在CIFAR-10數(shù)據(jù)集上的評估中,PFGM是在一眾類似思路模型中表現(xiàn)最好的,超過了擴散模型。
而且,PFGM在與擴散模型生成質(zhì)量差不多的同時,速度要快上10~20倍,在速度和生成質(zhì)量上取得了更好的“兼顧”。
下圖是PFGM基于不同數(shù)據(jù)集訓練后生成圖片的過程,效果確實也是很能打了:
猜猜下一個挑戰(zhàn)圖像生成領域的物理模型會是什么?