啟發(fā)現(xiàn)代人工智能藝術(shù)的物理原理,探索生成式人工智能的可能性才剛開始
讓 OpenAI 創(chuàng)建的圖像生成系統(tǒng) DALL·E 2 繪制一幅「金魚在海灘上啜飲可口可樂」的圖畫,它會(huì)吐出超現(xiàn)實(shí)的圖像。該程序在訓(xùn)練期間會(huì)遇到海灘、金魚和可口可樂的圖像,但它不太可能看到三者同時(shí)出現(xiàn)的圖像。然而,DALL·E 2 可以將這些概念組合成可能讓達(dá)利感到自豪的東西。
DALL·E 2 是一種生成模型——一種嘗試使用訓(xùn)練數(shù)據(jù)生成在質(zhì)量和多樣性方面可與數(shù)據(jù)相媲美的新事物的系統(tǒng)。這是機(jī)器學(xué)習(xí)中最困難的問題之一,到達(dá)這一點(diǎn)是一段艱難的旅程。
第一個(gè)重要的圖像生成模型使用了一種稱為神經(jīng)網(wǎng)絡(luò)的人工智能方法——一種由多層計(jì)算單元組成的程序,稱為人工神經(jīng)元。但即使他們的圖像質(zhì)量變得更好,模型也被證明不可靠且難以訓(xùn)練。與此同時(shí),一個(gè)強(qiáng)大的生成模型——由一位對(duì)物理學(xué)充滿熱情的博士后研究員創(chuàng)建——處于休眠狀態(tài),直到兩名研究生取得技術(shù)突破,使這只野獸復(fù)活。
DALL·E 2 就是這樣一頭野獸。使 DALL·E 2 的圖像以及其競爭對(duì)手 Stable Diffusion 和 Imagen 的圖像成為可能的關(guān)鍵洞察力來自物理學(xué)世界。支撐它們的系統(tǒng)被稱為擴(kuò)散模型,在很大程度上受到非平衡熱力學(xué)的啟發(fā),非平衡熱力學(xué)支配著流體和氣體擴(kuò)散等現(xiàn)象?!赣泻芏嗉夹g(shù)最初是由物理學(xué)家發(fā)明的,現(xiàn)在在機(jī)器學(xué)習(xí)中非常重要,」OpenAI 的機(jī)器學(xué)習(xí)研究員 Yang Song 說。
這些模型的力量震撼了行業(yè)和用戶?!笇?duì)于生成模型來說,這是一個(gè)激動(dòng)人心的時(shí)刻,」加州理工學(xué)院計(jì)算機(jī)科學(xué)家、英偉達(dá)機(jī)器學(xué)習(xí)研究高級(jí)主管 Anima Anandkumar 說。
她說,雖然擴(kuò)散模型創(chuàng)建的逼真圖像有時(shí)會(huì)延續(xù)社會(huì)和文化偏見,但「我們已經(jīng)證明,生成模型對(duì)下游任務(wù)很有用,[這些]提高了預(yù)測人工智能模型的公平性。」
高概率
為了理解如何為圖像創(chuàng)建數(shù)據(jù),讓我們從僅由兩個(gè)相鄰灰度像素組成的簡單圖像開始。我們可以根據(jù)每個(gè)像素的陰影(從 0 為全黑到 255 為全白)用兩個(gè)值來完整描述此圖像。您可以使用這兩個(gè)值將圖像繪制為二維空間中的一個(gè)點(diǎn)。
如果我們將多個(gè)圖像繪制為點(diǎn),則可能會(huì)出現(xiàn)聚類——某些圖像及其對(duì)應(yīng)的像素值比其他圖像更頻繁地出現(xiàn)?,F(xiàn)在想象平面上方有一個(gè)曲面,曲面的高度對(duì)應(yīng)于簇的密度。該曲面繪制出概率分布。你最有可能在曲面最高部分下方找到單個(gè)數(shù)據(jù)點(diǎn),在表面的最低部分下面很少找到數(shù)據(jù)點(diǎn)。
DALL·E 2 制作了這些「金魚在海灘上啜飲可口可樂」的圖像。這個(gè)由 OpenAI 創(chuàng)建的程序可能從未遇到過類似的圖像,但仍然可以自行生成它們。
現(xiàn)在你可以使用此概率分布來生成新圖像。你需要做的就是隨機(jī)生成新的數(shù)據(jù)點(diǎn),同時(shí)遵守更頻繁地生成更多可能數(shù)據(jù)的限制——這個(gè)過程稱為「采樣」分布。每個(gè)新點(diǎn)都是一個(gè)新圖像。
同樣的分析適用于更逼真的灰度照片,例如每張一百萬像素。只是現(xiàn)在,繪制每個(gè)圖像需要的不是兩個(gè)軸,而是一百萬個(gè)。此類圖像的概率分布將是一些復(fù)雜的百萬加一維曲面。如果你對(duì)該分布進(jìn)行采樣,你將產(chǎn)生一百萬個(gè)像素值。將這些像素打印在一張紙上,圖像很可能看起來像原始數(shù)據(jù)集中的照片。
生成建模的挑戰(zhàn)是為構(gòu)成訓(xùn)練數(shù)據(jù)的某些圖像集學(xué)習(xí)這種復(fù)雜的概率分布。該分布之所以有用,部分原因是它捕獲了有關(guān)數(shù)據(jù)的廣泛信息,部分原因是研究人員可以結(jié)合不同類型數(shù)據(jù)(例如文本和圖像)的概率分布來構(gòu)成超現(xiàn)實(shí)的輸出,例如金魚在海灘上啜飲可口可樂?!改憧梢曰旌虾推ヅ洳煌母拍睢詣?chuàng)建訓(xùn)練數(shù)據(jù)中從未見過的全新場景,」Anandkumar 說。
2014 年,一種稱為生成對(duì)抗網(wǎng)絡(luò) (GAN) 的模型成為第一個(gè)生成逼真圖像的模型?!柑?dòng)了,」Anandkumar 說。但是 GAN 很難訓(xùn)練:它們可能無法學(xué)習(xí)完整的概率分布,并且可能只能從分布的一個(gè)子集生成圖像。例如,在各種動(dòng)物圖像上訓(xùn)練的 GAN 可能只生成狗的圖片。
機(jī)器學(xué)習(xí)需要一個(gè)更強(qiáng)大的模型。Jascha Sohl-Dickstein 的工作受到物理學(xué)的啟發(fā),他將提供一個(gè)答案。
Jascha Sohl-Dickstein。
興奮的斑點(diǎn)
在 GAN 發(fā)明前后,Sohl-Dickstein 是斯坦福大學(xué)的一名博士后,研究生成模型,對(duì)非平衡熱力學(xué)也有興趣。物理學(xué)的這個(gè)分支研究不處于熱平衡狀態(tài)的系統(tǒng)——那些在內(nèi)部以及與環(huán)境交換物質(zhì)和能量的系統(tǒng)。
一個(gè)說明性的例子是一滴藍(lán)色墨水通過一個(gè)水容器擴(kuò)散。起初,它在一個(gè)地方形成一個(gè)黑色的斑點(diǎn)。此時(shí),如果你想計(jì)算在容器的某個(gè)小體積中找到墨水分子的概率,你需要一個(gè)概率分布來清晰地模擬墨水開始擴(kuò)散之前的初始狀態(tài)。但這種分布很復(fù)雜,因此很難從中抽樣。
然而,最終,墨水?dāng)U散到整個(gè)水中,使水變成淡藍(lán)色。這可以用簡單的數(shù)學(xué)表達(dá)式描述的更簡單、更均勻的分子概率分布。非平衡熱力學(xué)描述了擴(kuò)散過程中每一步的概率分布。至關(guān)重要的是,每一步都是可逆的——通過足夠小的步驟,你可以從一個(gè)簡單的分布返回到一個(gè)復(fù)雜的分布。
Jascha Sohl-Dickstein 基于擴(kuò)散原理創(chuàng)建了一種新的生成建模方法?!狝sako Miyakawa
Sohl-Dickstein 使用擴(kuò)散原理開發(fā)了生成建模算法。這個(gè)想法很簡單:該算法首先將訓(xùn)練數(shù)據(jù)集中的復(fù)雜圖像轉(zhuǎn)化為簡單的噪聲——類似于從一滴墨水變成漫射淡藍(lán)色的水——然后教系統(tǒng)如何反轉(zhuǎn)這個(gè)過程,將噪聲轉(zhuǎn)化為圖像。
這是它的工作原理。首先,該算法從訓(xùn)練集中獲取圖像。和以前一樣,假設(shè)百萬像素中的每一個(gè)都有一些值,我們可以將圖像繪制為百萬維空間中的一個(gè)點(diǎn)。該算法在每個(gè)時(shí)間步向每個(gè)像素添加一些噪聲,相當(dāng)于墨水在一個(gè)小時(shí)間步后的擴(kuò)散。隨著這個(gè)過程的繼續(xù),像素值與它們在原始圖像中的值的關(guān)系越來越小,像素看起來更像是一個(gè)簡單的噪聲分布。(該算法還在每個(gè)時(shí)間步將每個(gè)像素值向原點(diǎn)微移一點(diǎn)點(diǎn),即所有這些軸上的零值。這種微移可以防止像素值變得太大以至于計(jì)算機(jī)無法輕松處理。)
對(duì)數(shù)據(jù)集中的所有圖像執(zhí)行此操作,百萬維空間中點(diǎn)的初始復(fù)雜分布(無法輕易描述和采樣)變成圍繞原點(diǎn)的簡單、正態(tài)分布的點(diǎn)。
Sohl-Dickstein 說:「轉(zhuǎn)換序列非常緩慢地將你的數(shù)據(jù)分布變成一個(gè)大噪音球?!?這個(gè)「正向過程」為你提供了一個(gè)可以輕松采樣的分布。
接下來是機(jī)器學(xué)習(xí)部分:為神經(jīng)網(wǎng)絡(luò)提供從正向傳遞中獲得的噪聲圖像,并訓(xùn)練它預(yù)測更早一步出現(xiàn)的噪聲較小的圖像。一開始它會(huì)出錯(cuò),所以你調(diào)整網(wǎng)絡(luò)的參數(shù),讓它做得更好。最終,神經(jīng)網(wǎng)絡(luò)可以可靠地將代表簡單分布樣本的噪聲圖像一直轉(zhuǎn)換為代表復(fù)雜分布樣本的圖像。
經(jīng)過訓(xùn)練的網(wǎng)絡(luò)是一個(gè)成熟的生成模型?,F(xiàn)在你甚至不需要原始圖像來進(jìn)行正向傳遞:你有簡單分布的完整數(shù)學(xué)描述,所以你可以直接從中采樣。神經(jīng)網(wǎng)絡(luò)可以將這個(gè)樣本——本質(zhì)上只是靜態(tài)的——變成類似于訓(xùn)練數(shù)據(jù)集中圖像的最終圖像。
Sohl-Dickstein 回憶起他的擴(kuò)散模型的第一個(gè)輸出?!改銜?huì)瞇著眼睛說,[我認(rèn)為那個(gè)彩色斑點(diǎn)看起來像一輛卡車,]」他說?!肝一撕芏鄠€(gè)月的時(shí)間盯著不同的像素模式,試圖看到我喜歡的結(jié)構(gòu),[這比我以前得到的更有條理。] 我非常興奮。」
展望未來
Sohl-Dickstein 在 2015 年發(fā)表了他的擴(kuò)散模型算法,但仍然遠(yuǎn)遠(yuǎn)落后于 GAN 的能力。雖然擴(kuò)散模型可以對(duì)整個(gè)分布進(jìn)行采樣,并且永遠(yuǎn)不會(huì)只吐出圖像的一個(gè)子集,但圖像看起來更糟,而且過程太慢了?!肝艺J(rèn)為當(dāng)時(shí)這并不令人興奮,」Sohl-Dickstein 說。
論文地址:?https://doi.org/10.48550/arXiv.1503.03585?
需要兩名既不了解 Sohl-Dickstein 也不了解對(duì)方的學(xué)生,才能將最初工作中的點(diǎn)點(diǎn)滴滴與 DALL·E 2 等現(xiàn)代擴(kuò)散模型聯(lián)系起來。第一個(gè)是 Song,當(dāng)時(shí)他是斯坦福大學(xué)的博士生。2019 年,他和他的導(dǎo)師發(fā)表了一種構(gòu)建生成模型的新方法,該方法不估計(jì)數(shù)據(jù)(高維表面)的概率分布。相反,它估計(jì)了分布的梯度(將其視為高維表面的斜率)。
Yang Song 幫助提出了一種通過訓(xùn)練網(wǎng)絡(luò)有效地解讀嘈雜圖像來生成圖像的新技術(shù)。
Song 發(fā)現(xiàn),如果他首先用增加的噪聲水平擾動(dòng)訓(xùn)練數(shù)據(jù)集中的每張圖像,然后讓他的神經(jīng)網(wǎng)絡(luò)使用分布梯度預(yù)測原始圖像,從而有效地對(duì)其進(jìn)行去噪,他的技術(shù)效果最好。一旦經(jīng)過訓(xùn)練,他的神經(jīng)網(wǎng)絡(luò)就可以從簡單的分布中抽取噪聲圖像,并逐步將其轉(zhuǎn)換回代表訓(xùn)練數(shù)據(jù)集的圖像。圖像質(zhì)量很好,但他的機(jī)器學(xué)習(xí)模型采樣速度非常慢。而且他在不了解 Sohl-Dickstein 的工作的情況下做到了這一點(diǎn)?!肝腋静恢罃U(kuò)散模型,」Song 說?!冈谖覀?2019 年的論文發(fā)表后,我收到了 Jascha 發(fā)來的電子郵件。他向我指出,[我們的模型] 有著非常緊密的聯(lián)系?!?/span>
2020 年,第二名學(xué)生看到了這些聯(lián)系,并意識(shí)到 Song 的工作可以改進(jìn) Sohl-Dickstein 的擴(kuò)散模型。Jonathan Ho 最近在加州大學(xué)伯克利分校完成了生成建模方面的博士研究,但他仍在繼續(xù)研究?!肝艺J(rèn)為這是機(jī)器學(xué)習(xí)中數(shù)學(xué)上最美麗的分支學(xué)科,」他說。
Ho 利用 Song 的一些想法和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的其他進(jìn)展重新設(shè)計(jì)和更新了 Sohl-Dickstein 的擴(kuò)散模型。「我知道為了引起社區(qū)的注意,我需要讓模型生成漂亮的樣本,」他說?!肝掖_信這是我當(dāng)時(shí)能做的最重要的事情?!?/span>
他的直覺是正確的。Ho 和他的同事在 2020 年的一篇題為「去噪擴(kuò)散概率模型」的論文中宣布了這種新的和改進(jìn)的擴(kuò)散模型。它很快成為一個(gè)里程碑,以至于研究人員現(xiàn)在將其簡稱為 DDPM。根據(jù)一項(xiàng)圖像質(zhì)量基準(zhǔn)——將生成圖像的分布與訓(xùn)練圖像的分布進(jìn)行比較——這些模型匹配或超過了所有競爭生成模型,包括 GAN。沒過多久,大公司就注意到了這一點(diǎn)。現(xiàn)在,DALL·E 2、Stable Diffusion、Imagen 和其他商業(yè)模型都使用了 DDPM 的一些變體。
Jonathan Ho 和他的同事結(jié)合了 Sohl-Dickstein 和 Song 的方法,使現(xiàn)代擴(kuò)散模型成為可能,例如 DALL·E 2。
現(xiàn)代擴(kuò)散模型還有一個(gè)關(guān)鍵要素:大型語言模型 (LLM),例如 GPT-3。這些是基于互聯(lián)網(wǎng)文本訓(xùn)練的生成模型,用于學(xué)習(xí)單詞而不是圖像的概率分布。2021 年,Ho(現(xiàn)在是一家隱形公司的研究科學(xué)家)和他在 Google Research 的同事 Tim Salimans 以及其他地方的其他團(tuán)隊(duì)展示了如何將來自 LLM 和圖像生成擴(kuò)散模型的信息結(jié)合起來使用文本(例如, 「金魚在海灘上啜飲可口可樂」)來指導(dǎo)擴(kuò)散過程,從而引導(dǎo)圖像生成。這種「引導(dǎo)擴(kuò)散」過程是文本到圖像模型成功的背后原因,例如 DALL·E 2。
「它們遠(yuǎn)遠(yuǎn)超出了我最瘋狂的期望,」Ho 說?!肝也粫?huì)假裝我看到了這一切?!?/span>
產(chǎn)生問題
盡管這些模型非常成功,但 DALL·E 2 及其同類產(chǎn)品的圖像仍遠(yuǎn)非完美。大型語言模型可以在它們生成的文本中反映文化和社會(huì)偏見,例如種族主義和性別歧視。那是因?yàn)樗麄兘邮芰藦幕ヂ?lián)網(wǎng)上摘錄的文本的訓(xùn)練,而且這些文本通常包含種族主義和性別歧視的語言。在此類文本上學(xué)習(xí)概率分布的 LLM 充滿了相同的偏見。擴(kuò)散模型也在從互聯(lián)網(wǎng)上獲取的未經(jīng)整理的圖像上進(jìn)行訓(xùn)練,這些圖像可能包含類似的有偏見的數(shù)據(jù)。難怪將法學(xué)碩士與當(dāng)今的傳播模型相結(jié)合有時(shí)會(huì)產(chǎn)生反映社會(huì)弊病的圖像。
Anandkumar 有親身經(jīng)歷。當(dāng)她嘗試使用基于擴(kuò)散模型的應(yīng)用程序生成自己的風(fēng)格化頭像時(shí),她感到震驚?!高@么多 [許多] 圖像都被高度性感化了,」她說,「而它呈現(xiàn)給男性的東西卻并非如此?!?她并不孤單。
可以通過整理和過濾數(shù)據(jù)(考慮到數(shù)據(jù)集的龐大性,這是一項(xiàng)極其困難的任務(wù))或通過檢查這些模型的輸入提示和輸出來減少這些偏差?!府?dāng)然,沒有什么能代替仔細(xì)和廣泛的安全測試」一個(gè)模型,Ho 說?!高@對(duì)該領(lǐng)域來說是一個(gè)重要的挑戰(zhàn)?!?/span>
盡管存在這些顧慮,Anandkumar 仍然相信生成建模的力量。「我真的很喜歡 Richard Feynman 的名言:[我無法創(chuàng)造的東西,我不理解,] 」她說。加深的理解使她的團(tuán)隊(duì)能夠開發(fā)生成模型,例如,生成用于預(yù)測任務(wù)的代表性不足的類別的合成訓(xùn)練數(shù)據(jù),例如用于面部識(shí)別的較深膚色,有助于提高公平性。生成模型還可以讓我們深入了解我們的大腦如何處理嘈雜的輸入,或者它們?nèi)绾螁酒鹦睦硪庀蟛⒖紤]未來的行動(dòng)。構(gòu)建更復(fù)雜的模型可以賦予人工智能類似的能力。
Anandkumar 說:「我認(rèn)為,我們才剛剛開始探索生成式人工智能的可能性?!?/span>