一周發(fā)明GAN!時間檢驗(yàn)獎得主分享背后故事:每件發(fā)明都不是最后的發(fā)明
引用超85000次的經(jīng)典論文GAN獲NeurIPS2024時間檢驗(yàn)獎后,它的起源和背后故事也被拋了出來。
要從Yoshua Bengio實(shí)驗(yàn)室的一次頭腦風(fēng)暴說起。
Bengio召集實(shí)驗(yàn)室成員,提出了一個富有挑戰(zhàn)性的設(shè)想:
訓(xùn)練一個確定性的生成網(wǎng)絡(luò)g,該網(wǎng)絡(luò)僅在輸入z中包含隨機(jī)噪聲。這個網(wǎng)絡(luò)的輸出x=g(z)應(yīng)該是從某個分布p(x)中抽取的樣本。輸出可以是任何形式:圖像、音頻、文本。
正當(dāng)眾人皆無頭緒之時,一個在當(dāng)時看似滑稽且?guī)缀鯚o意義的想法揭開了GAN的序幕:
如果能有另一個神經(jīng)網(wǎng)絡(luò)充當(dāng)判別器,會怎樣?
作者之一Sherjil Ozair,一邊講述著這段經(jīng)歷,一邊還透露曾有DeepMind研究員向他開玩笑,說他可能已經(jīng)完成了最偉大的工作,可以直接退休了。
但他認(rèn)為事實(shí)并非如此。
CNN感覺像是最后的發(fā)明,但并不是。
GAN感覺像是最后的發(fā)明,但也不是。
LSTM、ResNet、DQN、AlphaGo、AlphaZero、MuZero都并非終結(jié)。
Transformer和大語言模型,亦不是最后的發(fā)明。
這項出自Yoshua Bengio、lan Goodfellow等一眾大佬,引用超過85000次,被NeurIPS2024官方評價為“生成建模的基礎(chǔ)部分之一,在過去10年中激發(fā)了許多研究進(jìn)展”的研究。
究竟是如何煉成的?
Sherjil Ozair講述背后故事
以下是Sherjil Ozair的完整自述:
非常高興聽到GAN(生成對抗網(wǎng)絡(luò))在2024年NeurIPS大會上獲得時間檢驗(yàn)獎。
NeurIPS時間檢驗(yàn)獎是授予那些在十年時間里經(jīng)受住考驗(yàn)的論文。
“我”花了一些時間回顧GAN是如何產(chǎn)生的以及過去十年中人工智能的發(fā)展。
2012年初,當(dāng)“我”還是印度理工學(xué)院德里分校的本科生時,“我”偶然發(fā)現(xiàn)了Geoffrey Hinton在Coursera上的一門深度學(xué)習(xí)課程。
深度學(xué)習(xí)當(dāng)時是機(jī)器學(xué)習(xí)中一個邊緣化且小眾的分支領(lǐng)域,它承諾能實(shí)現(xiàn)更多的“端到端”學(xué)習(xí),并且更接近人類大腦的工作方式。
這門課非常精彩。它不僅很好地解釋了深度學(xué)習(xí)的原理,還充滿了Hinton特有的英式幽默和非傳統(tǒng)思維。
比如,他建議“我們”這樣可視化高維空間:
要處理14維空間中的超平面,想象一個3維空間,然后大聲對自己說“14”,每個人都是這么做。
但請記住,從13維到14維的轉(zhuǎn)變,其增加的復(fù)雜性與從2維到3維的轉(zhuǎn)變一樣大。
出于好奇興奮地想學(xué)習(xí)更多知識,“我”開始仔細(xì)研究所有能找到的資料。
當(dāng)時主要是一些杰出研究者發(fā)表的學(xué)術(shù)論文,比如Yoshua Bengio,其中很多都保存在他實(shí)驗(yàn)室的網(wǎng)站上。
2012年,Quora非?;鸨琘oshua經(jīng)常在Quora上回答有關(guān)深度學(xué)習(xí)的問題。
“我”真誠地感謝他幫助像“我”這樣的本科生理解深度學(xué)習(xí)。“我”通過Quora聯(lián)系他,表達(dá)謝意。
令“我”非常驚喜的是,“我”不僅收到了回復(fù),還收到了一份他實(shí)驗(yàn)室的實(shí)習(xí)邀請。
這是一次命運(yùn)的相遇,而當(dāng)時的“我”對這次交流和即將展開的旅程的重要性和影響力還只有一點(diǎn)點(diǎn)模糊的認(rèn)識。
“我”由衷地感激Yoshua Bengio為這個世界和為“我”所做的一切。
“我”通過了面試獲得了實(shí)習(xí)機(jī)會,2014年夏天,將在Yoshua的LISA實(shí)驗(yàn)室實(shí)習(xí)。
本想2013年就實(shí)習(xí)的,但印度理工學(xué)院的制度要求學(xué)生必須在第三學(xué)年的暑假在他們認(rèn)可的公司實(shí)習(xí)。
2014年5月,“我”飛抵蒙特利爾,來到了實(shí)驗(yàn)室。
剛見到Y(jié)oshua,他就立馬把“我”拉進(jìn)了一個房間,里面坐著的還有Ian Goodfellow和Aaron Courville。
Yoshua繼續(xù)解釋著他最近一直在思考的一個新想法:
設(shè)想構(gòu)建一個確定性的生成網(wǎng)絡(luò)g,只在輸入z中包含隨機(jī)噪聲。這個網(wǎng)絡(luò)的輸出x=g(z)應(yīng)該是來自某個分布p(x)的樣本,可以是任何形式:圖像、音頻或文本。
他強(qiáng)調(diào)這就是“我們”需要訓(xùn)練的目標(biāo)。
但怎么訓(xùn)練呢?在這種“隱式”網(wǎng)絡(luò)中,概率p(x)并沒有明確表達(dá)。
他提出應(yīng)該對生成器的輸出(生成分布)和某個樣本數(shù)據(jù)集(可以是圖像、音頻等)進(jìn)行“雙樣本分布匹配”。
但如何進(jìn)行這種分布匹配仍然不明確。
作為一個年輕天真的本科生,“我”提出了矩匹配,但“我們”都知道矩匹配可能無法應(yīng)對高維數(shù)據(jù)。小組里也討論了其他想法,也都感覺不夠有說服力。
不過,Yoshua對訓(xùn)練一個確定性的、消耗噪聲并產(chǎn)生樣本的生成神經(jīng)網(wǎng)絡(luò)的愿景和熱情令人印象深刻且富有啟發(fā)性。
團(tuán)隊決定私下繼續(xù)思考這個問題。
在Les Trois Brasseurs餐廳的一次實(shí)驗(yàn)室聚餐中,Ian Goodfellow突然想到了一個在當(dāng)時看似滑稽且?guī)缀鹾翢o意義的主意:
如果讓另一個神經(jīng)網(wǎng)絡(luò)來充當(dāng)判別器會怎樣?
這是一個開拓前沿的時刻。
當(dāng)時,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練還相當(dāng)“原始”。通常做法是:
建立一個主神經(jīng)網(wǎng)絡(luò),輸入數(shù)據(jù),得到一個預(yù)測結(jié)果,對其應(yīng)用一個數(shù)學(xué)損失函數(shù),然后使用梯度下降來優(yōu)化這個網(wǎng)絡(luò)。
而Ian的想法則把損失函數(shù)本身設(shè)想成一個可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。不是優(yōu)化一個固定的數(shù)學(xué)損失,而是用另一個“判別器”神經(jīng)網(wǎng)絡(luò)來提供損失值和梯度,用于訓(xùn)練“生成器”神經(jīng)網(wǎng)絡(luò)。
這個想法自然招致質(zhì)疑。整個系統(tǒng)會不會崩潰到退化輸出?判別器從何而來?處處都是先有雞還是先有蛋的困境。
但I(xiàn)an對此也早有腹案。他提出讓判別器和生成器在一個零和博弈中對抗:
生成器試圖產(chǎn)生與真實(shí)數(shù)據(jù)“難以區(qū)分”的輸出,而判別器則要設(shè)法分辨看到的是生成樣本還是真實(shí)樣本。
也許這能行?第二天,實(shí)驗(yàn)室所有成員都收到了一封郵件。
在一個充斥著編程和運(yùn)行實(shí)驗(yàn)的長夜,Ian成功讓第一個生成對抗網(wǎng)絡(luò)運(yùn)行起來。
這些是在MNIST數(shù)據(jù)集上產(chǎn)生的第一批樣本。
當(dāng)時“我”正在研究類似的東西,用非神經(jīng)網(wǎng)絡(luò)判別器進(jìn)行訓(xùn)練,但效果遠(yuǎn)不及預(yù)期。
于是“我”決定轉(zhuǎn)而幫助Ian研究GAN。距離NeurIPS 2014的提交截止日期只有一周了?!拔覀儭睕Q定全力以赴,應(yīng)該能趕上提交一篇論文。
在接下來的幾天里,“我們”設(shè)置了評估方法來與現(xiàn)有的生成模型進(jìn)行比較,嘗試了不同的架構(gòu)、噪聲函數(shù)和博弈公式。
Jean、Yoshua和“我”發(fā)現(xiàn)GAN博弈是收斂的,并且在平衡狀態(tài)下最小化了Jensen-Shannon散度。
“我們”堅持了下來,在最后一周完成了所有工作,并提交了一篇論文到NeurIPS。
GAN被接收為海報展示論文(posted presentation)。
“我”記得雖然大家都很興奮,但也都知道GAN的訓(xùn)練動態(tài)非常不穩(wěn)定。大部分合作者開始研究其它模型架構(gòu),試圖解決在GAN中發(fā)現(xiàn)的問題。
GAN在12月份進(jìn)行了展示,卻基本上沒有引起注意。
幾個月后,2015年8月,Alec Radford開始發(fā)布他一直在研究的卷積GAN的樣本。
沒錯,就是那個幾乎參與了OpenAI所有重大突破的Alec Radford。2015年,他正在研究卷積神經(jīng)網(wǎng)絡(luò)、批量歸一化和GAN。
“我”無法完全展現(xiàn)DCGAN之后GAN引發(fā)的巨大關(guān)注。
但“我”想強(qiáng)調(diào)的是,GAN的演進(jìn)過程被恰如其分地用來象征AI整體的進(jìn)步。
這張展示圖像生成驚人發(fā)展的圖片已經(jīng)過時了,因?yàn)楝F(xiàn)在的圖像生成模型已經(jīng)能生成百萬像素級的圖像,甚至可以生成視頻。
至于“我”個人的故事,GAN作為“我”的第一篇學(xué)術(shù)論文既是福也是禍。一位DeepMind的研究員曾開玩笑說,“我”可能已經(jīng)可以退休了,因?yàn)椤拔摇笨赡芤呀?jīng)完成了自己最偉大的工作。
但是“認(rèn)為歷史已經(jīng)終結(jié)”可能是AI領(lǐng)域最大的錯誤?!拔覀儭翱偸莾A向于認(rèn)為“就是這個了,這是最后的發(fā)明”。但事實(shí)從來都不是這樣。
CNN曾經(jīng)感覺像是最后的發(fā)明,但并不是。
GAN曾經(jīng)感覺像是最后的發(fā)明,但并不是。
LSTM曾經(jīng)感覺像是最后的發(fā)明,但并不是。
ResNets、DQN、AlphaGo、AlphaZero、MuZero都不是最后的答案。
回過頭來看,這些想法總是顯得很滑稽。但是想想現(xiàn)在,Transformer和大語言模型被認(rèn)為是最后的發(fā)明。
但它們也不是。
“我”最近離開了前沿AI實(shí)驗(yàn)室的圈子,開始創(chuàng)辦一家公司來構(gòu)建一些真正令人驚嘆的東西?!拔摇焙芸鞎窒砀嘞嚓P(guān)信息。敬請關(guān)注。
感謝NeurIPS Conference授予GAN時間檢驗(yàn)獎,也感謝這些對抗者們:Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Aaron Courville、Yoshua Bengio
也為Seq2Seq論文作者們表示祝賀。
Ian Goodfellow開麥
Mehdi Mirza將這段經(jīng)歷分享出來后吸引到不少網(wǎng)友圍觀,網(wǎng)友們看得津津有味:
沒想到論文一周就寫出來了。
好一段精彩的歷史回顧!在”Attention is all you need”之前,GAN才是主流。
GAN論文一作Ian Goodfellow也激情開麥:
如果你是那個時代的親歷者,值得一讀以懷舊;如果你不是,也能通過這些文字一窺當(dāng)年的情形。
關(guān)于GAN論文的更多細(xì)節(jié),可以點(diǎn)擊這里查看:史無前例!Seq2Seq和GAN同獲NeurIPS時間檢驗(yàn)獎,Ilya連續(xù)2年獲獎。