首個ICLR時間檢驗獎出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它
首屆ICLR時間檢驗獎,頒向變分自編碼器VAE。
這篇跨越十一年的論文,給后續(xù)包括擴散模型在內的生成模型帶來重要思想啟發(fā),才有了今天的DALL-E3、Stable Diffusion。此外,在音頻、文本等領域都有廣泛應用,是深度學習中的重要技術之一。
論文一作、VAE主要架構師Diederik Kingma可是妥妥大佬一枚?,F(xiàn)在他在DeepMind擔任研究科學家,曾是OpenAI創(chuàng)始成員、算法負責人,還是Adam優(yōu)化器發(fā)明者。
網(wǎng)友紛紛表示祝福:Well Deserved,并稱VAE改變了游戲規(guī)則。
值得一提的是,榮獲亞軍的論文也同樣具有代表性,其參與者包括OpenAI首席科學家的Ilya、GAN的發(fā)明者Ian Goodfellow。
與此同時,杰出論文獎也悉數(shù)頒出。
首屆ICLR時間檢驗獎
首先來看榮獲時間檢驗獎的論文講了什么。
概率建模是我們推理世界的最基本方法之一。這篇論文率先將深度學習與可擴展的概率推理(通過所謂的重參數(shù)化技巧進行攤平均值場變分推理)整合在一起,從而產(chǎn)生了變分自編碼器(VAE)。
委員會評價這項工作其持久價值在于它的優(yōu)雅。用于開發(fā) VAE 的原理加深了我們對深度學習和概率建模之間相互作用的理解,并引發(fā)了許多后續(xù)有趣的概率模型和編碼方法的開發(fā)。
傳統(tǒng)自編碼器有個問題,它學到的隱向量是確定的、離散的,也沒有很好的可解釋性,而且不能隨機采樣隱向量來生成新樣本。VAE就是為了解決這些問題而提出的。
VAE的核心思想是把隱向量看作是一個概率分布。具體而言,編碼器(encoder)不直接輸出一個隱向量,而是輸出一個均值向量和一個方差向量,它們刻畫了隱變量的高斯分布。這樣一來,我們就可以從這個分布中隨機采樣隱向量,再用解碼器(decoder)生成新圖片了。
但是問題在于,這個隱變量的后驗分布很復雜,難以直接求解。
所以VAE的第二個關鍵思想是用一個簡單分布(例如高斯分布)去近似真實的后驗分布,并通過優(yōu)化一個下界(ELBO)來訓練模型。
這個下界可以分解為兩部分:一部分讓生成的圖片更接近原始圖片,另一部分讓近似后驗分布更接近先驗分布(例如標準高斯分布)。直觀地說,這相當于在重構輸入圖片的同時,對隱變量分布進行了一個“規(guī)范化”。
為了讓這個下界能通過梯度下降來優(yōu)化,VAE論文提出了一個重參數(shù)技巧,它把從分布中采樣的過程改寫成從標準高斯分布采樣并進行線性變換。這樣梯度就可以直接反向傳播了。
這樣一來,VAE可以學習到數(shù)據(jù)的隱空間表示,并用它來生成新樣本。和傳統(tǒng)自編碼器相比,VAE學到的隱變量具有更好的可解釋性和泛化能力。
在實驗部分,論文在MNIST數(shù)據(jù)集上展示了VAE生成數(shù)字圖像的效果。
而這篇研究背后的作者同樣來頭不小。
Diederik P. Kingma博士畢業(yè)于阿姆斯特丹大學。曾是OpenAI創(chuàng)始成員之一、算法團隊負責人,專注于基礎研究,比如用于生成模型的算法。
離開OpenAI之后,他來到谷歌,參與到谷歌大腦、DeepMind團隊研究中去,他主導了一系列生成模型的研究,包括文本、圖像和視頻。除了VAE之外,他也是Adam優(yōu)化器、Glow等發(fā)明者。谷歌學術被引超20萬次。
除此之外,他還有著天使投資人這一身份。
不過目前從Twitter介紹上看,他貌似已經(jīng)離開DeepMind。
AI大牛Max Welling目前是阿姆斯特丹大學機器學習研究主席,也是MSR杰出科學家。
另外,同樣來自2013年的研究,來自谷歌、紐約大學、蒙特利爾大學的論文Intriguing properties of neural networks獲得了亞軍。
里面還有不少熟悉面孔,比如那個消失的OpenAI聯(lián)創(chuàng)兼首席科學家Ilya Sutskever 、GAN發(fā)明者Ian Goodfellow。
ICLR委員對這篇論文評價如下:
隨著深度神經(jīng)網(wǎng)絡在實際應用中的日益普及,了解神經(jīng)網(wǎng)絡何時以及如何出現(xiàn)不良行為顯得尤為重要。這篇論文強調了這樣一個問題,即神經(jīng)網(wǎng)絡很容易受到輸入中幾乎難以察覺的微小變化的影響。這一想法有助于催生對抗性攻擊(試圖愚弄神經(jīng)網(wǎng)絡)和對抗性防御(訓練神經(jīng)網(wǎng)絡使其不被愚弄)領域。
杰出論文獎
與此同時,本屆ICLR杰出論文獎也悉數(shù)頒出,共有5篇優(yōu)秀論文獲獎、11篇論文獲得榮譽提名。
那么主要來看看這5篇論文講了什么。
Generalization in diffusion models arises from geometry-adaptive harmonic representations
這篇來自紐約大學、法蘭西學院的研究,從實驗和理論研究了擴散模型中的記憶和泛化特性。作者根據(jù)經(jīng)驗研究了圖像生成模型何時從記憶輸入轉換到泛化機制,并通過 “幾何自適應諧波表征 ”與諧波分析的思想建立聯(lián)系,進一步從建筑歸納偏差的角度解釋了這一現(xiàn)象。
這篇論文涵蓋了我們對視覺生成模型理解中的一個關鍵缺失部分,很可能會對該領域未來的重要理論研究有所啟發(fā)。
Learning Interactive Real-World Simulators
研究機構來自UC伯克利、Google DeepMind、MIT、阿爾伯塔大學。匯集多個來源的數(shù)據(jù)來訓練機器人基礎模型是一個長期的宏偉目標。由于不同的機器人具有不同的感知-運動界面,這阻礙了大規(guī)模數(shù)據(jù)集的訓練,因此帶來了巨大的挑戰(zhàn)。這項名為 “UniSim ”的工作是朝著這個方向邁出的重要一步,也是一項工程壯舉,它使用基于視覺感知和控制文字描述的統(tǒng)一界面來聚合數(shù)據(jù),并利用視覺和語言領域的最新發(fā)展,從數(shù)據(jù)中訓練機器人模擬器。
Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors
來自特拉維夫大學、IBM的研究深入探討了最近提出的狀態(tài)空間模型和Transformer架構對長期順序依賴關系的建模能力。令人驚訝的是,作者發(fā)現(xiàn)從頭開始訓練Transformer模型會導致對其性能的低估,并證明通過預訓練和微調設置可以獲得巨大的收益。
這篇論文執(zhí)行得非常出色,在注重簡潔性和系統(tǒng)性見解方面堪稱典范。
Protein Discovery with Discrete Walk-Jump Sampling
基因泰克、紐約大學的研究解決了基于序列的抗體設計問題,這是蛋白質序列生成模型的一個重要應用。作者引入了一種創(chuàng)新而有效的新建模方法,專門用于處理離散蛋白質序列數(shù)據(jù)的問題。除了在硅學中驗證該方法外,作者還進行了大量濕實驗室實驗,在體外測量抗體結合親和力,證明了其生成方法的有效性。
Vision Transformers Need Registers
來自Meta等機構的研究,識別了vision transformer網(wǎng)絡特征圖中的偽影,其特點是低信息量背景區(qū)域中的高規(guī)范Tokens。作者對出現(xiàn)這種情況的原因提出了關鍵假設,并提供了一個簡單而優(yōu)雅的解決方案,利用額外的register tokens來解決這些偽影問題,從而提高模型在各種任務中的性能。從這項工作中獲得的啟示也會對其他應用領域產(chǎn)生影響。
這篇論文寫得非常好,提供了一個開展研究的絕佳范例—發(fā)現(xiàn)問題,了解問題發(fā)生的原因,然后提供解決方案。
除此之外,本屆會議共收到了7262 篇提交論文,接收2260篇,整體接收率約為 31%。此外Spotlights論文比例為 5%,Oral論文比例為 1.2%。
本文轉自 量子位,作者:量子位
