150頁「幾何深度學(xué)習(xí)」上線:用對稱性和不變性解決機器學(xué)習(xí)問題
近十年來,數(shù)據(jù)科學(xué)和機器學(xué)習(xí)領(lǐng)域取得了巨大的進展。借助深度學(xué)習(xí)方法,許多高維學(xué)習(xí)任務(wù)(例如計算機視覺、蛋白質(zhì)折疊)在適當?shù)挠嬎阋?guī)模下也能夠完成。雖然在高維空間中,學(xué)習(xí)通用函數(shù)是一個非常困難的問題,但大多數(shù)任務(wù)上方法不是通用的,并且物理世界的基礎(chǔ)低維和結(jié)構(gòu)存在一些必要的預(yù)定義規(guī)律。
圖神經(jīng)網(wǎng)絡(luò)和幾何深度學(xué)習(xí)近期的一系列進展,有希望幫助機器學(xué)習(xí)解決更加深入復(fù)雜的問題。
幾何深度學(xué)習(xí),是從對稱性和不變性的角度對廣義機器學(xué)習(xí)問題進行幾何統(tǒng)一的嘗試。這些原理不僅是卷積神經(jīng)網(wǎng)絡(luò)的突破性性能和圖神經(jīng)網(wǎng)絡(luò)的近期成功的基礎(chǔ),而且還為構(gòu)建新型的、面向特定問題的歸納偏差提供了一種有原則的方法。
近日,一本名為《幾何深度學(xué)習(xí)》的新書通過可在各種應(yīng)用程序中應(yīng)用的幾何統(tǒng)一原理來揭示其中的規(guī)律性。這種「幾何統(tǒng)一」具有兩方面的意義:一方面,它提供了一個通用的數(shù)學(xué)框架來研究一些神經(jīng)網(wǎng)絡(luò)架構(gòu),例如 CNN,RNN,GNN 和 Transformer。另一方面,它提供了一個建設(shè)性的程序,可以將先驗物理知識整合到神經(jīng)架構(gòu)中,并提供原則性的方法來構(gòu)建一些新的架構(gòu)。
教你如何組建機器學(xué)習(xí)架構(gòu)
《幾何深度學(xué)習(xí)》(Geometric Deep Learning, Grids, Groups, Graphs, Geodesics, and Gauges)是深度學(xué)習(xí)幾何統(tǒng)一項目的第一版在線書,作者們表示該書自 2020 年 2 月起開始寫起,目前版本的頁數(shù)已超過了 150 頁。
該研究的四位作者 Michael M. Bronstein、Joan Bruna、Taco Cohen、Petar Veličković來自帝國理工、紐約大學(xué)、DeepMind 等研究機構(gòu)。

鏈接:
https://geometricdeeplearning.com/
arXiv 論文:
https://arxiv.org/abs/2104.13478
在這本書中,研究者從對稱性,不變性和群論的角度出發(fā),試圖提煉出「構(gòu)建所有常用神經(jīng)架構(gòu)所需的知識」。涵蓋了諸如 CNN、GNN、Transformer 和 LSTM 之類的常用模型,同時還包括球面卷積神經(jīng)網(wǎng)絡(luò)(Spherical CNN)、SO(3)-Transformer 和 Gauge Equivariant Mesh CNN 等新模型。
全書包括內(nèi)容簡介、高位空間中的學(xué)習(xí)、幾何先驗知識、幾何域、幾何深度學(xué)習(xí)模型、存在的問題與應(yīng)用、歷史觀點共 7 章內(nèi)容。以下是該書目錄:


預(yù)備知識
該書作者之一,DeepMind 資深研究科學(xué)家 Petar Veličković表示:「如果你此前尚未接觸過群論知識,則我們構(gòu)建的一些概念看起來會有些不太真實。
為此,你可以事先觀看一些作者之間視頻分享的內(nèi)容作為前置,也許這可以使某些無法以文字準確描述的內(nèi)容變得更加「生動」。
Petar Veličković在劍橋大學(xué)的分享——圖神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ):
https://www.youtube.com/watch?v=uF53xsT7mjc
Michael Bronstein 在 ICLR 2021 上的 Keynote:
https://iclr-conf.medium.com/announcing-the-iclr-2021-invited-speakers-db4aba84038a
此外,書中內(nèi)容包括如下一些概念:
域:定義數(shù)據(jù)的所有「點」的集合。例如,對于圖像來說,域是所有像素的集合;對于圖來說,域是所有節(jié)點和邊的集合。注意,該集合可能是無限的或者連續(xù)的,但是將其想象為有限的可能會讓一些數(shù)學(xué)運算變得容易。
對稱群:集合Ω到Ω自身雙射的集合(g: Ω → Ω)。例如,通過將圖像上每個像素向右移動一個 slot,并不會改變圖像上的對象。
由于要求對象在進行對稱變換時保持不變,因此引入了如下屬性:
對稱操作必須是可組合的。例如,如果將球體繞 x 軸旋轉(zhuǎn) 30 度,然后繞 y 軸旋轉(zhuǎn) 60 度,并假設(shè)每次旋轉(zhuǎn)不會改變球體上的對象,那么連續(xù)使用多次變換,那么球體上的對象也沒有發(fā)生改變,即繞 x 軸旋轉(zhuǎn) 30 度,然后繞 y 軸旋轉(zhuǎn) 60 度也是一種對稱操作。通常,如果 g 和 h 是對稱操作,那么 g o h 也是對稱操作。
對稱操作必須是可逆的——如果我沒有更改底層對象,那么我必須能夠返回自己的來源(否則意味著丟失信息)。因此如果將球體順時針旋轉(zhuǎn) 30 度,那么是可以通過逆時針旋轉(zhuǎn) 30 度來「撤消」原動作的。如果 g 是對稱的,則 g ^-1 必須存在(并且也是對稱的),這就使得 g o g ^-1 = id (恒等)。
保持域不變的恒等函數(shù)(id)也必須是對稱的。
所有這些屬性相加,你就會發(fā)現(xiàn)所有對稱集與組合運算符(o)一起組成了一個 group,這是在書中廣泛使用的數(shù)學(xué)結(jié)構(gòu)。

在機器學(xué)習(xí)社區(qū)中,對稱性的重要性早已被人們認可,尤其是在模式識別和計算機視覺應(yīng)用中,有關(guān)等變特征檢測的早期工作可以追溯到 Shun’ichi Amari 和 Reiner Lenz 在上個世紀的研究。在神經(jīng)網(wǎng)絡(luò)的領(lǐng)域中,Marvin Minsky 和 Seymour Papert 提出的感知器的群不變性定理對(單層)感知器學(xué)習(xí)不變性的能力進行了基本界定。這是其后多層架構(gòu)研究的起點,最終引向了深度學(xué)習(xí)。