圖神經(jīng)網(wǎng)絡(luò)越深,表現(xiàn)就一定越好嗎?
數(shù)十層甚至數(shù)百層神經(jīng)網(wǎng)絡(luò)的應(yīng)用,是深度學(xué)習(xí)的重要標(biāo)志之一。但現(xiàn)實(shí)情況卻遠(yuǎn)非如此:比如今年被視作機(jī)器學(xué)習(xí)領(lǐng)域最火熱的研究方向之一——圖神經(jīng)網(wǎng)絡(luò),大多數(shù)都只運(yùn)用了寥寥幾層網(wǎng)絡(luò)。
一般思路里,我們會認(rèn)為圖神經(jīng)網(wǎng)絡(luò)越深,效果就會越好。然而,日前帝國理工學(xué)院教授Michael Bronstein 發(fā)出了靈魂拷問:圖神經(jīng)網(wǎng)絡(luò)的深度,真的會帶來優(yōu)勢嗎?
“深度圖神經(jīng)網(wǎng)絡(luò)”是否被誤用了?或者說,我們是否應(yīng)該重新審視以前認(rèn)為“圖神經(jīng)網(wǎng)絡(luò)越深,效果就會越好”的思路,說不定“深度”反而對基于圖的深度學(xué)習(xí)不利呢?
眾所周知,深度圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程非常艱難。除了研究者們能夠在深層神經(jīng)體系結(jié)構(gòu)中觀察到的典型難點(diǎn)外(比如大量參數(shù)導(dǎo)致反向傳播梯度消失和過度擬合),還有一些圖特有的難點(diǎn),例如“過度平滑”:由于應(yīng)用了多個圖卷積層,節(jié)點(diǎn)特征趨于收斂到同一向量并逐漸變得難以區(qū)分。這個現(xiàn)象最早在GCN模型中觀察到,其作用類似于低通濾波器。另一個圖所特有的現(xiàn)象是“信息瓶頸”,會將信息從指數(shù)級數(shù)量的臨域“過度擠壓”到大小固定的向量中。
近日來,人們致力于解決圖神經(jīng)網(wǎng)絡(luò)中的深度問題,希望圖神經(jīng)網(wǎng)絡(luò)能有更好的表現(xiàn),至少能避免“名義上是深度學(xué)習(xí)、實(shí)際上圖神經(jīng)網(wǎng)絡(luò)卻只應(yīng)用了兩層”的尷尬。
解決之道分為兩派:第一類是正則化技術(shù)(regularisation techniques),例如 DropEdge 方法,結(jié)點(diǎn)特征之間的成對距離歸一化(PairNorm)或結(jié)點(diǎn)均值和方差歸一化(NodeNorm);第二類是架構(gòu)調(diào)整,包括各類殘差連接,例如知識跳躍或仿射殘差連接。
雖然這些方法可以訓(xùn)練出具有數(shù)十層深度圖神經(jīng)網(wǎng)絡(luò)(這是一項壯舉,并非不可能實(shí)現(xiàn)),但卻沒有產(chǎn)生令人滿意的效果。更糟糕的是,使用深度結(jié)構(gòu)體系通常會導(dǎo)致性能的倒退。下表顯示了一個典型的實(shí)驗(yàn)評估結(jié)果,比較了node-wise分類任務(wù)上不同深度的圖神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。
此表顯示了深度圖神經(jīng)網(wǎng)絡(luò)架構(gòu)在CoauthorsCS引文網(wǎng)絡(luò)的結(jié)點(diǎn)分類任務(wù)上的一般結(jié)果。深度越深,基線(帶有殘差連接的GCN)的表現(xiàn)越差,性能也從88.18%急劇下降至39.71%。使用NodeNorm技術(shù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)隨著深度的增加會變得更好, 但是性能卻開始下降(雖然僅是從89.53%降低到87.40%)??傮w而言,64層深層架構(gòu)獲得的最佳結(jié)果(87.40%)還不如簡單的基線(88.18%)。此外,我們注意到NodeNorm規(guī)則化可以改善淺層2層架構(gòu)的性能(從88.18%增至89.53%)。上表源自論文《 Effective training strategies for deep graph neural networks》
從上表可以清晰看到,我們很難區(qū)分神經(jīng)網(wǎng)絡(luò)的“優(yōu)勢”是從深度網(wǎng)絡(luò)架構(gòu)獲得的,還是從訓(xùn)練此類神經(jīng)網(wǎng)絡(luò)的“技巧”所獲得的。上述示例中的NodeNorm還改進(jìn)了僅有兩層的淺層架構(gòu),從而實(shí)現(xiàn)了最佳性能。因此,我們無法確定在其他條件均相同的情況下,更深層數(shù)的圖神經(jīng)網(wǎng)絡(luò)是否會表現(xiàn)得更好。
這些結(jié)果與基于網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的傳統(tǒng)深度學(xué)習(xí)形成了鮮明的對比。在傳統(tǒng)深度學(xué)習(xí)中,“超深度”架構(gòu)能帶來性能上的突破,在當(dāng)今也得到了廣泛應(yīng)用。
接下來,作者嘗試從以下幾個方面來探索文章開頭所提出的問題:圖神經(jīng)網(wǎng)絡(luò)的深度越深,真的優(yōu)勢越大嗎?不過作者也表示,他目前也沒有一個明確的答案,希望下面這些探討能夠?qū)Υ蠹业乃伎加兴鶈l(fā)。
1、圖結(jié)構(gòu)
因?yàn)榫W(wǎng)格屬于特殊圖,目前也有一些案例可以說明深度對這類圖有益。除網(wǎng)格圖外,研究發(fā)現(xiàn)深度結(jié)構(gòu)對一些象征結(jié)構(gòu)的幾何圖(如分子、點(diǎn)云、網(wǎng)格等)是有促進(jìn)作用的。為什么這些圖與常用于評估圖神經(jīng)網(wǎng)絡(luò)的引文網(wǎng)絡(luò)(如Cora、PubMed與CoauthorsCS)如此不同呢?其中一個差異是引文網(wǎng)絡(luò)就像直徑小的“小世界”( small world),在這個“小世界”里,任意節(jié)點(diǎn)都可以在短短幾步跳到其他節(jié)點(diǎn)。因此,感受野只需具備幾層卷積層即能夠覆蓋整個圖,再增加層數(shù)也無更大助益。另一方面,在計算機(jī)視覺中,感受野成倍增長,需要更多層數(shù)來建立一個能捕捉圖中物體背景的感受野。
在上圖頂部的“小世界”圖中,只需幾步就能從一個節(jié)點(diǎn)跳到其他任意節(jié)點(diǎn),因此鄰域的數(shù)量以及相應(yīng)的圖卷積濾波器的感受野呈指數(shù)快速增長。我們可以看到,從紅色節(jié)點(diǎn)到任意節(jié)點(diǎn)僅需兩跳(不同顏色表示從紅色節(jié)點(diǎn)開始到達(dá)各個節(jié)點(diǎn)的圖層)。另一方面,在上圖底部的網(wǎng)格圖上,我們看到感受野呈多項式增長,因此需要更多的層數(shù)才能形成大小相同的感受野。
如上圖所示,鄰域呈指數(shù)增長,并出現(xiàn)了“信息瓶頸”現(xiàn)象:來自許多個領(lǐng)域的大量信息不得不被擠壓成單個的節(jié)點(diǎn)特征向量,結(jié)果導(dǎo)致信息無法傳播,且模型性能下降。
2、遠(yuǎn)程問題vs.短程問題
作者認(rèn)為在探討深度與圖深度學(xué)習(xí)的關(guān)系時會涉及到遠(yuǎn)程與短程信息的處理。比方說,社交網(wǎng)絡(luò)的預(yù)測只依賴本地領(lǐng)域節(jié)點(diǎn)的短程信息,無法添加遠(yuǎn)程信息進(jìn)行改善,因此多運(yùn)用淺層GNN進(jìn)行預(yù)測。另一方面,分子圖往往需要用到遠(yuǎn)程信息,因?yàn)榉肿拥幕瘜W(xué)性質(zhì)可能由其相斥的原子組合決定。深度GNN可能會被應(yīng)用于處理遠(yuǎn)程信息,但如果圖結(jié)構(gòu)導(dǎo)致感受野呈指數(shù)增長,信息瓶頸現(xiàn)象則會阻止遠(yuǎn)程信息的有效傳播。這也是為什么深度模型的性能無法提高。
3、理論局限性
深度結(jié)構(gòu)除了能使感受野更廣,還能使計算機(jī)視覺基于簡單特征合成復(fù)雜特征。研究者通過將卷積神經(jīng)網(wǎng)絡(luò)從人臉圖像學(xué)到的特征可視化,發(fā)現(xiàn)簡單的幾何圖元逐漸變得越來越復(fù)雜,并最終能形成完成的面部結(jié)構(gòu)。這個現(xiàn)象表明傳說中的“祖母神經(jīng)元”(grandmother neuron)很可能真實(shí)存在。
這些將簡單特征合成為復(fù)雜特征的方法,對圖來說看似天方夜譚。比方說,無論神經(jīng)網(wǎng)絡(luò)的層數(shù)有多深,都無法基于邊緣角/線合成一個三角形。另一方面,研究表明,必須設(shè)定最小深度,才能使用通過網(wǎng)絡(luò)的消息來計算圖的屬性。目前人們無法確定哪些圖的屬性可以通過淺層GNN計算、哪些必須通過深層模型計算、哪些又是任何類型的GNN都根本無法計算的。
以下是卷積神經(jīng)網(wǎng)絡(luò)基于人臉圖像學(xué)習(xí)到的人臉特征示例。大家可以注意到:隨著圖層的加深,圖像特征逐漸變得更復(fù)雜,人臉結(jié)構(gòu)也更加齊全。
圖源自Matthew Stewart的一篇博文:https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d
4、深度與豐富度
圖深度學(xué)習(xí)與計算機(jī)視覺相反的一點(diǎn)在于:在計算機(jī)視覺中,底層網(wǎng)格是固定的,而在圖深度學(xué)習(xí)中,圖結(jié)構(gòu)是一個非常重要的考慮要素。標(biāo)準(zhǔn)圖神經(jīng)網(wǎng)絡(luò)無法定位的一些復(fù)雜高階信息(如motifs 和substructure counts),我們有可能設(shè)計出更精細(xì)的信息傳遞機(jī)制來解決。比方說,研究人員可以選擇配備多跳濾波器(multi-hop filters)的淺層網(wǎng)絡(luò),而不是運(yùn)用簡單的單跳卷積(1-hop convolutions)深度結(jié)構(gòu)。
Michael Bronstein在他最近發(fā)表的一篇關(guān)于可伸縮初始類圖神經(jīng)網(wǎng)絡(luò)(Scalable inception-like graph neutral networks, SIGN)的論文里,詳盡講解了如何使用具備多個預(yù)計算濾波器(multiple pre-computed filters)的單層線性圖卷積結(jié)構(gòu),并展示了該網(wǎng)絡(luò)與更復(fù)雜數(shù)十倍的模型想比,性能不相上下。有趣的是,計算機(jī)視覺采取的方法與圖深度學(xué)習(xí)截然相反:早期使用大型濾波器(高達(dá)11×11)的淺層卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)(比如AlexNet),后來都被使用小型濾波器(一般為3×3)的深度結(jié)構(gòu)所取代了。
5、評估
目前評估圖神經(jīng)網(wǎng)絡(luò)的常見方法,遭到了Oleksandr Shchur和Stephan Günnemann小組成員的嚴(yán)重質(zhì)疑。他們聚焦于常見基準(zhǔn)的缺陷,并指出簡單模型和復(fù)雜模型在相同條件下的表現(xiàn)相差無幾。
我們觀察到的一些與深度結(jié)構(gòu)相關(guān)的現(xiàn)象(包括性能隨深度加深而降低),可能僅是因?yàn)樾⌒蛿?shù)據(jù)集的過度擬合。全新的 Open Graph Benchmark能為大規(guī)模圖像提供嚴(yán)格的訓(xùn)練和測試數(shù)據(jù)拆分方法,在一定程度上解決了上述的一些問題。作者認(rèn)為,研究者需要精心設(shè)計實(shí)驗(yàn)過程,以便更好地了解深度對圖深度學(xué)習(xí)是否有用、以及在什么時候能發(fā)揮作用。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。