深度學習中的拓撲美學:GNN基礎與應用
導讀:在真實世界中,很多數(shù)據(jù)往往以圖的形式出現(xiàn),例如社交網(wǎng)絡、電商購物、蛋白質相互作用關系等,過去幾年基于神經(jīng)網(wǎng)絡的圖數(shù)據(jù)分析與挖掘方式因其出色的性能受到了廣泛的關注,不僅一躍成為學術界的研究熱點同時也在多種應用中大放異彩。這篇文章主要結合相關文獻、領域專家的分享以及筆者淺薄經(jīng)驗,所做的粗淺總結和歸納。雖然是知識的搬運但也參雜了個人的主觀判斷,偏頗以及疏漏難免,還請各位謹慎參考。修修補補停筆恰逢平安夜,也借此契機祝大家新的一年所愿皆所得,平安多喜樂。?
1、圖神經(jīng)網(wǎng)絡發(fā)展綜述
近些年來使用建模分析圖結構的研究越來越受到關注,其中基于深度學習的圖建模方法的圖神經(jīng)網(wǎng)絡(Graph Neural Network, GNN),因其出色的性能成為學術界的研究熱點之一。例如下圖所示,圖神經(jīng)網(wǎng)絡在機器學習相關頂會上的論文數(shù)量持續(xù)攀升,以圖作為標題或者關鍵詞在近兩年表征學習頂會ICLR的出現(xiàn)頻率是最熱門的詞語之一。另外今年多個會議的最佳論文獎均有圖神經(jīng)網(wǎng)絡的身影,例如數(shù)據(jù)挖掘頂會KDD今年的最佳博士論文的冠亞軍均是頒發(fā)給了圖機器學習相關的兩位青年學者,最佳研究論文以及應用論文也分別是關于超圖上的因果學習以及聯(lián)邦圖學習。另一方面,圖神經(jīng)網(wǎng)絡在電商搜索、推薦、在線廣告、金融風控、交通預估等領域也有諸多的落地應用,各大公司也紛紛著力構建圖學習相關平臺或者能力。
雖然圖神經(jīng)網(wǎng)絡在近五年才開始成為研究熱點,但是相關定義在2005就由意大利學者Marco Gori和Franco Scarselli等人提出。在Scarselli論文中典型的圖如下圖所示。早期階段的GNN主要是以RNN為主體框架,輸入節(jié)點鄰居信息更新節(jié)點狀態(tài),將局部轉移函數(shù)定義為循環(huán)遞歸函數(shù)的形式,每個節(jié)點以周圍鄰居節(jié)點和相連的邊作為來源信息來更新自身的表達。
?
LeCun的學生Bruna等人2014年提出將CNN應用到圖上,通過對卷積算子巧妙的轉換,提出了基于頻域和基于空域的圖卷積網(wǎng)絡兩種信息聚合方式?;谧V的方法從圖信號處理的角度引入濾波器來定義圖卷積,其中圖卷積操作被解釋為從圖信號中去除噪聲?;诳臻g的方法則更加契合CNN的范式將圖卷積表示為從鄰域聚合特征信息。此后幾年,雖然也有零星的一些新的模型的提出,但是依舊是較為小眾的研究方向。直到2017年圖模型三劍客GCN,GAT,GraphSage為代表的一系列研究工作的提出,打通了圖數(shù)據(jù)與卷積神經(jīng)網(wǎng)絡之間的計算壁壘,使得圖神經(jīng)網(wǎng)絡逐步成為研究的熱點,也奠定了當前基于消息傳遞機制(message-passing)的圖神經(jīng)網(wǎng)絡模型的基本范式(MPNN)。
?
典型的MPNN架構由幾個傳播層組成,基于鄰居特征的聚合函數(shù)對每個節(jié)點進行更新。根據(jù)聚合函數(shù)的不同,可以將MPNN分為:信息聚合(鄰居特征的線性組合,權值僅依賴于圖的結構,例如GCN)、注意力(線性組合,權值依賴于圖結構和特征,例如GAT)和消息傳遞(廣義的非線性函數(shù),例如GraphSAGE),下圖從左到右所示。
?
從推理方式來看,還可以分為直推式(transductive,例如GCN)和歸納式(inductive,例如GraphSage)。直推式的方法會對每個節(jié)點學習到唯一確定的表征, 但是這種模式的局限性非常明顯,工業(yè)界的大多數(shù)業(yè)務場景中,圖中的結構和節(jié)點都不可能是固定的,是會變化的,比如,用戶集合會不斷出現(xiàn)新用戶,用戶的關注關系集合也是不斷增長的,內容平臺上的文章更是每天都會大量新增。在這樣的場景中,直推式學習需要不停地重新訓練,為新的節(jié)點學習表征。歸納式的方法則是去學習節(jié)點鄰居特征“聚合函數(shù)”,從而可以適用到更加靈活的場景,例如新節(jié)點的表示或者圖上的結構發(fā)生變化等場景,因此會適用于實際場景中各種圖動態(tài)變換的場景。
在圖神經(jīng)網(wǎng)絡發(fā)展的過程中,為了解決圖網(wǎng)絡計算精度與可拓展問題,一代又一代的新模型被不斷提出。雖然圖神經(jīng)網(wǎng)絡在圖數(shù)據(jù)表征能力毋庸置疑,但是新的模型設計主要基于經(jīng)驗直覺、啟發(fā)式方法和實驗試錯法。Jure Leskovec組2019年的相關工作GIN(Graph Isomorphism Networks)中將GNN與圖同構檢測的經(jīng)典啟發(fā)式算法Weisfeiler Lehman(WL)建立了聯(lián)系,并且從理論角度證明了GNN的表達能力上限值為1-WL(Jure目前是斯坦福大學計算機學院的副教授,他領導的SNAP實驗室目前是圖網(wǎng)絡領域最為知名的實驗室之一,主講的CS224W《圖機器學習》是強烈推薦的學習資料)。然而WL算法對于很多的數(shù)據(jù)場景表達能力十分有限,例如對于下圖中的兩個例子。對于(a)中的Circular Skip Link (CSL) Graphs, 1-WL會給兩個圖中的每個節(jié)點標記相同的顏色,換句話說這明顯兩個結構完全不同的圖,利用1-WL測試我們會得到一樣的標簽。第二例子是如(b)中所示的Decalin molecule,1-WL會給a和b染相同的顏色,給c和d染相同的顏色,使得在鏈路預測的任務中,(a,d)和(b,d)是無法進行區(qū)分的。
WL-test在存在三角或者環(huán)狀結構的很多數(shù)據(jù)中都表現(xiàn)得差強人意,但是在生物化學等領域,環(huán)狀結構十分普遍也是非常重要,同時也決定了分子的相應性質,使得圖神經(jīng)網(wǎng)絡在相關場景的適用性被極大的限制。Micheal Bostein等人提出當前圖深度學習方法「以節(jié)點和邊為中心」的思維方式具有極大的局限性,基于此,他們提出了從幾何深度學習的角度重新思考圖學習的發(fā)展以及可能的新范式(Micheal目前是是牛津大學的DeepMind人工智能教授同時也是Twitter圖學習研究組的首席科學家也是幾何深度學習的推動者之一)。許多學者也紛紛從微分幾何、代數(shù)拓撲和微分方程等領域出發(fā)開啟了一系列新工具的研究,提出了等變圖神經(jīng)網(wǎng)絡、拓撲圖神經(jīng)網(wǎng)絡、子圖神經(jīng)網(wǎng)絡等一系列工作并且在諸多問題上取得矚目的效果。結合圖神經(jīng)網(wǎng)絡的發(fā)展脈絡我們可以做如下圖的簡單小結。
2、復雜圖模型
上一節(jié)我們概述了圖神經(jīng)網(wǎng)絡的發(fā)展歷程,提及的相應的圖神經(jīng)網(wǎng)絡基本都是設定在無向以及同質圖的場景,然而真實世界中的圖往往是復雜的,研究人員提出了針對有向圖、異構圖、動態(tài)圖、超圖、有符號圖等場景的圖神經(jīng)網(wǎng)絡模型,我們接下來分別對這幾種圖數(shù)據(jù)形態(tài)以及相關模型進行簡單的介紹:
1. 異構圖:異構圖(Heterogeneous graph)是指節(jié)點和邊具有多種類別,存在多種模態(tài)時的場景。例如,在電商場景,結點可以是商品,店鋪,用戶等,邊類型可以是點擊,收藏,成交等。具體而言,在異構圖中,每個節(jié)點都帶有類型信息,每條邊也帶有類型信息,common GNN模型無法建模相應的異構信息。一方面,不同類型的結點的Embedding維度就沒法對齊;另一方面,不同類型的結點的Embedding位于不同的語義空間。最廣為使用的異構圖學習方法是基于元路徑的方法。元路徑指定了路徑中每個位置的節(jié)點類型。在訓練過程中,元路徑被實例化為節(jié)點序列,我們通過鏈接一個元路徑實例兩端的節(jié)點來捕獲兩個可能并不直接相連的節(jié)點的相似度。這樣一來,一個異構圖可以被化簡為若干個同構圖,我們可以在這些同構圖上應用圖學習算法。此外,還有一些工作提出了基于邊的方法處理異構圖,它們?yōu)椴煌泥従庸?jié)點和邊使用不同的采樣函數(shù)、聚合函數(shù)。代表性的工作有HetGNN、HGT等。我們有時還需要處理關系圖,這些圖中的邊可能包含類別以外的信息,或者邊的類別數(shù)十分巨大,難以使用基于元路徑或元關系的方法。對于異構圖感興趣的小伙伴可以去關注北郵石川老師以及王嘯老師的系列工作。
?
2. 動態(tài)圖:動態(tài)圖(Dynamic Graph)是指節(jié)點以及拓撲結構隨時間演化的圖數(shù)據(jù),在實際場景中也是廣泛存在的。比如,學術引用網(wǎng)絡會隨時間不斷擴張,用戶與商品的交互圖會隨用戶興趣而變化,交通網(wǎng)絡,交通流量隨時間不斷變化。動態(tài)圖上的GNN模型旨在生成給定時間下的節(jié)點表示。根據(jù)時間粒度的粗細,動態(tài)圖可分為離散時間動態(tài)圖(也被稱為snapshot based)和連續(xù)時間動態(tài)圖(event-based); 在離散時間動態(tài)圖中,時間被劃分為多個時間片(例如以天/小時劃分),每個時間片對應一個靜態(tài)的圖。離散時間動態(tài)圖的GNN模型通常在每個時間片上單獨應用GNN模型,然后利用RNN來聚合節(jié)點在不同時間的表征,代表性的工作有DCRNN、STGCN、DGNN、EvolveGCN等。在連續(xù)時間動態(tài)圖中,每條邊附有時間戳,表示交互事件發(fā)生的時刻。相比于靜態(tài)圖,連續(xù)時間動態(tài)圖中的消息函數(shù)還依賴于給定樣本的時間戳以及邊的時間戳。此外,鄰居節(jié)點必須與時間有關,例如鄰居節(jié)點中不能出現(xiàn)時刻之后才出現(xiàn)的節(jié)點。從模型角度出發(fā),點過程也常常應用于建模連續(xù)的動態(tài)圖,通過優(yōu)化鄰域生成序列的條件強度函數(shù)來生成序列的達到率,這種方式也可以進一步預測事件發(fā)生的具體時刻(例如網(wǎng)絡中某條鏈路的消亡時間)。連續(xù)動態(tài)圖上的建模的代表性工作有JODIE、HTNE、MMDNE、Dyrep。
?
來源:Dyrep
3. 超圖:超圖(Hypergraph)是一種廣義上的圖,它的一條邊可以連接任意數(shù)量的頂點。關于超圖的研究初期重要是在計算機視覺場景有相關的應用,近期也受到了圖神經(jīng)網(wǎng)絡領域的關注,主要的應用領域和場景是推薦系統(tǒng),例如圖中的一對節(jié)點可以通過不同類型的多條邊相關聯(lián)。通過利用不同類型的邊,我們可以組織起若干層圖,每層代表一種類型的關系。代表性的工作有HGNN、AllSet等。
來源:AllSet
4. 有向圖:有向圖(Directed graph)指的是節(jié)點的連接關系是有方向的,有向邊往往比無向邊包含更多的信息。例如,在知識圖譜中,若頭實體是尾實體的父類,則邊的方向會提供這種偏序關系的信息。對于有向圖的場景,除了簡單地在卷積操作中使用不對稱的鄰接矩陣,還可以分別對邊的兩個方向建模,獲得更好的表征,代表性的工作有 DGP等。
來源:DGP
5. 符號圖:符號圖(Signed graph)指的圖中節(jié)點的關系包含正向以及反向等關系,例如社交網(wǎng)絡中,互動關系包含積極的關系,例如友誼、協(xié)議和支持,以及負面關系,如敵人、分歧和抵制等等,相較于普通圖,符號圖蘊含更加豐富的節(jié)點互動關系。對于符號圖的建模首要解決的問題是如何對負向邊進行建模,同時如何對兩類邊的信息進行聚合,SGCN根據(jù)平衡理論的假設(朋友的朋友是朋友,敵人的朋友是敵人)定義了相應的平衡路徑從而進行相應的建模。除此以外,代表性的工作還有帶符號網(wǎng)絡的極化嵌入模型POLE、二分符號圖神經(jīng)網(wǎng)絡模型SBGNN、基于k組理論的符號圖神經(jīng)網(wǎng)絡GS-GNN。
來源:SGCN
6. 異配圖:和以上的其他幾種類型圖的定義稍有不同,異配性是描述圖數(shù)據(jù)特性的一種指標,所謂的異配圖(Heterophily graph)指的是圖上節(jié)點鄰居相似度比較低的數(shù)據(jù)類型。與異配性對應的是同配性也就是說鏈接的節(jié)點通常屬于同一類或具有相似的特征(“物以類聚”)。例如,一個人的朋友和自己可能有相似的政治信仰或年齡,一篇論文傾向于引用同一研究領域的論文。然而現(xiàn)實世界的網(wǎng)絡并不是完全都符合同配性高的假設,例如蛋白質分子中,不同類型的氨基酸鏈接一起。圖神經(jīng)網(wǎng)絡通過鏈接關系進行特征的聚合以及傳播的機制即是基于數(shù)據(jù)的同配性的假設使得GNN在異配性比較高的數(shù)據(jù)上常出現(xiàn)效果不佳的現(xiàn)象。目前,已有很多工作嘗試將圖神經(jīng)網(wǎng)絡泛化到異配圖場景,例如利用結構信息為節(jié)點選擇鄰居的模型Geom-GCN、通過改進圖神經(jīng)網(wǎng)絡的消息傳遞機制來提升其表達能力的H2GNN、通過構造基于中心節(jié)點相關度重排序進行信息聚合的指針網(wǎng)絡GPNN(如下圖所示其中不同顏色代表不同的節(jié)點類型)、通過同時結合高頻信號以及低頻信號處理的FAGCN等。
來源:GPNN
3、圖神經(jīng)網(wǎng)絡應用
由于圖神經(jīng)網(wǎng)絡能夠較好地學習圖結構數(shù)據(jù)的特征,因此在許多圖相關的領域有著廣泛的應用和探索。這節(jié)我們分別從下游任務以及應用的角度進行相應的分類和歸納。
1. 下游任務
?
?
節(jié)點分類:根據(jù)節(jié)點的屬性(可以是類別型、也可以是數(shù)值型)、邊的信息、邊的屬性(如果有的話)、已知的節(jié)點預測標簽,對未知標簽的節(jié)點做類別預測。例如OGB的的ogbn-products數(shù)據(jù)集就是一個無向的商品購買網(wǎng)絡,節(jié)點代表的是在電商銷售的產品,兩個產品之間的邊表示這些產品被一起購買過,節(jié)點的屬性通過從產品描述中提取詞袋特征,然后進行主成分分析降維生成。相應的任務是預測產品缺失的類別信息。
鏈接預測:網(wǎng)絡中的鏈路預測(Link Prediction)是指如何通過已知的網(wǎng)絡節(jié)點以及網(wǎng)絡結構等信息預測網(wǎng)絡中尚未產生連邊的兩個節(jié)點之間產生鏈接的可能性。這種預測既包含了對未知鏈接的預測也包含了對未來鏈接(future links)的預測。鏈路預測在推薦系統(tǒng)、生化試驗等場景都有廣泛的應用,例如在商品推薦中在用戶和商品的二部圖中,如果用戶購買商品,則用戶和商品間存在鏈接,相似的用戶可能同樣會對該商品有需求,因此,預測用戶和商品之間是否可能發(fā)生“購買”、“點擊”等的鏈接,從而針對性地為用戶推薦商品,可以提高商品的購買率。除此之外,自然語言處理中的知識圖譜補全以及智慧交通中的路況預測都可以建模成鏈接預測的問題。
圖分類:圖分類其實和節(jié)點分類相似,本質就是預測圖的標簽。根據(jù)圖的特征(比如圖密度、圖拓撲信息等)、已知圖的標簽,對未知標簽的圖做類別預測,可見于生物信息學、化學信息學,比如訓練圖神經(jīng)網(wǎng)絡來預測蛋白質結構的性質。
圖生成:?圖生成目標是在給定一組觀察到的圖的情況下生成新的圖,例如在生物信息中基于生成新的分子結構或者是自然語言處理中基于給定的句子來生成語義圖或者是知識圖譜。
2. 應用領域?
我們再對不同的應用場景進行相應的介紹。
推薦系統(tǒng):移動互聯(lián)網(wǎng)的發(fā)展極大的推動了信息檢索的快速發(fā)展。推薦系統(tǒng)作為其中最為重要方向,獲得了廣泛的關注。推薦系統(tǒng)的主要的目的是從歷史交互(historical interactions)和邊信息(side information)中學習有效的用戶(user)和物品(item)表示,從而給用戶推薦其更可能傾向的物品(商品、音樂、視頻、電影等)。因此很自然的考慮以物品和用戶為節(jié)點構造二部圖,從而可以將圖神經(jīng)網(wǎng)絡應用到推薦系統(tǒng)來提升推薦的效果。Pinterest基于GraphSAGE提出了第一個基于GCN的工業(yè)級別推薦系統(tǒng)PinSage,支撐了30億節(jié)點,180 億條邊的大規(guī)模圖片推薦的場景,實際上線后Pinterest的Shop and Look產品瀏覽量提高了25%, 此外Alibaba,Amazon以及其他很多電子商務平臺使用GNN來去構建相應的推薦算法。
除了user-item交互組成的二部圖(bipartite graph),推薦系統(tǒng)中社交關系、知識圖譜序列中的item轉移圖都是圖數(shù)據(jù)形式存在,另外一方面,異構數(shù)據(jù)在推薦系統(tǒng)之中也是廣泛存在于電商場景,結點可以是Query,Item,Shop,User等,邊類型可以是點擊,收藏,成交等。通過利用項目與項目、用戶與用戶、用戶與項目之間的關系以及內容信息,基于多源異構以及多模態(tài)圖模型,實現(xiàn)更高質量的推薦效果也在被不斷的探索。除此之外,基于實際業(yè)務中用戶行為隨時間變化的序列化推薦以及新用戶以及商品加入導致節(jié)點引發(fā)的增量學習的訴求也給GNN模型發(fā)展帶來了新的挑戰(zhàn)和機遇。
自然語言處理:在自然語言處理中的諸多問題和場景都是描述了關聯(lián)關系,因此可以很自然的建模成為圖數(shù)據(jù)結構。第一個直接的應用場景是知識圖譜(knowledge graph,KG)的補全以及推理,例如在Mila的研究人員提出的基于NBFNet將單跳推理問題建模成路徑表征學習問題,從而實現(xiàn)知識圖譜的歸納推理。圖神經(jīng)網(wǎng)絡利用深度神經(jīng)網(wǎng)絡對圖數(shù)據(jù)中的拓撲結構信息和屬性特征信息進行整合,進而提供更精細的節(jié)點或子結構的特征表示,并能很方便地以解耦或端到端的方式與下游任務結合,滿足不同應用場景下的知識圖譜對學習實體、關系的屬性特征和結構特征的要求。
除此之外,圖神經(jīng)網(wǎng)絡在自然語言處理中諸多問題例如文本分類、語義分析、機器翻譯、知識圖譜補全,命名實體識別以及機器分類等場景上都有相應的應用,更多的內容推薦大家參考吳凌飛博士Graph4NLP的相關教程以及綜述。
來源:(https://github.com/graph4ai/graph4nlp)
計算機視覺:計算機視覺是機器學習以及深度學習領域最大的應用場景之一,相較于推薦系統(tǒng)以及自然語言處理領域而言,圖神經(jīng)網(wǎng)絡在計算機視覺不算主流。原因在于GNN的優(yōu)勢是關系建模和學習,計算機視覺中的數(shù)據(jù)格式大多數(shù)是規(guī)則的圖像數(shù)據(jù)。在CV場景中使用GNN,關鍵在于graph如何構建:頂點及頂點特征是什么?頂點的連接關系怎么定義?初期的工作主要用于一些直觀易于進行圖結構抽象的場景。例如用于動態(tài)骨骼的動作識別方法ST-GCN中,人體自然骨架自然的可以視為圖結構構建空間圖。在場景圖生成中,對象之間的語義關系有助于理解視覺場景背后的語義含義。給定一幅圖像,場景圖生成模型檢測和識別對象,并預測對象對之間的語義關系。在點云分類和分割中,將點云轉換為k-最近鄰圖或疊加圖從而利用圖網(wǎng)絡進行相關任務的學習。近期,圖形神經(jīng)網(wǎng)絡在計算機視覺中應用的方向也在不斷增加。一些研究人員在通用計算機視覺任務例如物體檢測進行相關探索以及嘗試。例如華為提出一種基于圖表示的新型通用視覺架構ViG中研究人員將輸入圖像分成許多小塊,構建相應的節(jié)點圖,實驗結果表明相比于矩陣或網(wǎng)格,圖結構能更靈活表示物體部件之間的關系,進而達到更理想的效果。
?
來源:Vision GNN@NeurIPS 2022
智能交通:交通的智能管理是現(xiàn)代城市的一個熱點問題。準確預測交通網(wǎng)絡中的交通速度、交通量或道路密度,在路線規(guī)劃和流量控制中至關重要。由于交通流具有高度的非線性和復雜性特點,傳統(tǒng)機器學習方法難以同時學習空間和時間的依賴關系。網(wǎng)絡出行平臺以及物流服務的蓬勃發(fā)展為智能交通提供了豐富的數(shù)據(jù)場景,如何利用神經(jīng)網(wǎng)絡來自動學習交通數(shù)據(jù)中的時空關聯(lián)性從而實現(xiàn)更好的交通流量分析以及管理成為研究的熱點。由于城市交通(如下圖所示)天然就是以不規(guī)則的網(wǎng)格形式存在,將圖神經(jīng)網(wǎng)絡用于智能交通管理是非常自然的探索。
?
來源:Traffic4Cast@NeurIPS 2022
例如經(jīng)典的時空網(wǎng)絡STGCN則是在每個時刻對每張交通流量圖使用GCN捕捉空間特征,對于每個節(jié)點在時間維度通過卷積捕捉時序特征,這兩種操作交叉混合并行,實現(xiàn)時空兩個維度的特征的端到端學習。也有相應的工作通過利用多源信息構造不同視角的節(jié)點關聯(lián)圖進行信息的聚合實現(xiàn)更加準確的預測效果。除了流量預測以外,圖神經(jīng)網(wǎng)絡也被用在信號燈管理,交通事件檢測,車輛軌跡預測,道路擁塞預測等多個方面。近幾年在KDD以及NeurIPS等頂會的相關比賽也均設有相應的交通預測的賽題,winner solution基本都有圖神經(jīng)的身影。由于同時存在時空動態(tài)性,不夸張的說智能交通領域的相關應用訴求是時空圖神經(jīng)網(wǎng)絡發(fā)展最為重要的推手。
金融風控:隨著市場經(jīng)濟的發(fā)展以及行業(yè)數(shù)字化的進程,大量傳統(tǒng)業(yè)務遷移到線上的同時,各類線上新產品和服務也與日俱增,海量的數(shù)據(jù)以及復雜的關聯(lián)關系,給金融交易以及相關審計帶來極大的挑戰(zhàn)。銀行信貸管理以及上市公司的風險管理等對于金融市場的秩序維護有著重要的作用。新興的支付寶、paypal等全球支付管理系統(tǒng)的推廣,為其保駕護航的支付風控體系在保護用戶資金安全,防止盜卡盜號,減少平臺損失方面起著至關重要的作用。而傳統(tǒng)的算法不足以解決具有關聯(lián)信息的圖網(wǎng)絡數(shù)據(jù)的分析,得益于圖神經(jīng)網(wǎng)絡對圖數(shù)據(jù)的處理能力,一系列金融風控各個場景的實踐應運而生。例如交易流程中貸前貸中貸后的的風險評估,虛擬賬號/水軍/欺詐檢測等。雖然圖深度學習技術應用在風控領域已經(jīng)證明是有效且必要的,但發(fā)展時間較短,整體進程還處在發(fā)展初期階段,由于行業(yè)數(shù)據(jù)的私密性,主要的技術創(chuàng)新還是以相應的公司為主導其中螞蟻金服以及亞馬遜較為突出。例如螞蟻金服提出的GeniePath算法騙保識別問題,定義為一個賬戶的二分類問題,其提出的首個利用圖卷積進行惡意賬戶識別的GEM算法主要使用于賬戶登錄/注冊場景。數(shù)據(jù)的私密性以及場景的多樣性,這也造成業(yè)內沒有統(tǒng)一的標準進行模型的對比驗證。最近信也科技聯(lián)合浙江大學發(fā)布的聯(lián)合發(fā)布大規(guī)模動態(tài)圖數(shù)據(jù)集DGraph提供了一個真實場景的大規(guī)模數(shù)據(jù)用于欺詐等異常檢測等場景的驗證,其中節(jié)點表示信也科技服務的金融借貸用戶,有向邊表示緊急聯(lián)系人關系,每個節(jié)點包含脫敏后的屬性特征,以及表示是否為金融詐騙用戶的標簽。雖然存在數(shù)據(jù)壁壘等問題,金融風控場景中普遍存在的數(shù)據(jù)不均,標簽難獲取,以及對模型可解釋性的訴求也給圖神經(jīng)網(wǎng)絡的發(fā)展帶來了新的思考和機遇。
藥物發(fā)現(xiàn):藥物開發(fā)是一個周期長、費用高且風險高的大工程,從最初的藥物設計、分子篩選,到后期的安全測試、臨床試驗,新藥研發(fā)周期大約需要花費10-15年,平均每一款藥的研發(fā)成本將近30億美金,在此過程中,1/3的時間和費用都花費在藥物發(fā)現(xiàn)的階段。特別是面對COVID-19等流行病的爆發(fā),如何有效地利用深度學習模型,快速發(fā)現(xiàn)可能的、多樣化的候選分子,加快新藥的開發(fā)進程,引發(fā)眾多研究人員的思考和參與。
藥物研發(fā)中涉及的分子化合物、蛋白質等等物質天然是以圖結構存在。以分子為例,圖的邊可以是分子中原子之間的鍵或蛋白質中氨基酸殘基之間的相互作用。而在更大的范圍內,圖可以代表更復雜的結構(例如蛋白質,mRNA或代謝物)之間的相互作用。在細胞網(wǎng)絡中,結點可以表示細胞、腫瘤以及淋巴,邊表示他們之間的空間鄰近關系。因此將圖神經(jīng)網(wǎng)絡于分子特性預測,高通量篩選,新型藥物設計,蛋白質工程和藥物再利用等方面,具有廣闊的應用前景。例如麻省理工學院CSIAL的研究人員及其合作者發(fā)表在Cell(2020)的工作利用圖神經(jīng)網(wǎng)絡以預測分子是否具有抗生素特性上。 同組人員今年提出基于圖生成方法搭建基于抗原的條件生成模型來設計和特定抗原高度匹配的抗體等一系列工作。Mila實驗室也是將圖學習應用于藥物發(fā)現(xiàn)的先行者,并且最近也基于相應的探索開源了基于PyTorch的藥物發(fā)現(xiàn)機器學習平臺TorchDrug。除此之外,各大科技公司近年也在AI制藥方面進行布局和探索,并有相應的突出成果,騰訊 AI Lab「云深」平臺發(fā)布業(yè)內首個藥物AI大型分布外研究框架 DrugOOD,以推動藥化場景中的分布偏移(distribution shift) 問題研究,助力藥物研發(fā)行業(yè)發(fā)展。百度創(chuàng)始人李彥宏發(fā)起創(chuàng)立的百圖生科,致力于將先進AI技術與前沿生物技術相結合,構建獨特的靶點挖掘及藥物設計。
?
芯片設計:芯片是數(shù)字時代的靈魂所在,也是信息產業(yè)的三要素之一。圖結構數(shù)據(jù)貫穿在芯片設計的多個階段,例如在邏輯綜合(Logic Synthesis)階段,數(shù)字電路通過與非圖進行表示,在物理設計(Physical Design)階段,根據(jù)邏輯綜合生成的電路網(wǎng)表生成相關約束,工程師按照一定的密度和擁塞限制的要求,完成芯片的布局布線。
?
隨著電路規(guī)模和復雜性的不斷增長,電子設計自動化(EDA)工具的設計效率和精度已成為一個至關重要的問題,這吸引了研究人員采用深度學習技術來輔助電路設計過程。如果能夠在芯片設計的早期階段預測電路質量和實用性,那么芯片迭代的效率可以得到提升,同時設計成本也將降低。例如,在物理設計階段預測電路的擁塞可以幫助檢測其缺陷并避免產生缺陷芯片,如果可以在邏輯合成階段進行此類預測,則可以進一步節(jié)省芯片的設計生產周期。谷歌與斯坦福大學團隊將GNN成功用于硬件設計,結合強化學習,如對Google TPU芯片塊的功耗、面積和性能的優(yōu)化。針對芯片網(wǎng)表表征中的多種異構信息,華為與北京大學提出的Circuit GNN,通過集成拓撲和幾何信息得以構圖,實現(xiàn)針對cell和net屬性預測的多種EDA任務性能的提升。
除了以幾個領域外,圖神經(jīng)網(wǎng)絡也被探索應用于其他諸多問題,如程序驗證、社會影響預測、腦網(wǎng)絡、事件檢測、模型仿真、組合優(yōu)化問題求解。可以看出來,在科學和生活的多個領域,數(shù)據(jù)都是可以表示成圖結構。通過對結構信息以及圖屬性信息的有效捕捉,圖神經(jīng)網(wǎng)絡在各種圖任務上達到了較高的精度,成為解決圖相關問題的有效手段,我們相信在未來很多的領域以及場景都可以看到圖神經(jīng)網(wǎng)絡的身影。
4、圖神經(jīng)網(wǎng)絡的可拓展性
在前面的內容我們介紹了圖模型的一些基本范式以及相應的應用場景,我們可以看到圖神經(jīng)網(wǎng)絡作為一種新的深度學習架構,在社交網(wǎng)絡、推薦系統(tǒng)、生物醫(yī)學發(fā)現(xiàn)等不同領域都大放異彩。然而實際的應用中,圖模型的擴展性以及可用性還是有諸多的理論和工程挑戰(zhàn)。首先是內存限制。GCN在設計之初其卷積操作是在全圖上進行,即每層的卷積操作都會遍歷全圖,在實際應用中,需要的內存和時間的開銷都是不可接受的。另外,在傳統(tǒng)的機器學習框架中,模型的損失函數(shù)可以分解為單個樣本的損失之和,因此可以使用mini -batch和隨機優(yōu)化來處理比GPU內存大得多的訓練集。然而,GNN的訓練中,與樣本獨立的機器學習標準數(shù)據(jù)集不同,網(wǎng)絡數(shù)據(jù)的關系結構會在樣本之間產生統(tǒng)計依賴性。直接通過隨機采樣進行Mini-Batch訓練往往會導致模型效果大打折扣。然而,要確保子圖保留完整圖的語義以及為訓練GNN提供可靠的梯度并不是一件簡單的事情。其次是硬件限制。相對于圖像數(shù)據(jù)以及文本數(shù)據(jù)圖本質上是一種稀疏結構,因此需要利用其稀疏性來進行高效和可擴展的計算,但是目前的相應深度學習處理器以及相關硬件的設計都旨在處理矩陣上的密集運算。這節(jié)我們主要對圖模型的可拓展性進行一些總結。參照劍橋大學在讀博士生 Chaitanya K. Joshi的總結相關工作可以歸納為數(shù)據(jù)預處理、高效的模型架構、新的學習范式以及硬件加速四個方面(如下圖所示)。
其中數(shù)據(jù)預處理一般是通過對原始數(shù)據(jù)進行采樣或者簡化的方式實現(xiàn)大規(guī)模圖數(shù)據(jù)的計算(下面我們會再進一步展開)。新的架構的則是從一些特定任務或者數(shù)據(jù)的角度出發(fā),提出了一些新的更為高效簡潔的架構。例如LightGCN省去了相鄰節(jié)點間的內積部分從而實現(xiàn)運行速度的加速。一些工作也發(fā)現(xiàn)在節(jié)點特征上運行 MLP 后利用標簽傳播方法也可以取得不錯的效果。除此之外,我們也可以通過一些輕量化的學習范式例如知識蒸餾或者量化感知訓練,來提高 GNN 的性能和降低延遲。指的提的一點是,上述提及的幾種圖神經(jīng)網(wǎng)絡加速訓練的方式都是相互解耦的,這意味在實際場景中都是可以同時采取多種方法配合使用。
來源:G-CRD@TNNLS
相較于模型的優(yōu)化以及新的學習范式等方式,數(shù)據(jù)預處理是更為通用以及適用性更強的方法,也是目前相對而言,我們這邊稍微展開進行分析和介紹。整體而言,數(shù)據(jù)預處理的方式都是通過一些采樣或者圖簡化的方式減小原圖的規(guī)模從而可以滿足內存的限制。
1、基于采樣的數(shù)據(jù)處理?
基于采樣的方法可以分為三小類,Node-Wise Sampling,Layer-Wise Sampling和Graph-Wise Sampling。
?
Node-Wise Sampling:由GraphSage首次提出,是一種比較通用有效以及應用得最多的方式。一層 GraphSAGE 從 1-hop 鄰居聚合信息,疊加 k 層 GraphSAGE 就可以使得感受野增大為 k- hop 鄰居誘導的子圖,同時對鄰居做均勻采樣,可以控制聚合操作的速度,更少的鄰居意味著更少的計算。不過需要注意的是隨著層數(shù)的在增加,采樣到的鄰居數(shù)量也會指數(shù)增加最后仍然會等價于k-hop跳鄰居誘導的子圖上做消息聚合,時間復雜度并沒有實質性的改進。
?
Lay-Wise sampling:由Fast GCN首次提出,與 GraphSAGE 不同,它直接限制了節(jié)點的鄰居采樣范圍,通過重要性采樣(importance sampling)的方式,從所有節(jié)點中采樣在一個小批次內 GraphSAGE 的每個樣本節(jié)點的鄰居集合是獨立的,而 Fast GCN 的所有樣本節(jié)點共享同一個鄰居集合,所以能夠把計算復雜度直接控制到線性級別,但是需要注意的是當我們待處理的圖是大而稀疏的時候,該方法采樣得到的相鄰層的樣本可能根本沒有關聯(lián),導致無法學習。
Graph-wise Sampling:與鄰居采樣的方法不同,圖采樣技巧是從原圖上采樣子圖,例如Cluster GCN 使用聚類的思想,把圖劃分為小塊進行訓練以實現(xiàn)圖采樣。圖聚類算法(例如METIS)讓相似的節(jié)點分在一起,使得類內的節(jié)點分布和原圖的節(jié)點分布有偏差。為了解決圖采樣帶來的問題,Cluster GCN 在訓練時同時抽取多個類別作為一個批次參與訓練,對節(jié)點分布進行平衡。不過基于基于結構的采樣方法信息損失較大, 大多數(shù)據(jù)上效果比full-batch的GNN差距大,每個epoch都需要進行采樣,時間開銷并不小。
2、基于圖簡化?
除了采樣,通過一些圖簡化的方式(Graph reduction)縮小原圖的規(guī)模的同時保留關鍵的屬性以便后續(xù)的處理和分析也是可行的方向。圖簡化主要包含圖稀疏化(Graph Sparsification):減少圖中邊的數(shù)量和圖粗化(Graph coarsening):減少圖中頂點的數(shù)量。
其中圖粗化(graph coarsening)通過”捏點”的方式把一些subgraph聚合成一個super-node從而實現(xiàn)原圖規(guī)模的化簡對于是一個合適的框架。將圖粗化用于GNN加速訓練的算法首次在KDD 2021年的工作提出,流程如下圖所示:
首先使用圖粗化算法(例如譜聚類粗化)把原圖進行粗化,并在粗化后的圖G′ 上進行模型訓練,從而實現(xiàn)圖神經(jīng)網(wǎng)絡訓練所需的參數(shù)的降低,以及減少訓練消耗時間和運行內存開銷。該方法通用簡單并且具有線性的訓練時間和空間。作者的理論分析也表明,在譜聚類(spectral clustering)粗化后的圖上做的 APPNP 訓練,等價于在原圖上做受限的 APPNP 訓練。但是,和圖采樣方法一樣,基于圖粗化的方式也是需要對數(shù)據(jù)進行預處理,時間開銷和實驗效果和粗化算法的選擇有關。
同樣的上述介紹的幾種基于采樣或者簡化的圖模型擴展方法同樣也是方法都是相互解耦的,這意味著可以同時采取多種方法配合使用,如Cluster GCN + GraphSAGE。從本質上來說,在k-hop鄰居誘導的子圖上進行消息的聚合是指數(shù)級的運算,在不損失信息的情況下難以將基于節(jié)點采樣的算法時間復雜度控制在線性級;而進行預處理將原圖降采樣是一個不錯的解決思路,因為如果能將整個圖都放入內存進行運算,GCN的時間復雜度就是線性的,但是預處理的成本是不能忽略的。天下沒有免費的午餐,對于圖神經(jīng)網(wǎng)絡的訓練加速其實還是在信息損失和預處理開銷上做權衡,需要根據(jù)實際情況采用不同的方法進行分析。
另外圖本質上是一種稀疏對象,因此在設計高效以及可拓展性的問題上應該更多從數(shù)據(jù)稀疏性的角度來進行思考。但是這說起來容易做起來難,因為現(xiàn)代 GPU 旨在處理矩陣上的密集運算。雖然針對稀疏矩陣的定制硬件加速器可以顯著提高 GNN 的及時性和可擴展性,但是相關的工作還是處于發(fā)展的初期。另外面向圖計算通信策略的設計也是最近備受關注的方向。例如VLDB2022以及Webconf 2022的Best research paper以及Best student paper award均頒給了圖模型加速處理的系統(tǒng)或者算法。其中SANCUS@VLDB2022提出了一套的分布式訓練框架(SANCUS),以減少通訊量為目標,采用去中心化的機制對圖神經(jīng)網(wǎng)絡的分布式訓練進行加速。文章不僅在理論上證明SANCUS的收斂速度接近于全圖訓練,而且通過在大量真實場景圖上的實驗驗證了SANCUS的訓練效率和精度。PASCA@Webconf2022的工作嘗試將消息傳遞的框架中的消息聚合操作和更新操作分離,定義前處理-訓練-后處理的新范式從而實現(xiàn)分布式場景下的通信開銷。
?
來源:PASCA@Webconf2022
5、圖神經(jīng)網(wǎng)絡設計及學習空間
得益于計算資源的快速增長,以及深度神經(jīng)網(wǎng)絡強大的表征能力,深度學習成為知識挖掘的重要工具。圖是一種通用的、功能強大的數(shù)據(jù)結構,它以簡潔的形式表示實體及其關系,在自然科學和社會科學的應用中無處不在。但是,現(xiàn)實世界中圖數(shù)據(jù)不管是結構、內容和任務上都千差萬,在某個任務上性能最佳的 GNN 網(wǎng)絡以及架構設計可能對于另一個任務并不適用。對于一個給定的數(shù)據(jù)集和預測任務,如何能快速獲得到一個效果還不錯的模型不管對于研究人員或者是應用算法工程師都是非常有意義的一件事情。對于一個給定的數(shù)據(jù)集和預測任務,怎樣的神經(jīng)網(wǎng)絡架構是有效的?我們是否可以構建一種系統(tǒng),從而自動地預測出好的 GNN 設計?帶著這些思考, Jure Leskovec組2020年在他們的發(fā)表的圖神經(jīng)網(wǎng)絡設計空間的工作中根據(jù)從三個層次上定義了GNN的設計空間,這個工作也是為后續(xù)的圖自動機器以及圖模型的遷移學習奠定了基礎。
在給定某項任務、某個數(shù)據(jù)集的情況下我們首先可以通過:
(1)層內設計:單獨某個GNN層的設計。
(2)層間設計:如何將GNN層連接起來。
(3)學習配置:如何進行機器學習的設置參數(shù)。
三個方向構建相應的GNN設計空間,接著,通過對模型進行排序來量化它們在特定任務上的性能差異,從而可以了解給定數(shù)據(jù)下的最優(yōu)模型設計。另外,對于新的任務以及數(shù)據(jù),我們也可以通過簡單地計算新數(shù)據(jù)集與任務空間中已有收集的相似度,快速地識別出最相近的任務,并將其最佳模型遷移到新的數(shù)據(jù)集上進行訓練。通過這種方式,對于之前從未使用過的數(shù)據(jù)集上也可以較為快速的得到較優(yōu)的模型。當然不管是圖上的自動機器學習以及圖模型的可遷移性,不管是學術研究或者是工業(yè)應用中都是非常重要的問題,最近2年也是有非常多相關的一些探索和思考,這邊我們就不再展開,更多關于圖自動機器學習的工作建議大家可以關注學界清華朱文武老師組相關的綜述以及他們開源的自動學習工具包AutoGL以及業(yè)界第四范式的相關工作。
來源:AutoGL
前面提到的模型設計空間主要集中模型結構層面,但是還有另一個非常重要的維度是模型的表征或者學習空間也是非常有必要進行補充。圖機器學習作為圖數(shù)據(jù)上進行表征學習的一種手段目標不是通過學習原始數(shù)據(jù)預測某個觀察結果,而是學習數(shù)據(jù)的底層結構(underlying structure),從而可以更好對原始數(shù)據(jù)進行相應的特征學習與表達,在下游任務上取得更好的效果。
當前的大多數(shù)表征學習都是在歐幾里德空間中進行的,因為歐幾里德空間是自然的概括我們的直覺友好的視覺空間同時具有很好的計算以及運算優(yōu)勢。但是眾所周知,圖是非歐幾里得結構的,例如復雜網(wǎng)絡領域的研究表明,現(xiàn)實的網(wǎng)絡數(shù)據(jù)(社交網(wǎng)絡,商品網(wǎng)絡,電信網(wǎng)絡,疾病網(wǎng)絡,語義網(wǎng)絡等)中大量存在著無標度性質(scale-free),意味著現(xiàn)實中普遍存在著樹狀(tree-like)/層次結構。利用歐式空間作為表征學習的先驗空間進行相應的建模必然會引起相應的誤差(distortion)。因此基于不同的曲率空間的表征學習最近也引起了大家的關注。曲率是一個衡量空間彎曲程度的量,曲率越接近零,空間越平坦。在科幻小說《三體》中,人類正是利用空間曲率的變化建造出曲率飛船。如下圖所示, 歐氏空間各處均勻且平坦,具備各向同性及平移不變性,因此適合建模網(wǎng)格數(shù)據(jù)。具有正曲率的球面空間距離度量等價于角度度量,具備旋轉不變性,因此適合建模環(huán)狀數(shù)據(jù)或者稠密均勻的圖數(shù)據(jù)結構。而負曲率的雙曲空間距離度量等價于冪律分布,適合建模無尺度網(wǎng)絡或者樹狀結構。
?
由于現(xiàn)實的網(wǎng)絡數(shù)據(jù)中大量存在著無標度性質(scale-free),意味著現(xiàn)實中普遍存在著樹狀(tree-like)/層次結構。其中,雙曲空間在傳統(tǒng)網(wǎng)絡科學領域被視作樹狀/層次結構的連續(xù)表達形式,因此也更加適合用于實際數(shù)據(jù)的建模,最近也是涌現(xiàn)出很多優(yōu)秀的工作。另外相較于歐式空間,雙曲空間的容積隨著半徑指數(shù)級增長,因此具有更大的嵌入空間。與歐式空間不同的是,雙曲空間有多個模型可以刻畫,我們下面以Poincare Ball(龐加萊球)為例子簡單介紹一下。
?
龐加萊盤是通過將嵌入空間限制在單位球內的一種雙曲模型。在龐加萊球的雙曲模型中,上面所有明暗相間的三角形都是相同大小的,而在我們歐式的角度去看,靠近邊緣區(qū)域的三角形相對較小。換一種理解的方式,如果以歐式的角度看,把上面圓的中心當作原點,隨著半徑的增加,三角形的個數(shù)是越來越多的
我們可以想象一下,使用雙曲空間建模就像“吹起一個氣球”。假設一個干癟的氣球表面上有十億個節(jié)點,這會是非常致密的狀態(tài)。隨著氣球逐漸充氣變大,氣球表面越來越“彎曲”,節(jié)點之間就分的越開。阿里媽媽技術團隊將曲率空間(Curvlearn)用于基于淘寶搜索廣告場景,系統(tǒng)全量上線后,存儲消耗量降低 80%,用戶側請求匹配精準度相對提升15%。除了推薦系統(tǒng)外,雙曲圖模型在多種不同的場景上都展現(xiàn)了優(yōu)異的效果,對相關內容感興趣的同學也可以參考我們今年在ECML-PKDD上雙曲圖表征學習的相關教程(主頁傳送門:?https://hyperbolicgraphlearning.github.io/? )或者弗吉亞理工和亞馬遜等學者在WebConf的雙曲神經(jīng)網(wǎng)絡相關教程。
6、圖神經(jīng)網(wǎng)絡訓練系統(tǒng)、框架、基準平臺
圖神經(jīng)網(wǎng)絡算法將深度神經(jīng)網(wǎng)絡的運算(如卷積、梯度計算)與迭代圖傳播結合在一起: 每個頂點的特征都是由其鄰居頂點的特征結合一組深度神經(jīng)網(wǎng)絡來計算。但是,現(xiàn)有的深度學習框架不能擴展和執(zhí)行圖傳播模型,因此缺乏高效訓練圖神經(jīng)網(wǎng)絡的能力。另外現(xiàn)實世界中的圖數(shù)據(jù)規(guī)模龐大,并且頂點之間具有復雜的依賴性,例如Facebook的社交網(wǎng)絡圖包含超過20億個頂點和1萬億條邊,這種規(guī)模的圖在訓練時可能會產生100 TB的數(shù)據(jù),不同于傳統(tǒng)的圖算法,平衡的圖分區(qū)不僅依賴于分區(qū)內的頂點數(shù)量,還依賴于分區(qū)內頂點鄰居的數(shù)量,多層圖神經(jīng)網(wǎng)絡模型中不同頂點多階鄰居的數(shù)量可能相差極大,并且這些分區(qū)之間需要頻繁的數(shù)據(jù)交換,如何對圖數(shù)據(jù)進行合理的分區(qū)來保證分布式訓練的性能是對于分布式系統(tǒng)的重大挑戰(zhàn)。另外圖數(shù)據(jù)是非常稀疏的,從而這會導致分布式處理中的頻繁的跨節(jié)點訪問,產生大量的消息傳遞開銷。 所以如何針對圖的特殊性質減少系統(tǒng)開銷是提高系統(tǒng)性能的一大挑戰(zhàn)。工欲善其事,必先利其器。 為了支持圖神經(jīng)網(wǎng)絡在大規(guī)模圖上的應用,以及對更復雜圖神經(jīng)網(wǎng)絡結構的探索,開發(fā)針對圖神經(jīng)網(wǎng)絡的訓練系統(tǒng)是十分有必要的。首先要提的是最為知名的兩個開源框架PyG (PyTorch Geometric)和DGL (Deep Graph Library),前者是主要由斯坦福大學以及多特蒙德工業(yè)大學聯(lián)合開發(fā)的基于PyTorch的圖神經(jīng)網(wǎng)絡庫,含了很多 GNN 相關論文中的方法實現(xiàn)和常用數(shù)據(jù)集,并且提供了簡單易用的接口,后者則是由紐約大學以及亞馬遜研究院聯(lián)合主導開發(fā)的圖學習框架,作為最早的學術以及工業(yè)界開源框架,兩者都擁有活躍的社區(qū)支持。
除此之外很多公司根據(jù)自身業(yè)務特點,也紛紛建設自有的圖神經(jīng)網(wǎng)絡框架以及數(shù)據(jù)庫例如:NeuGraph、EnGN、PSGraph、AliGraph、Roc、AGL、PGL、Galileo、TuGraph、Angle Graph等。其中AliGraph由阿里巴巴計算平臺和達摩院智能計算實驗室開發(fā)的采樣建模訓練一體化的圖神經(jīng)網(wǎng)絡平臺。PGL (paddle graph learning)是由百度開發(fā)的基于PaddlePaddle的相應圖學習框架。Angle Graph是騰訊TEG數(shù)據(jù)平臺推出的大規(guī)模高性能圖計算平臺。
我們再聊聊基準平臺的問題。在深度機器學習的核心研究或應用領域中,基準數(shù)據(jù)集以及平臺都有助于識別和量化哪些類型的架構,原理或機制是通用的,并且可以推廣到實際任務和大型數(shù)據(jù)集。例如神經(jīng)網(wǎng)絡模型的最新革命都是由大規(guī)模基準圖像數(shù)據(jù)集的ImageNet觸發(fā)的。相對于網(wǎng)格或者序列數(shù)據(jù),圖數(shù)據(jù)模型發(fā)展相對而言還處于自由生長的階段。首先,數(shù)據(jù)集往往規(guī)模太小,與現(xiàn)實場景不符,這意味著我們很難可靠和嚴格地評估算法。其次,評估算法的方案不統(tǒng)一?;旧希總€研究工作論文都使用了自己的「訓練集/測試集」數(shù)據(jù)劃分方式和性能評測指標。這意味著我們很難進行跨論文跨架構的性能比較。此外,不同的研究員往往在劃分數(shù)據(jù)集時采用傳統(tǒng)的隨機劃分方法。為了解決圖學習社區(qū),數(shù)據(jù)、任務數(shù)據(jù)劃分方式以及評估方案不一致的問題,斯坦福大學的Jure Leskovec團隊2020年推出了圖神經(jīng)網(wǎng)絡基準平臺奠基性的工作Open Graph Benchmark(OGB)。
OGB包含一些可以現(xiàn)成使用的用于圖上的關鍵任務(節(jié)點分類、鏈接預測、圖分類等)的數(shù)據(jù)集,同時也包含了通用的代碼庫,以及性能評測指標的實現(xiàn)代碼,可以進行快速的模型評估和比較。此外,OGB還設有模型性能排行榜(leaderboard),可以方便大家快速的跟進相應的研究進展。另外,2021年,OGB聯(lián)合KDD CUP 與舉辦了第一屆 OGB-LSC(OGB Large-Scale Challenge)比賽,提供來自真實世界的超大規(guī)模圖數(shù)據(jù),來完成圖學習領域的節(jié)點分類、邊預測和圖回歸三大任務,吸引了包括微軟、Deepmind、Facebook、阿里巴巴、百度、字節(jié)跳動、斯坦福、MIT、北京大學等眾多頂尖高校和科技公司參與。今年在NeurIPS2022的競賽track中,根據(jù)KDD杯的經(jīng)驗,更新了相應的數(shù)據(jù)集并組織了第二屆OGB-LSC競賽,獲獎方案目前已經(jīng)公開
(快速熟悉一個領域的好方法是閱讀級實驗室剛畢業(yè)同學的博士論文,SNAP實驗室的Rex YING以及尤佳軒必須是要擁有姓名, 分別于2016年以及2017年開始在Jure Leskovec的指導下開始進行圖學習相關的研究,諸多成果也是成為了圖學習發(fā)展歷程路標性工作也分別在各自博士論文《Towards Expressive and Scalable Deep Representation Learning for Graphs》和《Empowering Deep Learning with Graphs》也是進性了相應的梳理。)
7、總結和展望
經(jīng)過十幾年的發(fā)展以及最近各行業(yè)內產業(yè)落地的應用以及實驗室中理論的不斷迭代,圖神經(jīng)網(wǎng)絡在理論上和實踐上都被證實是對圖結構數(shù)據(jù)處理的一種有效方法和框架。圖作為一種通用簡潔以及強大的數(shù)據(jù)結構,不僅可以作為圖模型的輸入輸出來進行非歐結構數(shù)據(jù)的挖掘和學習,也可以作為一種先驗結構應用于歐式數(shù)據(jù)(文本以及圖片)的模型應用中。 從長遠來看,我們相信圖數(shù)據(jù)+神經(jīng)網(wǎng)絡將會從一個新興研究領域轉變?yōu)橛糜跈C器學習研究和應用的標準數(shù)據(jù) + 模型范式賦能更多的行業(yè)與場景。
?
(不能免俗做個展望)盡管 GNN 近年來在諸多領域取得了巨大的成功,但是隨著應用場景的擴展以及實際動態(tài)變化以及未知的開放環(huán)境,除了前文中提及過的諸多問題以及挑戰(zhàn)之外仍然有許多的方向值得進一步的探索:
圖神經(jīng)網(wǎng)絡新場景以及新范式:在現(xiàn)實世界中,大到星球引力小到分子交互,幾乎萬物可以看做以某種關系連接起來,繼而都可以視作一個圖。從社交網(wǎng)絡分析到推薦系統(tǒng)以及自然科學,我們看到了圖神經(jīng)網(wǎng)絡在各個領域的相關應用探索以及從應用問題中引發(fā)的模型發(fā)展,例如智能交通中的時空交互,金融風控場景中的類別不平衡,生物化學領域中的分析結構區(qū)分問題等,因此如何在不同場景中自適應地學習與場景有關的特征依舊是重要的方向。除此之外,一方面目前GNN的主要是基于消息傳遞范式,利用信息傳遞,信息聚合,信息更新三個步驟,如何讓信息傳遞,聚合,更新變得更加合理和高效對于GNN是目前較為重要的工作;另一方面基于消息傳遞框架以及同配性假設引起的信息過平滑問題以及信息瓶頸也會制約其在更加復雜的數(shù)據(jù)以及場景下的效果。整體而言,大多數(shù)GNN總是在借鑒計算機視覺以及自然語言處理中的一些思路,但是如何打破借鑒的規(guī)則,基于圖數(shù)據(jù)的歸納性偏好設計更加強大的模型,給圖神經(jīng)網(wǎng)絡注入專屬于它的靈魂,也會是領域研究人員持續(xù)思考和努力的方向。
圖結構學習:圖神經(jīng)網(wǎng)絡和傳統(tǒng)神經(jīng)網(wǎng)絡的主要區(qū)別就是以圖的結構為指導,通過聚合鄰居信息來學習節(jié)點表示。其中的應用實際有個潛在的假設:圖結構是正確的,即圖上連接都是真實可信的。例如,社交圖中的邊暗示了真實的朋友關系。但是,實際上圖的結構并不是那么的可靠,噪音連接和偶發(fā)連接都是普遍存在的。錯誤的圖結構加上GNN的擴散過程,會極大的降低節(jié)點表示及下游任務的表現(xiàn)(garbage in,garbage out)。因此如何更好的進行圖結構的學習以及不同數(shù)據(jù)場景如何構建更加可信的圖結構是一個重要的方向。
可信圖神經(jīng)網(wǎng)絡:由于信息傳遞機制和圖數(shù)據(jù)non-IID的特點,GNNs對于對抗攻擊性十分的脆弱,很容易被節(jié)點特征和圖結構上的對抗性擾動影響。例如,詐騙犯可以通過創(chuàng)造和一些特定高信用用戶的交易來逃過基于GNNs的詐騙檢測。所以研發(fā)魯棒的圖神經(jīng)網(wǎng)絡對于一些安全風險較高的領域是十分有必要的。另一方面,隨著全社會對隱私保護日益重視的背景下,圖神經(jīng)網(wǎng)絡的公平性以及對于數(shù)據(jù)隱私保護也是最近研究的熱點。例如,阿里達摩院2022年針對圖數(shù)據(jù)的聯(lián)邦學習開源平臺FederatedScope-GNN,今年也是獲得了KDD 2022的最佳應用論文。另外,如何讓訓練好的圖模型遺忘掉特定數(shù)據(jù)訓練效果/特定參數(shù), 以達到保護模型中隱含數(shù)據(jù)的目的的遺忘學習(Graph unlearning)也是一個值得討論的方向。
可解釋性:深度學習模型雖然實現(xiàn)了諸多任務上傳統(tǒng)方法望塵莫及的性能,但是模型的復雜性導致其可解釋性往往較為局限。然而,在生物信息學健康以及金融風控等眾多高敏感度領域中,在評估計算模型和以及更好地理解潛在機制時,可解釋性非常重要。因此,設計具有可解釋性或者可以更好地可視化復雜關系的模型/架構最近也是引起了較多的關注。目前已有的工作主要還是較多參考借鑒于文本和圖像中對于可以解釋性的處理方式。例如基于梯度變化或者輸入擾動的方法(e.g GNNExplainer)。近期,一些研究人員嘗試利用因果篩選的方對可解釋性衡量框架進行探索,從而更好地引出基于不變學習的內在可解釋性的圖神經(jīng)網(wǎng)路,也為圖模型的可解釋性提供了一些新的思路。
分布外泛化:一般的學習問題都是在一個訓練集上完成模型訓練,而后模型需要在一個新的測試集上給出結果,當測試數(shù)據(jù)分布與訓練分布呈現(xiàn)明顯不同時,模型的泛化誤差則很難被控制。目前大多數(shù)的圖神經(jīng)網(wǎng)絡(GNN)方法沒有考慮訓練圖和測試圖之間的不可知偏差,從而導致GNN在分布外(OOD)圖上的泛化性能變差。然而現(xiàn)實中的許多場景要求模型與開放動態(tài)的環(huán)境進行交互,模型在訓練階段需要考慮未來新出現(xiàn)的實體或來自未知分布的樣本,例如推薦系統(tǒng)中新出現(xiàn)的用戶/商品,在線廣告系統(tǒng)中新平臺的用戶畫像/行為特征,動態(tài)網(wǎng)絡中新出現(xiàn)的節(jié)點或連邊關系等。因此如何利用有限的觀測數(shù)據(jù),學習一個穩(wěn)定的GNN模型,能夠泛化到未知或者數(shù)據(jù)有限的新環(huán)境也是一個重要的研究方向。
圖數(shù)據(jù)預訓練以及通用模型:預訓練范式在計算機視覺以及自然語言處理的領域取得革命性成功,在諸多任務中證明了其強大的能力。雖然GNN已經(jīng)具備了一些相對成熟的模型以及成功的應用,但是當前仍囿于面向特定任務使用大量標注數(shù)據(jù)訓練模型的深度學習,當任務改變或標簽不足時往往效果就會差強人意。因此也自然引發(fā)大家對于在圖數(shù)據(jù)場景進行通用模型的探索和思考。預訓練的關鍵在于豐富的大量訓練數(shù)據(jù), 可遷移的知識,強大的骨干模型以及有效的訓練方法。相較于計算機視覺以及自然語言處理中較為明確的語義信息,因為不同的圖數(shù)據(jù)結構千差萬別,圖中什么知識是可遷移的仍然是一個較為開放的問題。另外,目前深層以及通用的GNN模型雖有研究但仍未帶來革命性的提升。幸運的是,圖機器學習社區(qū)已經(jīng)積累了大規(guī)模的圖數(shù)據(jù),并且已經(jīng)發(fā)展出諸如圖重構的自監(jiān)督訓練方法。隨著后續(xù)深層GNN、表達能力更強的GNN以及圖自監(jiān)督新范式等研究的進一步探索,相信最終實現(xiàn)泛用性強的通用模型。
軟硬件協(xié)同:隨著圖學習的應用和研究發(fā)展的推進, GNN肯定會更深入地集成到 PyTorch,TensorFlow,Mindpsore等標準框架和平臺中。進一步提高圖模型的可拓展性,更加硬件親和的算法框架以及軟件協(xié)同的硬件加速方案是大勢所趨。雖然面向圖神經(jīng)網(wǎng)絡應用的專用加速結構慢慢涌現(xiàn),為圖神經(jīng)網(wǎng)絡定制計算硬件單元和片上存儲層次,優(yōu)化計算和訪存行為的專屬芯片已有一些成功,但是這些技術仍然處理早期的階段,面臨巨大的挑戰(zhàn)以及相應也是提供了諸多的機遇。