MoE再下一城!港大提出AnyGraph:首次開啟「圖大模型」Scaling Law之路
圖數(shù)據(jù),作為一種不可或缺的數(shù)據(jù)表現(xiàn)形式,廣泛滲透于社交網(wǎng)絡、學術科研網(wǎng)絡、交通管理系統(tǒng)及生物信息網(wǎng)絡等諸多領域。作為最廣泛應用的圖學習范式,圖表征學習致力于學習圖中節(jié)點的表示向量,融合結構特性與節(jié)點特征,以實現(xiàn)精準的預測與分析。
近年來涌現(xiàn)出了大量的圖學習方法,包括圖神經網(wǎng)絡、圖自監(jiān)督學習、圖預訓練和微調方法、以及圖大語言模型。這些方法不斷精進圖學習模型的建模能力和預測精度,近年的一些方法探索了增強圖模型泛化能力的途徑。
然而,當前方法普遍依賴于復雜的調優(yōu)流程,難以靈活應對實際圖數(shù)據(jù)復雜多變的結構與特征特性。當圖數(shù)據(jù)涉及多個領域,且模型在訓練階段未曾見過時,當前模型難以處理,體現(xiàn)了現(xiàn)有方法在跨領域的零樣本預測任務上泛化性能的不足。
為了解決這一問題,香港大學的研究人員提出AnyGraph這一圖基礎模型。
論文鏈接:https://arxiv.org/pdf/2408.10700
項目地址:https://github.com/HKUDS/AnyGraph
基于圖數(shù)據(jù)的獨特性質,AnyGraph聚焦于攻克一下幾個方面的核心難題,模型預訓練跨越了8種場景、10類特征、以及38個數(shù)據(jù)集, 以實現(xiàn)搭建圖基礎模型的目標:
結構和特征異質性
不同應用場景下的圖數(shù)據(jù),其結構形態(tài)千差萬別,包括節(jié)點連接密度、密集子圖分布、數(shù)據(jù)噪聲與缺失情況等?,F(xiàn)有的方法,例如圖神經網(wǎng)絡,往往被訓練用于預測一類具有固定特點的圖數(shù)據(jù),其模型本身的容納能力,也無法處理真實世界中跨場景的復雜多樣數(shù)據(jù)。
此外,不同數(shù)據(jù)集往往存在嚴重的特征異質性。節(jié)點特征是圖數(shù)據(jù)的核心組成部分之一,但在不同數(shù)據(jù)集中展現(xiàn)出極大的差異性。從離散類別到連續(xù)數(shù)值,從文本嵌入到圖統(tǒng)計特征,乃至特征向量的維度都各不相同。如何在零樣本場景下處理這些多樣化的特征,成為圖基礎模型必須跨越的障礙。
為了應對結構和特征的異質性挑戰(zhàn),AnyGraph采用混合專家模型(MoE)架構,在模型中集成了同構但參數(shù)不同、互不耦合的多個專家圖模型?;谝环N高效且強大的專家路由算法,將不同的輸入數(shù)據(jù)分配給適合的專家模型進行學習和預測。通過這種方式,AnyGraph可以輕松集成針對不同圖數(shù)據(jù)特點的專家模型,從而達到更強的模型魯棒性。
另一方面,AnyGraph的每個專家模型都采用了統(tǒng)一的結構和特征統(tǒng)一方法,基于特征值分解方法,專家模型將具有不同維度、不同語義的鄰接矩陣數(shù)據(jù)和節(jié)點特征數(shù)據(jù),都映射為具有統(tǒng)一長度和相近語義的統(tǒng)一表征。在這一基礎上,即使不同數(shù)據(jù)的表征仍存在一些差異,也可以輕易被專家集成的MoE架構解決。
快速適應能力
一個高效的圖基礎模型應具備快速適應新數(shù)據(jù)集和領域的能力,能夠在不依賴大量重新訓練或微調的情況下,迅速調整其參數(shù)和學習策略,以應對未知圖數(shù)據(jù)的挑戰(zhàn)。然而,現(xiàn)有的圖基礎模型通常基于大規(guī)模的預訓練語言模型,難以進行快速的模型調整。這種對新圖域的低效適應性,成為限制圖學習技術廣泛應用的瓶頸。
針對這一問題,AnyGraph設計了輕量化的圖專家路由機制,使用自監(jiān)督任務來快速評測多個專家任務對輸入數(shù)據(jù)的預測準確性。在不引入額外標簽數(shù)據(jù)的情況下,這一方法可以準確找到最優(yōu)的專家模型,在僅使用單個專家模型、極少數(shù)模型參數(shù)的情況下,達到優(yōu)于與大規(guī)模預訓練模型的效果。
下圖展示了AnyGraph專家路由機制的分配結果,可以看到,同源(例如ML1M和ML10M)以及使用相同特征構建方法(例如YelpT, SteamT, AmazT)的數(shù)據(jù)集,被分到了同樣的專家模型。
此外,AnyGraph的專家模型采用一種簡單高效的設計,數(shù)據(jù)集的大部分信息可以預處理成高度有效的初始表征,而專家模型僅需要采用多層感知機模型,就能通過專家集成達到大規(guī)模模型的效果,從而減少模型前向和反向傳播的開銷。
下圖展示了AnyGraph在限定訓練步數(shù)上花費的計算時間,以及在fine-tune情況下的效果曲線,均展示了AnyGraph在快速適應能力上的優(yōu)勢。
Scaling Law
在視覺和文本領域,大規(guī)模基礎模型的一個標志性現(xiàn)象是Scaling Law,即隨著模型參數(shù)量和訓練數(shù)據(jù)量的增加,模型效果不斷提升。本文探索了圖基礎模型是否存在這樣的特點。
本文對AnyGraph的多個模型大小影響參數(shù),以及訓練數(shù)據(jù)量進行了調整,以測試模型性能隨著這些因素的變化情況。結果如下所示:
可以看到,在零樣本預測能力上,AnyGraph保持了隨參數(shù)量和數(shù)據(jù)量增長而不斷上升的趨勢,這一現(xiàn)象在訓練數(shù)據(jù)集上未能觀測到。這展示了AnyGraph在泛化能力上符合Scaling Law。這同時也說明,這種突破性的模型性能增長應該在更具挑戰(zhàn)性的任務上尋找,例如跨領域的零樣本預測。
這種不斷增長的突破性模型性能,來源于AnyGraph通用的模型設計,以及其在大量跨領域數(shù)據(jù)上的充分訓練。