自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港大黃超團(tuán)隊推出AnyGraph, 首次揭秘圖大模型的Scaling Law

人工智能 新聞
AnyGraph 框架是一個高效且有效的圖基礎(chǔ)模型,專為應(yīng)對不同圖數(shù)據(jù)集中結(jié)構(gòu)和特征異質(zhì)性的多方面挑戰(zhàn)而設(shè)計。AnyGraph 采用創(chuàng)新性的專家混合(MoE)架構(gòu),并結(jié)合動態(tài)專家路由機(jī)制,使其在跨域泛化能力方面達(dá)到了最先進(jìn)的水平。

本文的主要作者來自香港大學(xué)的數(shù)據(jù)智能實驗室 (Data Intelligence Lab@HKU)。第一作者是香港大學(xué)的博士后夏良昊,指導(dǎo)老師為黃超教授。香港大學(xué)數(shù)據(jù)智能實驗室專注于人工智能和數(shù)據(jù)挖掘的研究,涵蓋大語言模型、圖神經(jīng)網(wǎng)絡(luò)、信息檢索、推薦系統(tǒng)和時空數(shù)據(jù)挖掘等領(lǐng)域。實驗室的研究成果在多個頂級會議上(如 WWW、SIGIR、KDD)獲得了諸多榮譽(yù),包括最具影響力論文和最佳論文候選。

圖片

AnyGraph 大模型,圖模型泛化性的突破,致力于解決以下關(guān)鍵技術(shù)挑戰(zhàn)

  • 結(jié)構(gòu)異質(zhì)性:應(yīng)對圖結(jié)構(gòu)信息中的分布偏移。
  • 特征異質(zhì)性:處理跨圖數(shù)據(jù)集的多樣特征表示。
  • 快速適配:使模型迅速適應(yīng)新的不同的圖學(xué)習(xí)領(lǐng)域,展現(xiàn)敏捷適應(yīng)力。
  • 大模型能力涌現(xiàn):隨著數(shù)據(jù)量和模型參數(shù)的增長,性能顯著提升,釋放模型潛能。

AnyGraph 的主要特點:

  • 圖混合專家(GraphMoE):采用一系列專家模型,巧妙解決跨域異質(zhì)性問題。
  • 輕量級圖專家路由機(jī)制:快速適應(yīng)策略,使模型能夠迅速響應(yīng)新的數(shù)據(jù)集和領(lǐng)域。
  • 自適應(yīng)且高效的圖專家模型:專為處理具有廣泛圖結(jié)構(gòu)模式和特征空間的模型而定制設(shè)計。
  • 廣泛訓(xùn)練和測試:在 38 個多樣化的圖數(shù)據(jù)集上經(jīng)過嚴(yán)格驗證,展現(xiàn)出卓越的泛化能力和模型擴(kuò)展性,證明了其涌現(xiàn)能力。

圖片

作為一種重要的數(shù)據(jù)形式,圖數(shù)據(jù)在社交網(wǎng)絡(luò)、學(xué)術(shù)網(wǎng)絡(luò)、交通系統(tǒng)和生物網(wǎng)絡(luò)等多個領(lǐng)域有廣泛應(yīng)用。圖模型,例如圖神經(jīng)網(wǎng)絡(luò)(GNN),學(xué)習(xí)圖中節(jié)點的表征向量,來捕捉結(jié)構(gòu)信息和節(jié)點上的特征信息,從而進(jìn)行準(zhǔn)確預(yù)測。

近年來,圖學(xué)習(xí)領(lǐng)域取得了顯著進(jìn)展,主要得益于圖神經(jīng)網(wǎng)絡(luò)(GNNs)的強(qiáng)大功能、一些微調(diào)方法的提出、以及最近一些將圖數(shù)據(jù)空間與自然語言空間進(jìn)行對齊的嘗試。然而,當(dāng)前最先進(jìn)的圖模型在跨領(lǐng)域的泛化性能上仍顯不足。

現(xiàn)有方法往往嚴(yán)重依賴繁瑣的微調(diào)過程,難以應(yīng)對真實圖結(jié)構(gòu)復(fù)雜、多樣化的特點。這種無法快速無縫適應(yīng)新圖域的能力,阻礙了圖學(xué)習(xí)技術(shù)的廣泛應(yīng)用。因此,解決這一挑戰(zhàn),搭建一個具有跨領(lǐng)域、強(qiáng)泛化性能的圖基礎(chǔ)模型,對于圖學(xué)習(xí)領(lǐng)域至關(guān)重要。

為此,研究團(tuán)隊推出 AnyGraph, 首次揭秘圖大模型的 Scaling Law。

圖片

  • 論文鏈接: https://arxiv.org/pdf/2408.10700
  • 項目地址: https://github.com/HKUDS/AnyGraph
  • 實驗室主頁: https://sites.google.com/view/chaoh

考慮到圖數(shù)據(jù)的特點,以及受到語言和圖像數(shù)據(jù)基礎(chǔ)模型的啟發(fā),研究團(tuán)隊致力于解決以下幾個關(guān)鍵問題:

  • 結(jié)構(gòu)異質(zhì)性:不同應(yīng)用領(lǐng)域的圖數(shù)據(jù)在結(jié)構(gòu)上可以存在極大的差別,例如節(jié)點的平均度數(shù)、緊密子圖出現(xiàn)的頻率、噪音和缺失邊數(shù)據(jù)的比例等。圖結(jié)構(gòu)模式的多樣性,對圖基礎(chǔ)模型的容納能力提出了嚴(yán)重的挑戰(zhàn)。
  • 特征異質(zhì)性:作為圖數(shù)據(jù)的重要組成部份,節(jié)點特征在不同數(shù)據(jù)集中卻存在普遍且極大的差異。例如,有的數(shù)據(jù)集采用離散的類別特征,有的可能采用連續(xù)的數(shù)值特征,有的采用文本語意 embedding,有的采用圖結(jié)構(gòu)的統(tǒng)計信息。此外,不同數(shù)據(jù)集的節(jié)點特征在向量維度這一基本特點上甚至都具有極大的差異。如何使圖基礎(chǔ)模型在零樣本情況下處理不同圖的異質(zhì)特征,是一個關(guān)鍵挑戰(zhàn)。
  • 快速適應(yīng)以實現(xiàn)廣泛應(yīng)用。有效的圖基礎(chǔ)模型的關(guān)鍵能力之一是能夠高效地適應(yīng)新的圖數(shù)據(jù)集和領(lǐng)域。理想模型應(yīng)能夠迅速調(diào)整其參數(shù)和學(xué)習(xí)策略,以處理之前未見過的圖數(shù)據(jù)集的結(jié)構(gòu)和分布特征,而無需進(jìn)行大量的重新訓(xùn)練或微調(diào)。
  • 圖基礎(chǔ)模型的擴(kuò)展定律與變革性能力。在計算機(jī)視覺和自然語言處理等領(lǐng)域中,成功的基礎(chǔ)模型具有一個關(guān)鍵特性 —— 擴(kuò)展定律(Scaling Law),即隨著模型大小或訓(xùn)練數(shù)據(jù)集的增加,性能會系統(tǒng)地提升。探索圖基礎(chǔ)模型是否適用這一定律,也是本文研究的一個重要問題。

為了解決上述問題, AnyGraph 提出了以下關(guān)鍵性技術(shù)。

圖 MoE 模型

不同圖之間巨大的結(jié)構(gòu)和特征差異,促使我們采用一種更 “松散” 的模型架構(gòu)。AnyGraph 的 MoE 架構(gòu)使用完全不同的專家模型來處理差異極大的圖數(shù)據(jù),模型無需在高度耦合的單個神經(jīng)網(wǎng)絡(luò)中巧妙地容納不同數(shù)據(jù)的建模和處理過程。

具體來說,AnyGraph 的 MoE 架構(gòu)包含多個圖數(shù)據(jù)專家模型,每個專家模型均能對所有輸入的圖數(shù)據(jù)進(jìn)行處理和預(yù)測,但所擅長的領(lǐng)域和模式不同。例如,有的專家模型擅長處理文本 embedding 特征,有的擅長處理圖的鄰接矩陣特征;有的專家模型擅長處理稠密數(shù)據(jù),而有的擅長處理稀疏數(shù)據(jù)。

為了向每個專家模型分配適合的任務(wù),AnyGraph 設(shè)計了一種專家路由機(jī)制,在訓(xùn)練和測試過程中,基于專家模型對數(shù)據(jù)的擅長程度進(jìn)行匹配。

基于這一 MoE 架構(gòu),AnyGraph 對圖數(shù)據(jù)的知識存儲在不同的專家模型中,而不同的專家模型不需要進(jìn)行相互的協(xié)調(diào)和耦合,從而更容易地容納圖數(shù)據(jù)之間的巨大差異,解決跨領(lǐng)域情況下的結(jié)構(gòu)和特征異構(gòu)性問題。

此外,MoE 架構(gòu)使得 AnyGraph 僅需使用幾分之一的模型參數(shù),就可以完成單個大模型具備的訓(xùn)練和預(yù)測效果,大大提升了模型的快速適應(yīng)能力。

下圖展示的消融實驗中,我們驗證了采用單個模型(-MoE)相對于使用 MoE 架構(gòu)的劣勢。

圖片

輕量化的圖專家路由機(jī)制

專家模型路由負(fù)責(zé)為輸入的數(shù)據(jù)集匹配適合的專家,以進(jìn)行更準(zhǔn)確的預(yù)測、以及更適當(dāng)?shù)膶<矣?xùn)練。

受到圖自監(jiān)督學(xué)習(xí)的啟發(fā),我們的圖專家路由采用一種自監(jiān)督損失,來衡量不同專家模型完成不同數(shù)據(jù)集的能力,以進(jìn)行匹配。

在不引入額外標(biāo)簽數(shù)據(jù)的情況下,我們的自監(jiān)督任務(wù)損失可以準(zhǔn)確衡量專家模型處理不同圖數(shù)據(jù)的誤差程度。在模型調(diào)試過程中,我們發(fā)現(xiàn)這一自監(jiān)督路由算法與遍歷所有分配情況所得到的最優(yōu)分配方案相差無幾。

下圖展示了我們的路由機(jī)制對數(shù)據(jù)集的分配情況,可以看到,相關(guān)的數(shù)據(jù)集總是被分到同樣的專家模型中,例如 arxiv-ta, Photo, GReads, Fitness 等使用同樣特征空間的數(shù)據(jù)集,以及 ML1M 和 ML10M 這兩個同源數(shù)據(jù)集。此外,路由算法的準(zhǔn)確性,不僅可以在訓(xùn)練數(shù)據(jù)集上觀察到,在下圖右半部分中,模型從未見過的測試數(shù)據(jù)集也可以進(jìn)行準(zhǔn)確路由。這體現(xiàn)了 AnyGraph 路由機(jī)制的通用性和模型的泛化性能。

圖片

自適應(yīng)且高效的圖專家

結(jié)構(gòu)和特征的異構(gòu)性,在模型設(shè)計的底層帶來了諸多挑戰(zhàn),例如模型如何處理不同維度的特征向量、如何處理二維可變長的鄰接矩陣、圖專家如何設(shè)計可以高效處理不同圖類型的變換和預(yù)測。

我們的圖專家模型采用奇異值分解 SVD 方法對鄰接矩陣和節(jié)點特征矩陣進(jìn)行了維度統(tǒng)一。同時,這種統(tǒng)一的特征處理過程,具有一定的語義統(tǒng)一性,為跨數(shù)據(jù)集的零樣本預(yù)測打下了基礎(chǔ)。

由于我們在高層采用了 MoE 架構(gòu)集成多個預(yù)測模型,我們在單個圖專家中采用了簡單的 MLP 網(wǎng)絡(luò),希望所有的建模問題都能通過采用合適的特征變換來解決。這樣做大大增強(qiáng)了模型的效率,使 AnyGraph 甚至在訓(xùn)練效率上超過傳統(tǒng)的圖網(wǎng)絡(luò)模型。

下圖實驗對比了 AnyGraph,以及普通的 GCN 方法、預(yù)訓(xùn)練方法 GraphCL 三種方法,在不同數(shù)據(jù)集下測試它們訓(xùn)練 100 個 step 所花費(fèi)的時間??梢钥吹?,盡管 AnyGraph 采用了更多的參數(shù)、更大的模型,但由于單個專家模型的高效性,訓(xùn)練時間與簡單的基線方法相近、甚至更少。

圖片

此外,文章進(jìn)一步探究了不同模型在應(yīng)對新數(shù)據(jù)時的快速適應(yīng)能力。下圖實驗對比了三種方法隨著訓(xùn)練步數(shù)的增加,在訓(xùn)練數(shù)據(jù)集上性能的提升曲線。實驗對比的方法包括對一個隨機(jī)初始化的 GCN 模型進(jìn)行從頭訓(xùn)練、對一個預(yù)訓(xùn)練的 GraphCL 模型進(jìn)行微調(diào)、以及對預(yù)訓(xùn)練的 AnyGraph 進(jìn)行微調(diào)。

首先,可以觀察到 AnyGraph 在未經(jīng)微調(diào)時的零樣本預(yù)測效果遠(yuǎn)優(yōu)于兩種基線方法。這源于 AnyGraph 出色的跨領(lǐng)域和零樣本泛化能力。其次,AnyGraph 的效果曲線更快到達(dá)收斂狀態(tài),這體現(xiàn)了使用 MoE 架構(gòu)、選擇合適且高效的專家模型進(jìn)行微調(diào),可以更快地進(jìn)行模型適應(yīng)。此外,可以觀察到 GraphCL 的預(yù)訓(xùn)練在 PPA 數(shù)據(jù)集上不僅沒有為它帶來性能的優(yōu)勢,反而對學(xué)習(xí)新數(shù)據(jù)造成了負(fù)面影響。這體現(xiàn)了圖模型進(jìn)行跨領(lǐng)域遷移的困難,這源于不同領(lǐng)域圖數(shù)據(jù)巨大的異構(gòu)性。

圖片

廣泛訓(xùn)練和測試

數(shù)據(jù)集

AnyGraph 采用了共 38 個數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,數(shù)據(jù)集涵蓋了電商、學(xué)術(shù)網(wǎng)絡(luò)、生物信息網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、網(wǎng)頁關(guān)聯(lián)網(wǎng)絡(luò)、社交網(wǎng)絡(luò)等多個類別。共包括 14,437,372 個節(jié)點和 199,265,688 條邊。不同數(shù)據(jù)集采用的節(jié)點特征方法不同,囊括了無節(jié)點特征、不同的文本 embedding 方法、詞袋特征、類別特征等不同的方法。具體數(shù)據(jù)集統(tǒng)計信息如下所示

圖片

為了更好地觀測模型在大規(guī)模測試中的性能,我們將測試數(shù)據(jù)集分為了多個不同的集合。不同集合之間不包含同源數(shù)據(jù)集,例如收集自同一個網(wǎng)絡(luò)服務(wù)平臺;不同集合的數(shù)據(jù)集之間也不共享特征構(gòu)建方法,例如同一種文本 embedding 方法,只可能出現(xiàn)在 Link1 和 Link2 兩個集合的其中之一。通過這種方式,模型在零樣本測試時完全未接觸過測試數(shù)據(jù)的數(shù)據(jù)源和特征方法,能測試模型更真實的零樣本性能表現(xiàn)。

圖片

文章提供了兩個版本的預(yù)訓(xùn)練模型,分別在 Link1 和 Link2 兩個集合上訓(xùn)練得到。在零樣本測試中,這兩個模型只會被用于測試它們未見過的數(shù)據(jù)集。例如使用在 Link1 上訓(xùn)練的模型測試 Link2 上的表現(xiàn)。在測試 Ecommerce、Academic、Others 這些包括了 Link1 和 Link2 兩類數(shù)據(jù)集的情況時,文章分別采用兩個預(yù)訓(xùn)練模型,對未見過的數(shù)據(jù)集進(jìn)行測試,再整合計算數(shù)據(jù)集合的整體預(yù)測性能。

AnyGraph 的零樣本預(yù)測性能

AnyGraph 在零樣本預(yù)測上的效果如下所示:

圖片

除了與現(xiàn)有圖模型的少樣本預(yù)測能力進(jìn)行對比,文章還對比了現(xiàn)有的其他圖基礎(chǔ)模型,一個是基于文本特征的 GraphGPT,一個是基于結(jié)構(gòu)特征的 OpenGraph??梢钥吹?,在更多數(shù)據(jù)集的泛化性能測試上,AnyGraph 取得了更好的效果。并且,文章還對比了一個除了文本特征的消融版本 AnyGraph-F,從而驗證了 AnyGraph 對結(jié)構(gòu)和文本兩種特征均能進(jìn)行有效的利用。

圖片

AnyGraph 的擴(kuò)展定律

為了探索 AnyGraph 的性能增長是否符合擴(kuò)展定律(Scaling Law),文章調(diào)整了 AnyGraph 的模型參數(shù)量和訓(xùn)練數(shù)據(jù)量。前者通過調(diào)整模型的表征維度、網(wǎng)絡(luò)層數(shù)、專家數(shù)量,而后者通過從小到大增加訓(xùn)練數(shù)據(jù)集的數(shù)量。

測試效果如下所示,該實驗分為對跨領(lǐng)域數(shù)據(jù)集的測試,以及對單個領(lǐng)域跨數(shù)據(jù)集的測試。在每個子圖的實驗中,包含了以下三項:

  • 左:在模型參數(shù)量影響下,對未見過數(shù)據(jù)集的零樣本預(yù)測性能變化
  • 中:在模型參數(shù)量影響下,對訓(xùn)練過數(shù)據(jù)集的全樣本預(yù)測性能變化
  • 右:在訓(xùn)練數(shù)據(jù)量影響下,對未見過數(shù)據(jù)集的零樣本預(yù)測性能變化

從結(jié)果可以得出以下幾點結(jié)論:

  • AnyGraph 的零樣本能力遵循 Scaling Law:雖然模型的全樣本預(yù)測能力出現(xiàn)了增長的飽和,但其零樣本能力隨著參數(shù)量和數(shù)據(jù)量的增長不斷上升,這說明 AnyGraph 模型的零樣本能力遵循 Scaling Law,這一觀測結(jié)果有兩個重要原因,首先是測試的任務(wù)需要具備一定的難度,全樣本預(yù)測只需要模型在訓(xùn)練數(shù)據(jù)集上具備泛化能力,相對較為簡單,因此容易出現(xiàn)性能增長的飽和;而跨數(shù)據(jù)集、跨領(lǐng)域的零樣本預(yù)測挑戰(zhàn)性高,仍有很大的增長空間。其次,AnyGraph 的 MoE 架構(gòu)使得它更容易容納不同數(shù)據(jù)集的多樣化圖數(shù)據(jù)模式,從而具備更大的潛力隨著參數(shù)量和數(shù)據(jù)量的增大而提升。
  • AnyGraph 的涌現(xiàn)能力:在測試曲線中常??梢杂^測到,模型性能常常在經(jīng)歷了一定的增長停滯后,出現(xiàn)突變式提升。這符合在視覺和文本大模型中觀測到的涌現(xiàn)能力特點,說明 AnyGraph 具備了產(chǎn)生變革式泛化能力的基礎(chǔ)。
  • 不足的訓(xùn)練數(shù)據(jù)引入 bias:在數(shù)據(jù)量增長實驗中可以觀察到一個典型的特征,在早起的數(shù)據(jù)量增長中,模型性能經(jīng)歷了一個斷崖式的下跌,這是由于訓(xùn)練數(shù)據(jù)不足,而新引入的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)集存在較大的偏離,導(dǎo)致模型訓(xùn)練存在較大的 bias。這一問題可以通過擴(kuò)大訓(xùn)練數(shù)據(jù)量解決,這樣做不僅增強(qiáng)了模型性能,也可以增強(qiáng)訓(xùn)練的魯棒性。

圖片

總結(jié)

AnyGraph 框架是一個高效且有效的圖基礎(chǔ)模型,專為應(yīng)對不同圖數(shù)據(jù)集中結(jié)構(gòu)和特征異質(zhì)性的多方面挑戰(zhàn)而設(shè)計。AnyGraph 采用創(chuàng)新性的專家混合(MoE)架構(gòu),并結(jié)合動態(tài)專家路由機(jī)制,使其在跨域泛化能力方面達(dá)到了最先進(jìn)的水平。在 38 個不同的圖數(shù)據(jù)集上進(jìn)行的廣泛實驗不僅突顯了 AnyGraph 在零樣本學(xué)習(xí)性能上的卓越表現(xiàn),還證明了其對分布偏移的魯棒性以及其遵循規(guī)模定律的能力,從而隨著模型大小和數(shù)據(jù)量的增加而提高了預(yù)測精度。該模型在訓(xùn)練和推理效率上的表現(xiàn),通過與現(xiàn)有方法的比較得到了驗證,進(jìn)一步鞏固了其實際應(yīng)用性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2024-07-22 08:10:00

數(shù)據(jù)模型

2024-09-18 11:30:00

AI架構(gòu)訓(xùn)練

2024-10-11 14:00:00

模型數(shù)據(jù)

2024-12-10 07:00:00

大模型密度定律人工智能

2024-11-11 17:35:11

2024-09-11 12:31:59

2024-12-09 17:20:29

2025-02-21 13:20:00

2025-02-28 09:30:00

2025-03-17 09:25:00

AI模型谷歌

2024-05-27 07:00:00

2025-04-01 09:20:00

模型預(yù)測AI

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2025-01-16 14:38:10

2024-09-09 13:50:00

2024-09-11 12:43:59

2025-01-10 14:15:02

2024-11-11 14:00:00

AI模型

2024-11-01 09:45:08

點贊
收藏

51CTO技術(shù)棧公眾號