自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MoE再下一城!港大提出AnyGraph:首次開啟「圖大模型」Scaling Law之路

人工智能 新聞
AnyGraph聚焦于解決圖數(shù)據(jù)的核心難題,跨越多種場景、特征和數(shù)據(jù)集進行預訓練。其采用混合專家模型和特征統(tǒng)一方法處理結構和特征異質性,通過輕量化路由機制和高效設計提升快速適應能力,且在泛化能力上符合Scaling Law。

圖數(shù)據(jù),作為一種不可或缺的數(shù)據(jù)表現(xiàn)形式,廣泛滲透于社交網(wǎng)絡、學術科研網(wǎng)絡、交通管理系統(tǒng)及生物信息網(wǎng)絡等諸多領域。作為最廣泛應用的圖學習范式,圖表征學習致力于學習圖中節(jié)點的表示向量,融合結構特性與節(jié)點特征,以實現(xiàn)精準的預測與分析。

近年來涌現(xiàn)出了大量的圖學習方法,包括圖神經網(wǎng)絡、圖自監(jiān)督學習、圖預訓練和微調方法、以及圖大語言模型。這些方法不斷精進圖學習模型的建模能力和預測精度,近年的一些方法探索了增強圖模型泛化能力的途徑。

圖片

然而,當前方法普遍依賴于復雜的調優(yōu)流程,難以靈活應對實際圖數(shù)據(jù)復雜多變的結構與特征特性。當圖數(shù)據(jù)涉及多個領域,且模型在訓練階段未曾見過時,當前模型難以處理,體現(xiàn)了現(xiàn)有方法在跨領域的零樣本預測任務上泛化性能的不足。

為了解決這一問題,香港大學的研究人員提出AnyGraph這一圖基礎模型。

圖片

論文鏈接:https://arxiv.org/pdf/2408.10700

項目地址:https://github.com/HKUDS/AnyGraph

基于圖數(shù)據(jù)的獨特性質,AnyGraph聚焦于攻克一下幾個方面的核心難題,模型預訓練跨越了8種場景、10類特征、以及38個數(shù)據(jù)集, 以實現(xiàn)搭建圖基礎模型的目標:

結構和特征異質性

不同應用場景下的圖數(shù)據(jù),其結構形態(tài)千差萬別,包括節(jié)點連接密度、密集子圖分布、數(shù)據(jù)噪聲與缺失情況等?,F(xiàn)有的方法,例如圖神經網(wǎng)絡,往往被訓練用于預測一類具有固定特點的圖數(shù)據(jù),其模型本身的容納能力,也無法處理真實世界中跨場景的復雜多樣數(shù)據(jù)。

此外,不同數(shù)據(jù)集往往存在嚴重的特征異質性。節(jié)點特征是圖數(shù)據(jù)的核心組成部分之一,但在不同數(shù)據(jù)集中展現(xiàn)出極大的差異性。從離散類別到連續(xù)數(shù)值,從文本嵌入到圖統(tǒng)計特征,乃至特征向量的維度都各不相同。如何在零樣本場景下處理這些多樣化的特征,成為圖基礎模型必須跨越的障礙。

為了應對結構和特征的異質性挑戰(zhàn),AnyGraph采用混合專家模型(MoE)架構,在模型中集成了同構但參數(shù)不同、互不耦合的多個專家圖模型?;谝环N高效且強大的專家路由算法,將不同的輸入數(shù)據(jù)分配給適合的專家模型進行學習和預測。通過這種方式,AnyGraph可以輕松集成針對不同圖數(shù)據(jù)特點的專家模型,從而達到更強的模型魯棒性。

另一方面,AnyGraph的每個專家模型都采用了統(tǒng)一的結構和特征統(tǒng)一方法,基于特征值分解方法,專家模型將具有不同維度、不同語義的鄰接矩陣數(shù)據(jù)和節(jié)點特征數(shù)據(jù),都映射為具有統(tǒng)一長度和相近語義的統(tǒng)一表征。在這一基礎上,即使不同數(shù)據(jù)的表征仍存在一些差異,也可以輕易被專家集成的MoE架構解決。

快速適應能力

一個高效的圖基礎模型應具備快速適應新數(shù)據(jù)集和領域的能力,能夠在不依賴大量重新訓練或微調的情況下,迅速調整其參數(shù)和學習策略,以應對未知圖數(shù)據(jù)的挑戰(zhàn)。然而,現(xiàn)有的圖基礎模型通常基于大規(guī)模的預訓練語言模型,難以進行快速的模型調整。這種對新圖域的低效適應性,成為限制圖學習技術廣泛應用的瓶頸。

針對這一問題,AnyGraph設計了輕量化的圖專家路由機制,使用自監(jiān)督任務來快速評測多個專家任務對輸入數(shù)據(jù)的預測準確性。在不引入額外標簽數(shù)據(jù)的情況下,這一方法可以準確找到最優(yōu)的專家模型,在僅使用單個專家模型、極少數(shù)模型參數(shù)的情況下,達到優(yōu)于與大規(guī)模預訓練模型的效果。

下圖展示了AnyGraph專家路由機制的分配結果,可以看到,同源(例如ML1M和ML10M)以及使用相同特征構建方法(例如YelpT, SteamT, AmazT)的數(shù)據(jù)集,被分到了同樣的專家模型。

圖片

此外,AnyGraph的專家模型采用一種簡單高效的設計,數(shù)據(jù)集的大部分信息可以預處理成高度有效的初始表征,而專家模型僅需要采用多層感知機模型,就能通過專家集成達到大規(guī)模模型的效果,從而減少模型前向和反向傳播的開銷。

下圖展示了AnyGraph在限定訓練步數(shù)上花費的計算時間,以及在fine-tune情況下的效果曲線,均展示了AnyGraph在快速適應能力上的優(yōu)勢。

圖片


Scaling Law

在視覺和文本領域,大規(guī)模基礎模型的一個標志性現(xiàn)象是Scaling Law,即隨著模型參數(shù)量和訓練數(shù)據(jù)量的增加,模型效果不斷提升。本文探索了圖基礎模型是否存在這樣的特點。

本文對AnyGraph的多個模型大小影響參數(shù),以及訓練數(shù)據(jù)量進行了調整,以測試模型性能隨著這些因素的變化情況。結果如下所示:

圖片

可以看到,在零樣本預測能力上,AnyGraph保持了隨參數(shù)量和數(shù)據(jù)量增長而不斷上升的趨勢,這一現(xiàn)象在訓練數(shù)據(jù)集上未能觀測到。這展示了AnyGraph在泛化能力上符合Scaling Law。這同時也說明,這種突破性的模型性能增長應該在更具挑戰(zhàn)性的任務上尋找,例如跨領域的零樣本預測。

這種不斷增長的突破性模型性能,來源于AnyGraph通用的模型設計,以及其在大量跨領域數(shù)據(jù)上的充分訓練。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-29 14:05:00

數(shù)據(jù)模型

2024-09-18 11:30:00

AI架構訓練

2016-01-12 17:28:50

百城百行智慧城市臨汾

2016-12-01 11:14:38

2024-12-10 07:00:00

大模型密度定律人工智能

2024-07-15 13:22:56

2024-09-11 12:31:59

2014-03-18 15:04:32

ARM架構Xen

2021-12-01 10:05:12

模型人工智能計算

2024-10-11 14:00:00

模型數(shù)據(jù)

2017-05-27 15:09:26

軟件 生態(tài)

2024-11-11 17:35:11

2024-09-09 13:50:00

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2015-03-10 12:03:19

優(yōu)酷路由寶京東

2025-02-21 13:20:00

2023-10-30 09:00:00

大語言模型龍與地下城人工智能

2025-02-28 09:30:00

2024-09-12 12:46:36

2024-02-06 10:38:10

昆侖萬維大模型
點贊
收藏

51CTO技術棧公眾號