文本圖格式大一統(tǒng)!首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024
文本屬性圖Text-Attributed Graphs(TAGs)是一種在節(jié)點(diǎn)上有豐富文本信息的圖結(jié)構(gòu), TAGs 廣泛應(yīng)用于社交網(wǎng)絡(luò)(social network)、引用網(wǎng)絡(luò)(citation network)和推薦系統(tǒng)(recommendation system)等實(shí)際場(chǎng)景中。由于其強(qiáng)大且通用的表達(dá)能力,該領(lǐng)域近年來(lái)得到了快速發(fā)展。
然而目前TAGs面臨三大挑戰(zhàn):
- 現(xiàn)有的TAGs數(shù)據(jù)集一般僅在節(jié)點(diǎn)上包含文本信息,而邊的信息往往被簡(jiǎn)化為二元或分類屬性。邊文本(edge text)的缺乏限制了對(duì)文本實(shí)體間復(fù)雜語(yǔ)義關(guān)系的表達(dá)和理解(比如一個(gè)實(shí)體局部的一些概念如何與另一實(shí)體的局部相關(guān)),阻礙了圖數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展;
- 文本圖數(shù)據(jù)格式和實(shí)驗(yàn)設(shè)置不統(tǒng)一,難以進(jìn)行模型之間的比較;
- 由于缺乏全面的基準(zhǔn)測(cè)試和分析,對(duì)圖模型處理邊文本信息能力仍然了解的很欠缺。
論文地址:https://arxiv.org/abs/2406.10310
代碼地址:https://github.com/Zhuofeng-Li/TEG-Benchmark
數(shù)據(jù)集地址:https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets
為了解決這一問(wèn)題,上海大學(xué)、山東大學(xué)、埃默里大學(xué)等學(xué)術(shù)機(jī)構(gòu)的研究人員聯(lián)合推出了TEG-DB,一個(gè)全面的基于文本邊的圖數(shù)據(jù)集和基準(zhǔn)測(cè)試(A Comprehensive Dataset and Benchmark of Textual-Edge Graphs)。
目前,論文已被NeurIPS Datasets and Benchmark Track 2024接收。
其主要有三個(gè)特點(diǎn):
- TEG-DB datasets提供了涵蓋4個(gè)領(lǐng)域9個(gè)統(tǒng)一格式的TEG數(shù)據(jù)集,規(guī)模從小到大不等,均包含豐富的節(jié)點(diǎn)和邊的原始文本數(shù)據(jù),這些數(shù)據(jù)集填補(bǔ)了TEGs領(lǐng)域的空白,旨在為相關(guān)研究提供重要數(shù)據(jù)集資源。
- 研究人員開發(fā)了TEGs研究的標(biāo)準(zhǔn)化流程,涵蓋數(shù)據(jù)預(yù)處理、加載和模型評(píng)估等關(guān)鍵階段。
- 研究人員進(jìn)行了廣泛的基準(zhǔn)實(shí)驗(yàn),并對(duì)基于TEGs的方法進(jìn)行了全面分析,深入探討了不同模型及不同規(guī)模pre-trained language models(PLMs)生成的嵌入的效果、在GNNs中使用分離和交織嵌入方法(seperate and entangled embedding methods)的影響、邊文本的作用以及不同領(lǐng)域數(shù)據(jù)集的影響。
TEG Datasets
為了構(gòu)建同時(shí)滿足節(jié)點(diǎn)和邊具有豐富文本信息的數(shù)據(jù)集,研究人員選擇了來(lái)自不同領(lǐng)域和規(guī)模的9個(gè)數(shù)據(jù)集。
具體包括4個(gè)來(lái)自Goodreads的圖書推薦領(lǐng)域用戶-書籍評(píng)論網(wǎng)絡(luò),2個(gè)來(lái)自Amazon的電商購(gòu)物網(wǎng)絡(luò),1個(gè)來(lái)自Semantic Scholar的學(xué)術(shù)引用網(wǎng)絡(luò),以及 2個(gè)來(lái)自Reddit和Twitter的社交網(wǎng)絡(luò)。數(shù)據(jù)集統(tǒng)計(jì)請(qǐng)見下表:
TEG Methods
基于 PLM 的范式
PLM通過(guò)大規(guī)模文本訓(xùn)練,能夠理解詞語(yǔ)、短語(yǔ)和句子的語(yǔ)義關(guān)系和上下文。
基于PLM的方法首先將TEG中節(jié)點(diǎn)和邊的文本通過(guò)PLM進(jìn)行嵌入表示 (embed),例如對(duì)于節(jié)點(diǎn)u,通過(guò)embed其自身以及所連接的邊文本,可以得到 embedding 作為節(jié)點(diǎn)u初始化特征 (feature) 。之后使用多層感知器(MLP)整合TEG中的語(yǔ)義信息,獲得最終的節(jié)點(diǎn)表征。公式如下:
圖片
其中,表示第k層MLP中節(jié)點(diǎn)u的表示,Tu和
分別為節(jié)點(diǎn)u和連接節(jié)點(diǎn)v與u邊ev,u的原始文本,節(jié)點(diǎn)v是u的鄰居,ψ為MLP的可訓(xùn)練參數(shù)。
盡管PLM顯著提升了節(jié)點(diǎn)的表征能力,但由于未考慮TEG拓?fù)浣Y(jié)構(gòu),限制了其對(duì)TEG中完整語(yǔ)義信息的捕捉。
基于 Edge-aware GNN 的范式
GNN通過(guò)消息傳遞 (message passing)來(lái)提取圖結(jié)構(gòu)中有意義的表征信息,具體定義如下:
其中,表示GNN第k層中節(jié)點(diǎn)u的表征,初始特征向量
通過(guò)使用PLM對(duì)節(jié)點(diǎn)的原始文本進(jìn)行embed獲得。從節(jié)點(diǎn)v到節(jié)點(diǎn)u的邊,其特征ev,u同樣由PLM對(duì)于邊的原始文本進(jìn)行embed得到。k代表GNN的層數(shù),N表示鄰居節(jié)點(diǎn)集合,u為目標(biāo)節(jié)點(diǎn),ω為GNN中的學(xué)習(xí)參數(shù)。
然而,這種方法存在兩個(gè)主要問(wèn)題:
- 現(xiàn)有的圖機(jī)器學(xué)習(xí)方法如GNN對(duì)于邊通?;谶B通性(即二元屬性表示是否有連接)和邊屬性(如類別或數(shù)值屬性)進(jìn)行操作,而非基于文本屬性。然而在TEG中,邊包含了豐富的文本,這便導(dǎo)致GNN遠(yuǎn)不足以處理這些復(fù)雜的文本信息所產(chǎn)生的語(yǔ)義關(guān)系。
- 基于GNN的方法在捕捉節(jié)點(diǎn)以及邊文本的上下文語(yǔ)義方面存在局限性。在TEG中,邊和節(jié)點(diǎn)的文本通常交織在一起,在嵌入過(guò)程中將它們分別進(jìn)行嵌入表示(seperate embedding),可能導(dǎo)致相互依賴關(guān)系信息的丟失,從而削弱GNN在整個(gè)消息傳遞過(guò)程中的有效性。
基于Entangled GNN的范式
傳統(tǒng)GNN方法將邊和節(jié)點(diǎn)文本分離進(jìn)行嵌入(seperate embedding),可能導(dǎo)致大量信息損失,特別是在TEG中。
例如,在一個(gè)citation network中,每個(gè)節(jié)點(diǎn)表示一篇論文,一條邊可能表示某篇論文引用、批評(píng)或使用了另一篇論文的某一部分。
因此,邊文本是不能獨(dú)立于論文節(jié)點(diǎn)存在的,這便對(duì)節(jié)點(diǎn)以及邊seperate embedding方法提出了挑戰(zhàn)。
為避免文本嵌入后節(jié)點(diǎn)和邊交互時(shí)的信息丟失,提出了一種新的方法 Entangled GNN,先將邊文本和節(jié)點(diǎn)文本Entangle在一起,再進(jìn)行embed,作為節(jié)點(diǎn)的初始化embedding。隨后對(duì)節(jié)點(diǎn)進(jìn)行消息傳遞操作。
該方法的公式如下:
其中,表示GNN第k層中節(jié)點(diǎn)u的表示。Tv、Tu和
分別表示節(jié)點(diǎn)v、節(jié)點(diǎn)u及其連接邊的原始文本。k為GNN的層數(shù),N表示鄰居節(jié)點(diǎn)集合,u為目標(biāo)節(jié)點(diǎn),ω為GNN中的學(xué)習(xí)參數(shù)。
相比于現(xiàn)有方法,該方法的優(yōu)勢(shì)在于能夠有效保留節(jié)點(diǎn)與邊之間的語(yǔ)義關(guān)系,更適合捕捉復(fù)雜的關(guān)系。
LLM as Predictor 的范式
利用LLM強(qiáng)大的文本理解能力,LLM可以直接被用于解決圖級(jí)別問(wèn)題。具體而言,為每個(gè)數(shù)據(jù)集采用一個(gè)包含相應(yīng)的節(jié)點(diǎn)和邊文本的text prompt,從而讓LLM回答特定問(wèn)題,例如節(jié)點(diǎn)分類或鏈接預(yù)測(cè)。
可以正式定義如下:
其中,f是提供圖信息的prompt,G表示一個(gè)TEG,Q為問(wèn)題。
TEG實(shí)驗(yàn)結(jié)果
Baselines
在基于PLM的范式中,使用三種不同規(guī)模的PLM對(duì)節(jié)點(diǎn)文本進(jìn)行編碼,以生成節(jié)點(diǎn)的初始嵌入。三種模型分別是:大模型GPT-3.5-TURBO,中型模型Bert-Large,以及小型模型Bert-Base。
在基于Edge-aware GNN的范式中,選擇了五種流行的Edge-aware GNN模型:GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用與PLM范式相同的三種規(guī)模的PLM對(duì)節(jié)點(diǎn)和邊的文本進(jìn)行編碼,之后這些文本嵌入作為節(jié)點(diǎn)和邊的初始特征。
在基于Entangled GNN的范式中,實(shí)驗(yàn)設(shè)置與Edge-aware GNN相同除了使用Entangled方式通過(guò)GPT-3.5-TURBO對(duì)于節(jié)點(diǎn)和邊的文本進(jìn)行編碼。
在LLM as Predictor的范式中,選擇通過(guò)API訪問(wèn)GPT-3.5-TURBO和GPT-4,以平衡性能和成本。
Node Classification
下表展示了不同數(shù)據(jù)集上節(jié)點(diǎn)分類在中的效果:
Link Prediction
下表展示了不同數(shù)據(jù)集上鏈接預(yù)測(cè)的效果:
總結(jié)
研究人員推出了首個(gè)Textual-Edge Graph基準(zhǔn),TEG-DB,旨在深入研究TEG上的圖表示學(xué)習(xí)。
與傳統(tǒng)的僅包含節(jié)點(diǎn)文本信息的TAG不同,TEG涵蓋了節(jié)點(diǎn)和邊的文本內(nèi)容。
研究人員收集并提供了9個(gè)全面的TEG數(shù)據(jù)集,以促進(jìn)NLP和GNN社區(qū)對(duì)于TEG的合作與探索,其Benchmark對(duì)各種學(xué)習(xí)方法進(jìn)行了全面評(píng)估,確認(rèn)了它們的有效性和局限性。
此外,研究人員計(jì)劃繼續(xù)挖掘和構(gòu)建更多研究導(dǎo)向的TEG,以推動(dòng)該領(lǐng)域的持續(xù)發(fā)展。
團(tuán)隊(duì)介紹
文章第一作者為上海大學(xué)的本科生李卓風(fēng),通訊作者為埃默里大學(xué)計(jì)算機(jī)系的趙亮教授。
共同作者包括埃默里大學(xué)的博士生胡云桐、張錚、凌辰,本科生 Sirui Li,中國(guó)石油大學(xué)本科生劉眾源,約翰·霍普金斯大學(xué)碩士生 Xiangnan Zhang,山東大學(xué)本科生 Zixing Gou。