自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文本圖格式大一統(tǒng)!首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024

人工智能 新聞
最近,來(lái)自上海大學(xué)、山東大學(xué)和埃默里大學(xué)等機(jī)構(gòu)的研究人員首次提出了文本邊圖的數(shù)據(jù)集與基準(zhǔn),包括9個(gè)覆蓋4個(gè)領(lǐng)域的大規(guī)模文本邊圖數(shù)據(jù)集,以及一套標(biāo)準(zhǔn)化的文本邊圖研究范式。該研究的發(fā)表極大促進(jìn)了文本邊圖圖表示學(xué)習(xí)的研究,有利于自然語(yǔ)言處理與圖數(shù)據(jù)挖掘領(lǐng)域的深度合作。

文本屬性圖Text-Attributed Graphs(TAGs)是一種在節(jié)點(diǎn)上有豐富文本信息的圖結(jié)構(gòu), TAGs 廣泛應(yīng)用于社交網(wǎng)絡(luò)(social network)、引用網(wǎng)絡(luò)(citation network)和推薦系統(tǒng)(recommendation system)等實(shí)際場(chǎng)景中。由于其強(qiáng)大且通用的表達(dá)能力,該領(lǐng)域近年來(lái)得到了快速發(fā)展。

然而目前TAGs面臨三大挑戰(zhàn):

  1. 現(xiàn)有的TAGs數(shù)據(jù)集一般僅在節(jié)點(diǎn)上包含文本信息,而邊的信息往往被簡(jiǎn)化為二元或分類屬性。邊文本(edge text)的缺乏限制了對(duì)文本實(shí)體間復(fù)雜語(yǔ)義關(guān)系的表達(dá)和理解(比如一個(gè)實(shí)體局部的一些概念如何與另一實(shí)體的局部相關(guān)),阻礙了圖數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展;
  2. 文本圖數(shù)據(jù)格式和實(shí)驗(yàn)設(shè)置不統(tǒng)一,難以進(jìn)行模型之間的比較;
  3. 由于缺乏全面的基準(zhǔn)測(cè)試和分析,對(duì)圖模型處理邊文本信息能力仍然了解的很欠缺。

論文地址:https://arxiv.org/abs/2406.10310

代碼地址:https://github.com/Zhuofeng-Li/TEG-Benchmark

數(shù)據(jù)集地址:https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets

為了解決這一問(wèn)題,上海大學(xué)、山東大學(xué)、埃默里大學(xué)等學(xué)術(shù)機(jī)構(gòu)的研究人員聯(lián)合推出了TEG-DB,一個(gè)全面的基于文本邊的圖數(shù)據(jù)集和基準(zhǔn)測(cè)試(A Comprehensive Dataset and Benchmark of Textual-Edge Graphs)。

目前,論文已被NeurIPS Datasets and Benchmark Track 2024接收。

其主要有三個(gè)特點(diǎn):

  1. TEG-DB datasets提供了涵蓋4個(gè)領(lǐng)域9個(gè)統(tǒng)一格式的TEG數(shù)據(jù)集,規(guī)模從小到大不等,均包含豐富的節(jié)點(diǎn)和邊的原始文本數(shù)據(jù),這些數(shù)據(jù)集填補(bǔ)了TEGs領(lǐng)域的空白,旨在為相關(guān)研究提供重要數(shù)據(jù)集資源。
  2. 研究人員開發(fā)了TEGs研究的標(biāo)準(zhǔn)化流程,涵蓋數(shù)據(jù)預(yù)處理、加載和模型評(píng)估等關(guān)鍵階段。
  3. 研究人員進(jìn)行了廣泛的基準(zhǔn)實(shí)驗(yàn),并對(duì)基于TEGs的方法進(jìn)行了全面分析,深入探討了不同模型及不同規(guī)模pre-trained language models(PLMs)生成的嵌入的效果、在GNNs中使用分離和交織嵌入方法(seperate and entangled embedding methods)的影響、邊文本的作用以及不同領(lǐng)域數(shù)據(jù)集的影響。

TEG Datasets

為了構(gòu)建同時(shí)滿足節(jié)點(diǎn)和邊具有豐富文本信息的數(shù)據(jù)集,研究人員選擇了來(lái)自不同領(lǐng)域和規(guī)模的9個(gè)數(shù)據(jù)集。

具體包括4個(gè)來(lái)自Goodreads的圖書推薦領(lǐng)域用戶-書籍評(píng)論網(wǎng)絡(luò),2個(gè)來(lái)自Amazon的電商購(gòu)物網(wǎng)絡(luò),1個(gè)來(lái)自Semantic Scholar的學(xué)術(shù)引用網(wǎng)絡(luò),以及 2個(gè)來(lái)自Reddit和Twitter的社交網(wǎng)絡(luò)。數(shù)據(jù)集統(tǒng)計(jì)請(qǐng)見下表:

TEG Methods

基于 PLM 的范式

PLM通過(guò)大規(guī)模文本訓(xùn)練,能夠理解詞語(yǔ)、短語(yǔ)和句子的語(yǔ)義關(guān)系和上下文。

基于PLM的方法首先將TEG中節(jié)點(diǎn)和邊的文本通過(guò)PLM進(jìn)行嵌入表示 (embed),例如對(duì)于節(jié)點(diǎn)u,通過(guò)embed其自身以及所連接的邊文本,可以得到 embedding 圖片作為節(jié)點(diǎn)u初始化特征 (feature) 。之后使用多層感知器(MLP)整合TEG中的語(yǔ)義信息,獲得最終的節(jié)點(diǎn)表征。公式如下:

圖片圖片

其中,圖片表示第k層MLP中節(jié)點(diǎn)u的表示,Tu圖片分別為節(jié)點(diǎn)u和連接節(jié)點(diǎn)v與u邊ev,u的原始文本,節(jié)點(diǎn)v是u的鄰居,ψ為MLP的可訓(xùn)練參數(shù)。

盡管PLM顯著提升了節(jié)點(diǎn)的表征能力,但由于未考慮TEG拓?fù)浣Y(jié)構(gòu),限制了其對(duì)TEG中完整語(yǔ)義信息的捕捉。

基于 Edge-aware GNN 的范式

GNN通過(guò)消息傳遞 (message passing)來(lái)提取圖結(jié)構(gòu)中有意義的表征信息,具體定義如下:

圖片


其中,圖片表示GNN第k層中節(jié)點(diǎn)u的表征,初始特征向量圖片通過(guò)使用PLM對(duì)節(jié)點(diǎn)的原始文本進(jìn)行embed獲得。從節(jié)點(diǎn)v到節(jié)點(diǎn)u的邊,其特征ev,u同樣由PLM對(duì)于邊的原始文本進(jìn)行embed得到。k代表GNN的層數(shù),N表示鄰居節(jié)點(diǎn)集合,u為目標(biāo)節(jié)點(diǎn),ω為GNN中的學(xué)習(xí)參數(shù)。

然而,這種方法存在兩個(gè)主要問(wèn)題:

  1. 現(xiàn)有的圖機(jī)器學(xué)習(xí)方法如GNN對(duì)于邊通?;谶B通性(即二元屬性表示是否有連接)和邊屬性(如類別或數(shù)值屬性)進(jìn)行操作,而非基于文本屬性。然而在TEG中,邊包含了豐富的文本,這便導(dǎo)致GNN遠(yuǎn)不足以處理這些復(fù)雜的文本信息所產(chǎn)生的語(yǔ)義關(guān)系。
  2. 基于GNN的方法在捕捉節(jié)點(diǎn)以及邊文本的上下文語(yǔ)義方面存在局限性。在TEG中,邊和節(jié)點(diǎn)的文本通常交織在一起,在嵌入過(guò)程中將它們分別進(jìn)行嵌入表示(seperate embedding),可能導(dǎo)致相互依賴關(guān)系信息的丟失,從而削弱GNN在整個(gè)消息傳遞過(guò)程中的有效性。

基于Entangled GNN的范式

傳統(tǒng)GNN方法將邊和節(jié)點(diǎn)文本分離進(jìn)行嵌入(seperate embedding),可能導(dǎo)致大量信息損失,特別是在TEG中。

例如,在一個(gè)citation network中,每個(gè)節(jié)點(diǎn)表示一篇論文,一條邊可能表示某篇論文引用、批評(píng)或使用了另一篇論文的某一部分。

因此,邊文本是不能獨(dú)立于論文節(jié)點(diǎn)存在的,這便對(duì)節(jié)點(diǎn)以及邊seperate embedding方法提出了挑戰(zhàn)。

為避免文本嵌入后節(jié)點(diǎn)和邊交互時(shí)的信息丟失,提出了一種新的方法 Entangled GNN,先將邊文本和節(jié)點(diǎn)文本Entangle在一起,再進(jìn)行embed,作為節(jié)點(diǎn)的初始化embedding。隨后對(duì)節(jié)點(diǎn)進(jìn)行消息傳遞操作。

該方法的公式如下:

圖片


其中,圖片表示GNN第k層中節(jié)點(diǎn)u的表示。Tv、Tu圖片分別表示節(jié)點(diǎn)v、節(jié)點(diǎn)u及其連接邊的原始文本。k為GNN的層數(shù),N表示鄰居節(jié)點(diǎn)集合,u為目標(biāo)節(jié)點(diǎn),ω為GNN中的學(xué)習(xí)參數(shù)。

相比于現(xiàn)有方法,該方法的優(yōu)勢(shì)在于能夠有效保留節(jié)點(diǎn)與邊之間的語(yǔ)義關(guān)系,更適合捕捉復(fù)雜的關(guān)系。

LLM as Predictor 的范式

利用LLM強(qiáng)大的文本理解能力,LLM可以直接被用于解決圖級(jí)別問(wèn)題。具體而言,為每個(gè)數(shù)據(jù)集采用一個(gè)包含相應(yīng)的節(jié)點(diǎn)和邊文本的text prompt,從而讓LLM回答特定問(wèn)題,例如節(jié)點(diǎn)分類或鏈接預(yù)測(cè)。

可以正式定義如下:

其中,f是提供圖信息的prompt,G表示一個(gè)TEG,Q為問(wèn)題。

TEG實(shí)驗(yàn)結(jié)果

Baselines

在基于PLM的范式中,使用三種不同規(guī)模的PLM對(duì)節(jié)點(diǎn)文本進(jìn)行編碼,以生成節(jié)點(diǎn)的初始嵌入。三種模型分別是:大模型GPT-3.5-TURBO,中型模型Bert-Large,以及小型模型Bert-Base。

在基于Edge-aware GNN的范式中,選擇了五種流行的Edge-aware GNN模型:GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用與PLM范式相同的三種規(guī)模的PLM對(duì)節(jié)點(diǎn)和邊的文本進(jìn)行編碼,之后這些文本嵌入作為節(jié)點(diǎn)和邊的初始特征。

在基于Entangled GNN的范式中,實(shí)驗(yàn)設(shè)置與Edge-aware GNN相同除了使用Entangled方式通過(guò)GPT-3.5-TURBO對(duì)于節(jié)點(diǎn)和邊的文本進(jìn)行編碼。

在LLM as Predictor的范式中,選擇通過(guò)API訪問(wèn)GPT-3.5-TURBO和GPT-4,以平衡性能和成本。

Node Classification

下表展示了不同數(shù)據(jù)集上節(jié)點(diǎn)分類在中的效果:

Link Prediction

下表展示了不同數(shù)據(jù)集上鏈接預(yù)測(cè)的效果:

總結(jié)

研究人員推出了首個(gè)Textual-Edge Graph基準(zhǔn),TEG-DB,旨在深入研究TEG上的圖表示學(xué)習(xí)。

與傳統(tǒng)的僅包含節(jié)點(diǎn)文本信息的TAG不同,TEG涵蓋了節(jié)點(diǎn)和邊的文本內(nèi)容。

研究人員收集并提供了9個(gè)全面的TEG數(shù)據(jù)集,以促進(jìn)NLP和GNN社區(qū)對(duì)于TEG的合作與探索,其Benchmark對(duì)各種學(xué)習(xí)方法進(jìn)行了全面評(píng)估,確認(rèn)了它們的有效性和局限性。

此外,研究人員計(jì)劃繼續(xù)挖掘和構(gòu)建更多研究導(dǎo)向的TEG,以推動(dòng)該領(lǐng)域的持續(xù)發(fā)展。

團(tuán)隊(duì)介紹

文章第一作者為上海大學(xué)的本科生李卓風(fēng),通訊作者為埃默里大學(xué)計(jì)算機(jī)系的趙亮教授。

共同作者包括埃默里大學(xué)的博士生胡云桐、張錚、凌辰,本科生 Sirui Li,中國(guó)石油大學(xué)本科生劉眾源,約翰·霍普金斯大學(xué)碩士生 Xiangnan Zhang,山東大學(xué)本科生 Zixing Gou。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-20 09:43:56

模型訓(xùn)練

2017-12-15 17:14:10

云端

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2014-07-29 13:25:43

WWDC 2014 S

2025-03-18 09:29:54

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數(shù)據(jù)

2023-07-17 08:03:03

Shell腳本SQL

2024-12-10 09:49:53

2025-02-03 12:16:01

視頻生成AI

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2024-03-20 09:29:41

2025-03-13 10:18:42

2024-09-10 10:07:19

2025-01-17 10:30:00

2017-06-27 10:49:48

Intel 300Wi-Fi芯片

2024-01-24 09:24:19

自動(dòng)駕駛算法

2023-09-14 09:44:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)