自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="evnpg"><rt id="evnpg"><form id="evnpg"></form></rt></sup>

<sup id="evnpg"></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

文本圖格式大一統(tǒng)！首個(gè)大規(guī)模文本邊基準(zhǔn)TEG-DB發(fā)布 | NeurIPS 2024

作者：新智元 2024-11-08 13:30:00

人工智能新聞

最近，來(lái)自上海大學(xué)、山東大學(xué)和埃默里大學(xué)等機(jī)構(gòu)的研究人員首次提出了文本邊圖的數(shù)據(jù)集與基準(zhǔn)，包括9個(gè)覆蓋4個(gè)領(lǐng)域的大規(guī)模文本邊圖數(shù)據(jù)集，以及一套標(biāo)準(zhǔn)化的文本邊圖研究范式。該研究的發(fā)表極大促進(jìn)了文本邊圖圖表示學(xué)習(xí)的研究，有利于自然語(yǔ)言處理與圖數(shù)據(jù)挖掘領(lǐng)域的深度合作。

文本屬性圖Text-Attributed Graphs（TAGs）是一種在節(jié)點(diǎn)上有豐富文本信息的圖結(jié)構(gòu)， TAGs 廣泛應(yīng)用于社交網(wǎng)絡(luò)（social network）、引用網(wǎng)絡(luò)（citation network）和推薦系統(tǒng)（recommendation system）等實(shí)際場(chǎng)景中。由于其強(qiáng)大且通用的表達(dá)能力，該領(lǐng)域近年來(lái)得到了快速發(fā)展。

然而目前TAGs面臨三大挑戰(zhàn)：

現(xiàn)有的TAGs數(shù)據(jù)集一般僅在節(jié)點(diǎn)上包含文本信息，而邊的信息往往被簡(jiǎn)化為二元或分類屬性。邊文本（edge text）的缺乏限制了對(duì)文本實(shí)體間復(fù)雜語(yǔ)義關(guān)系的表達(dá)和理解（比如一個(gè)實(shí)體局部的一些概念如何與另一實(shí)體的局部相關(guān)），阻礙了圖數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展；
文本圖數(shù)據(jù)格式和實(shí)驗(yàn)設(shè)置不統(tǒng)一，難以進(jìn)行模型之間的比較；
由于缺乏全面的基準(zhǔn)測(cè)試和分析，對(duì)圖模型處理邊文本信息能力仍然了解的很欠缺。

論文地址：https://arxiv.org/abs/2406.10310

代碼地址：https://github.com/Zhuofeng-Li/TEG-Benchmark

數(shù)據(jù)集地址：https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets

為了解決這一問(wèn)題，上海大學(xué)、山東大學(xué)、埃默里大學(xué)等學(xué)術(shù)機(jī)構(gòu)的研究人員聯(lián)合推出了TEG-DB，一個(gè)全面的基于文本邊的圖數(shù)據(jù)集和基準(zhǔn)測(cè)試（A Comprehensive Dataset and Benchmark of Textual-Edge Graphs）。

目前，論文已被NeurIPS Datasets and Benchmark Track 2024接收。

其主要有三個(gè)特點(diǎn)：

TEG-DB datasets提供了涵蓋4個(gè)領(lǐng)域9個(gè)統(tǒng)一格式的TEG數(shù)據(jù)集，規(guī)模從小到大不等，均包含豐富的節(jié)點(diǎn)和邊的原始文本數(shù)據(jù)，這些數(shù)據(jù)集填補(bǔ)了TEGs領(lǐng)域的空白，旨在為相關(guān)研究提供重要數(shù)據(jù)集資源。
研究人員開發(fā)了TEGs研究的標(biāo)準(zhǔn)化流程，涵蓋數(shù)據(jù)預(yù)處理、加載和模型評(píng)估等關(guān)鍵階段。
研究人員進(jìn)行了廣泛的基準(zhǔn)實(shí)驗(yàn)，并對(duì)基于TEGs的方法進(jìn)行了全面分析，深入探討了不同模型及不同規(guī)模pre-trained language models（PLMs）生成的嵌入的效果、在GNNs中使用分離和交織嵌入方法（seperate and entangled embedding methods）的影響、邊文本的作用以及不同領(lǐng)域數(shù)據(jù)集的影響。

TEG Datasets

為了構(gòu)建同時(shí)滿足節(jié)點(diǎn)和邊具有豐富文本信息的數(shù)據(jù)集，研究人員選擇了來(lái)自不同領(lǐng)域和規(guī)模的9個(gè)數(shù)據(jù)集。

具體包括4個(gè)來(lái)自Goodreads的圖書推薦領(lǐng)域用戶-書籍評(píng)論網(wǎng)絡(luò)，2個(gè)來(lái)自Amazon的電商購(gòu)物網(wǎng)絡(luò)，1個(gè)來(lái)自Semantic Scholar的學(xué)術(shù)引用網(wǎng)絡(luò)，以及 2個(gè)來(lái)自Reddit和Twitter的社交網(wǎng)絡(luò)。數(shù)據(jù)集統(tǒng)計(jì)請(qǐng)見下表：

TEG Methods

基于 PLM 的范式

PLM通過(guò)大規(guī)模文本訓(xùn)練，能夠理解詞語(yǔ)、短語(yǔ)和句子的語(yǔ)義關(guān)系和上下文。

基于PLM的方法首先將TEG中節(jié)點(diǎn)和邊的文本通過(guò)PLM進(jìn)行嵌入表示 (embed)，例如對(duì)于節(jié)點(diǎn)u，通過(guò)embed其自身以及所連接的邊文本，可以得到 embedding 作為節(jié)點(diǎn)u初始化特征 (feature) 。之后使用多層感知器（MLP）整合TEG中的語(yǔ)義信息，獲得最終的節(jié)點(diǎn)表征。公式如下：

圖片

其中，表示第k層MLP中節(jié)點(diǎn)u的表示，T_u和分別為節(jié)點(diǎn)u和連接節(jié)點(diǎn)v與u邊e_v,u的原始文本，節(jié)點(diǎn)v是u的鄰居，ψ為MLP的可訓(xùn)練參數(shù)。

盡管PLM顯著提升了節(jié)點(diǎn)的表征能力，但由于未考慮TEG拓?fù)浣Y(jié)構(gòu)，限制了其對(duì)TEG中完整語(yǔ)義信息的捕捉。

基于 Edge-aware GNN 的范式

GNN通過(guò)消息傳遞（message passing）來(lái)提取圖結(jié)構(gòu)中有意義的表征信息，具體定義如下：

其中，表示GNN第k層中節(jié)點(diǎn)u的表征，初始特征向量通過(guò)使用PLM對(duì)節(jié)點(diǎn)的原始文本進(jìn)行embed獲得。從節(jié)點(diǎn)v到節(jié)點(diǎn)u的邊，其特征e_v,u同樣由PLM對(duì)于邊的原始文本進(jìn)行embed得到。k代表GNN的層數(shù)，N表示鄰居節(jié)點(diǎn)集合，u為目標(biāo)節(jié)點(diǎn)，ω為GNN中的學(xué)習(xí)參數(shù)。

然而，這種方法存在兩個(gè)主要問(wèn)題：

現(xiàn)有的圖機(jī)器學(xué)習(xí)方法如GNN對(duì)于邊通?；谶B通性（即二元屬性表示是否有連接）和邊屬性（如類別或數(shù)值屬性）進(jìn)行操作，而非基于文本屬性。然而在TEG中，邊包含了豐富的文本，這便導(dǎo)致GNN遠(yuǎn)不足以處理這些復(fù)雜的文本信息所產(chǎn)生的語(yǔ)義關(guān)系。
基于GNN的方法在捕捉節(jié)點(diǎn)以及邊文本的上下文語(yǔ)義方面存在局限性。在TEG中，邊和節(jié)點(diǎn)的文本通常交織在一起，在嵌入過(guò)程中將它們分別進(jìn)行嵌入表示（seperate embedding），可能導(dǎo)致相互依賴關(guān)系信息的丟失，從而削弱GNN在整個(gè)消息傳遞過(guò)程中的有效性。

基于Entangled GNN的范式

傳統(tǒng)GNN方法將邊和節(jié)點(diǎn)文本分離進(jìn)行嵌入（seperate embedding），可能導(dǎo)致大量信息損失，特別是在TEG中。

例如，在一個(gè)citation network中，每個(gè)節(jié)點(diǎn)表示一篇論文，一條邊可能表示某篇論文引用、批評(píng)或使用了另一篇論文的某一部分。

因此，邊文本是不能獨(dú)立于論文節(jié)點(diǎn)存在的，這便對(duì)節(jié)點(diǎn)以及邊seperate embedding方法提出了挑戰(zhàn)。

為避免文本嵌入后節(jié)點(diǎn)和邊交互時(shí)的信息丟失，提出了一種新的方法 Entangled GNN，先將邊文本和節(jié)點(diǎn)文本Entangle在一起，再進(jìn)行embed，作為節(jié)點(diǎn)的初始化embedding。隨后對(duì)節(jié)點(diǎn)進(jìn)行消息傳遞操作。

該方法的公式如下：

其中，表示GNN第k層中節(jié)點(diǎn)u的表示。T_v、T_u和分別表示節(jié)點(diǎn)v、節(jié)點(diǎn)u及其連接邊的原始文本。k為GNN的層數(shù)，N表示鄰居節(jié)點(diǎn)集合，u為目標(biāo)節(jié)點(diǎn)，ω為GNN中的學(xué)習(xí)參數(shù)。

相比于現(xiàn)有方法，該方法的優(yōu)勢(shì)在于能夠有效保留節(jié)點(diǎn)與邊之間的語(yǔ)義關(guān)系，更適合捕捉復(fù)雜的關(guān)系。

LLM as Predictor 的范式

利用LLM強(qiáng)大的文本理解能力，LLM可以直接被用于解決圖級(jí)別問(wèn)題。具體而言，為每個(gè)數(shù)據(jù)集采用一個(gè)包含相應(yīng)的節(jié)點(diǎn)和邊文本的text prompt，從而讓LLM回答特定問(wèn)題，例如節(jié)點(diǎn)分類或鏈接預(yù)測(cè)。

可以正式定義如下：

其中，f是提供圖信息的prompt，G表示一個(gè)TEG，Q為問(wèn)題。

TEG實(shí)驗(yàn)結(jié)果

Baselines

在基于PLM的范式中，使用三種不同規(guī)模的PLM對(duì)節(jié)點(diǎn)文本進(jìn)行編碼，以生成節(jié)點(diǎn)的初始嵌入。三種模型分別是：大模型GPT-3.5-TURBO，中型模型Bert-Large，以及小型模型Bert-Base。

在基于Edge-aware GNN的范式中，選擇了五種流行的Edge-aware GNN模型：GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用與PLM范式相同的三種規(guī)模的PLM對(duì)節(jié)點(diǎn)和邊的文本進(jìn)行編碼，之后這些文本嵌入作為節(jié)點(diǎn)和邊的初始特征。

在基于Entangled GNN的范式中，實(shí)驗(yàn)設(shè)置與Edge-aware GNN相同除了使用Entangled方式通過(guò)GPT-3.5-TURBO對(duì)于節(jié)點(diǎn)和邊的文本進(jìn)行編碼。

在LLM as Predictor的范式中，選擇通過(guò)API訪問(wèn)GPT-3.5-TURBO和GPT-4，以平衡性能和成本。

Node Classification

下表展示了不同數(shù)據(jù)集上節(jié)點(diǎn)分類在中的效果：

Link Prediction

下表展示了不同數(shù)據(jù)集上鏈接預(yù)測(cè)的效果：

總結(jié)

研究人員推出了首個(gè)Textual-Edge Graph基準(zhǔn)，TEG-DB，旨在深入研究TEG上的圖表示學(xué)習(xí)。

與傳統(tǒng)的僅包含節(jié)點(diǎn)文本信息的TAG不同，TEG涵蓋了節(jié)點(diǎn)和邊的文本內(nèi)容。

研究人員收集并提供了9個(gè)全面的TEG數(shù)據(jù)集，以促進(jìn)NLP和GNN社區(qū)對(duì)于TEG的合作與探索，其Benchmark對(duì)各種學(xué)習(xí)方法進(jìn)行了全面評(píng)估，確認(rèn)了它們的有效性和局限性。

此外，研究人員計(jì)劃繼續(xù)挖掘和構(gòu)建更多研究導(dǎo)向的TEG，以推動(dòng)該領(lǐng)域的持續(xù)發(fā)展。

團(tuán)隊(duì)介紹

文章第一作者為上海大學(xué)的本科生李卓風(fēng)，通訊作者為埃默里大學(xué)計(jì)算機(jī)系的趙亮教授。

共同作者包括埃默里大學(xué)的博士生胡云桐、張錚、凌辰，本科生 Sirui Li，中國(guó)石油大學(xué)本科生劉眾源，約翰·霍普金斯大學(xué)碩士生 Xiangnan Zhang，山東大學(xué)本科生 Zixing Gou。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)