自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有效融合語言模型、圖神經(jīng)網(wǎng)絡(luò),文本圖訓(xùn)練框架GLEM實(shí)現(xiàn)新SOTA

人工智能 新聞
蒙特利爾算法學(xué)習(xí)人工智能實(shí)驗室(Mila)和微軟亞洲研究院等單位提出文本圖訓(xùn)練框架 GLEM [1],能夠有效融合語言模型和圖神經(jīng)網(wǎng)絡(luò),取得 OGB 3 個數(shù)據(jù)集第一名。

圖片

  • 主要單位:蒙特利爾算法學(xué)習(xí)人工智能實(shí)驗室(Mila)、微軟亞洲研究院等
  • 論文地址:https://arxiv.org/abs/2210.14709
  • 代碼地址:https://github.com/andyjzhao/glem

引言

圖片

圖 1:(a) 文本圖 (b) 圖神經(jīng)網(wǎng)絡(luò) (c) 語言模型

圖是一種普遍的數(shù)據(jù)結(jié)構(gòu),建模了節(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系。在現(xiàn)實(shí)生活中,許多節(jié)點(diǎn)包含豐富的文本特征,這種圖被稱為文本圖 (text-attributed graph [2])。例如,論文引用網(wǎng)絡(luò)中包含了論文的文本和論文之間的引用關(guān)系;社交網(wǎng)絡(luò)中包含了用戶的文本描述和用戶直接的交互關(guān)系。在文本圖上的表示學(xué)習(xí)模型,可以應(yīng)用于節(jié)點(diǎn)分類、鏈路預(yù)測等任務(wù)中,具有廣泛的應(yīng)用價值。

文本圖包含了兩方面信息:節(jié)點(diǎn)的文本信息和節(jié)點(diǎn)之間的圖結(jié)構(gòu)信息。傳統(tǒng)文本圖的建??梢苑譃閷ξ谋窘:蛯D建模兩個角度。其中,對文本的建模方式(如圖 1.b 所示)通常采用基于 Transformer 的語言模型(LM)得到單個節(jié)點(diǎn)的文本表示,并對目標(biāo)任務(wù)進(jìn)行預(yù)測;對圖建模的建模方式(圖 1.c 所示)通常采用圖神經(jīng)網(wǎng)絡(luò)(GNN),通過消息傳播機(jī)制來建模節(jié)點(diǎn)特征之間的交互,并預(yù)測目標(biāo)任務(wù)。

然而,兩種模型只能分別建模文本圖中的文本和圖結(jié)構(gòu):傳統(tǒng)語言模型無法直接考慮結(jié)構(gòu)信息,而圖神經(jīng)網(wǎng)絡(luò)無法直接對原始文本信息進(jìn)行建模。為了同時建模文本和圖結(jié)構(gòu),研究者們嘗試將語言模型和圖神經(jīng)網(wǎng)絡(luò)融合起來,同時更新兩個模型的參數(shù)。但是,現(xiàn)有工作 [2, 3] 無法同時建模大量鄰居文本,可拓展性差,無法應(yīng)用在大文本圖上。

GLEM 框架

為了更有效的融合圖神經(jīng)網(wǎng)絡(luò)和語言模型,本文提出了 Graph and  Language Learning by Expectation Maximization (GLEM) 框架。GLEM 框架基于變分期望最大算法(Variational EM),交替學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)和語言模型,從而獲得了很好的可拓展性。

圖片

圖 2:GLEM 框架

具體地,以節(jié)點(diǎn)分類任務(wù)為例,在 E 步 , GLEM 根據(jù)真實(shí)標(biāo)簽和圖神經(jīng)網(wǎng)絡(luò)預(yù)測的偽標(biāo)簽訓(xùn)練語言模型;在 M 步 , GLEM 根據(jù)真實(shí)標(biāo)簽和語言模型預(yù)測的偽標(biāo)簽訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)。通過這種方式,GLEM 框架有效挖掘了局部的文本信息和全局的結(jié)構(gòu)交互信息。通過 GLEM 框架訓(xùn)練好的圖神經(jīng)網(wǎng)絡(luò)(GLEM-GNN)和語言模型(GLEM-LM)都可以用來預(yù)測節(jié)點(diǎn)標(biāo)簽。

實(shí)驗

論文的實(shí)驗部分主要從以下幾個方面討論 GLEM 框架:

  • 有效性:GLEM 模型能夠有效融合圖神經(jīng)網(wǎng)絡(luò)和語言模型,對兩種模型都有明顯提升。GLEM 框架在 OGB 的三個文本圖節(jié)點(diǎn)分類任務(wù)上取得了第一名。
  • 可擴(kuò)展性:通過交替訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)和語言模型,GLEM 框架可以同時訓(xùn)練大語言模型和深層 GNN。
  • 無結(jié)構(gòu)歸納推理(Structure-free inductive)能力:傳統(tǒng) GNN 模型在面對沒有圖結(jié)構(gòu)的新節(jié)點(diǎn)時表現(xiàn)不佳。相比之下,GLEM-LM 僅使用文本特征(無需圖結(jié)構(gòu))就能進(jìn)行有效推理。
  • 模型收斂:GLEM 使用 EM 迭代算法,在一些數(shù)據(jù)集上一次 EM 迭代即可收斂。

圖片

圖 3:GLEM 框架在 OGBN-arxiv, products, papers100M 數(shù)據(jù)集上取得第一名

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2022-05-20 11:01:06

模型性能框架

2023-01-02 13:12:07

模型圖像

2022-04-08 14:40:59

框架訓(xùn)練模型

2017-12-22 08:47:41

神經(jīng)網(wǎng)絡(luò)AND運(yùn)算

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語言初探

2024-04-30 14:54:10

2021-07-28 15:35:58

谷歌神經(jīng)網(wǎng)絡(luò)AI

2021-09-07 17:37:04

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-05-04 07:39:14

圖神經(jīng)網(wǎng)絡(luò)GNN

2020-09-09 10:20:48

GraphSAGE神經(jīng)網(wǎng)絡(luò)人工智能

2024-05-20 08:50:00

模型神經(jīng)網(wǎng)絡(luò)

2019-10-16 15:40:27

開源技術(shù) 軟件

2019-07-24 05:36:32

神經(jīng)網(wǎng)絡(luò)語言模型NNLM

2019-01-05 08:40:17

VGG神經(jīng)網(wǎng)絡(luò)

2025-02-25 14:13:31

2017-07-03 10:55:48

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2023-01-08 13:15:56

2023-06-09 07:29:03

模型文本document

2023-09-03 14:17:56

深度學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號