自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

KG+LM超越傳統(tǒng)架構(gòu)!海德堡提出全新圖語言模型GLM | ACL 2024

人工智能 新聞
近日,來自海德堡大學(xué)的研究人員推出了圖語言模型 (GLM),將語言模型的語言能力和知識圖譜的結(jié)構(gòu)化知識,統(tǒng)一到了同一種模型之中。

語言模型(LM)的成功似乎掩蓋了旁人的光輝。

比如知識圖譜(knowledge graph,KG),這個(gè)整合了實(shí)體關(guān)系的結(jié)構(gòu)化知識庫。

通常來說,語言模型代表了語言能力,而知識圖譜蘊(yùn)含了結(jié)構(gòu)信息。

圖片

長期以來,對于KG的利用大致可以分為兩類:

第一類是將KG線性化后嵌入LM,這種做法并不能充分利用其結(jié)構(gòu)信息;

第二類是使用圖神經(jīng)網(wǎng)絡(luò) (GNN) 來保留圖結(jié)構(gòu),但GNN無法表示文本特征,也無法與LM的預(yù)訓(xùn)練特征結(jié)合。

圖片

——有沒有辦法結(jié)合二者的優(yōu)點(diǎn),既保留預(yù)訓(xùn)練LM的能力,又充分利用KG來增強(qiáng)模型對于圖概念和三元組的理解?

當(dāng)然有,不然小編就不會寫,那就是來自海德堡大學(xué)的研究人員推出的圖語言模型 (GLM)。

圖片

論文地址:https://aclanthology.org/2024.acl-long.245.pdf

GLM集成了兩種方法的優(yōu)勢并彌補(bǔ)了它們的缺點(diǎn)。

作者使用預(yù)訓(xùn)練LM來初始化GLM的參數(shù),同時(shí)又設(shè)計(jì)新的架構(gòu)來促進(jìn)有效知識分配,這使得GLM能夠同時(shí)處理圖和文本信息。

圖片

下表展示了對關(guān)系分類任務(wù)的實(shí)證評估結(jié)果,在這些較為復(fù)雜的任務(wù)中,模型需要對來自文本和圖的互補(bǔ)輸入進(jìn)行推理,還需要推斷不存在于文本中的信息。

圖片

數(shù)據(jù)表明,GLM在監(jiān)督和零樣本測試中,超越了基于LM和GNN的基線。

此外,通過線性探測實(shí)驗(yàn),作者還證明了GLM的架構(gòu)變化與原始LM權(quán)重高度兼容。

圖語言模型

KG對于組織大量數(shù)據(jù)、促進(jìn)信息檢索,以及揭示決策中隱藏的見解至關(guān)重要。

KG擅長明確地表示多種關(guān)系,一般使用三元組的形式:節(jié)點(diǎn)是實(shí)體,邊代表它們之間的關(guān)系,以下將這類復(fù)雜的結(jié)構(gòu)統(tǒng)稱為GoT。

為了有效地使用GoT,我們需要對其組件進(jìn)行有意義的編碼。

上面提到了利用語言模型和GNN的問題,本質(zhì)上來說,兩種結(jié)構(gòu)由不同的基本原理驅(qū)動,LM利用語義編碼,而GNN執(zhí)行結(jié)構(gòu)推理。

融合

在圖語言模型的設(shè)計(jì)中,作者通過文本和結(jié)構(gòu)信息的早期融合來解決這個(gè)問題。

首先是使用LM現(xiàn)成的參數(shù)來初始化——一方面是保留預(yù)訓(xùn)練的能力,另一方面是從頭訓(xùn)練太貴了。

通過對LM的自注意力模塊進(jìn)行一些非侵入性的更改,將LM轉(zhuǎn)換為Graph Transformers(GT),同時(shí)保持與其預(yù)訓(xùn)練參數(shù)的兼容性。

圖片

在對圖進(jìn)行編碼時(shí),LM用來處理三元組線性組織的文本信息,而GT則沿著圖結(jié)構(gòu)聚合信息。

因此,GLM繼承了LM對三元組的文本理解,而其中的GT模塊允許直接執(zhí)行結(jié)構(gòu)推理,無需額外的GNN層。

重要的是,文本序列可以看作一種特殊類型的圖,在GLM中的處理模式與原始LM相同。

Graph Transformer的設(shè)計(jì)

Self-Attention中的Attention可以寫成

圖片

除了熟悉的Q、K、V, Bp表示位置編碼,而M為mask矩陣。

在Transformer中,位置編碼 (PE) 用于通知語言模型文本中token的順序。

包括絕對PE(對token的絕對位置進(jìn)行編碼)和相對PE(token對之間的相對位置),絕對PE通常加在輸入序列里面。

相對PE為每個(gè)可能的距離學(xué)習(xí)一個(gè)標(biāo)量:

圖片

對于GT來說,定義圖中節(jié)點(diǎn)或邊的絕對位置并不簡單。因此,本文采用相對PE。

給定圖中的有向非循環(huán)路徑,我們可以將路徑上任意一對節(jié)點(diǎn)之間的距離定義為節(jié)點(diǎn)之間的跳數(shù),也就獲得了相對距離(PE)。

M(mask)矩陣

在普通Transformer中,自注意力是針對輸入中所有可能的標(biāo)記對進(jìn)行計(jì)算的。

相比之下,GNN中的節(jié)點(diǎn)通常只關(guān)注相鄰節(jié)點(diǎn),更遠(yuǎn)的節(jié)點(diǎn)之間的信息必須跨多個(gè)GNN層傳播。

對于圖來說,這種稀疏消息傳遞方法有時(shí)是首選,因?yàn)樵诖蠖鄶?shù)圖中,鄰域大小隨著半徑的增加呈指數(shù)增長。

因此,在GT中引入圖先驗(yàn)可能是有益的,比如只在局部鄰域計(jì)算自注意力(M中相連的節(jié)點(diǎn)對應(yīng)設(shè)置為0)。

另一方面,事實(shí)證明,圖的全局視圖可以實(shí)現(xiàn)高效、遠(yuǎn)程的信息流。所以作者搞了兩個(gè)版本:本地GLM和全局GLM。

圖片

如上圖所示,G2G的連接就屬于全局視野,本地GLM不處理這種關(guān)系。

在本地GLM中,自注意力機(jī)制僅限于來自同一三元組的token,而外部所有token的注意力都設(shè)置為 0(因此也不需要PE)。

盡管如此,因?yàn)閷儆谝粋€(gè)概念的token可以由多個(gè)三元組共享,所以消息可以通過圖跨多個(gè)層傳播(類似于GNN中的標(biāo)準(zhǔn)消息傳遞)。

所以即使非相鄰節(jié)點(diǎn)沒有直接連接,仍然可以通過消息傳遞共享信息。

比如,在第一個(gè)本地GLM層中,「狗」通過三元組「黑色貴賓犬是一只狗」和「狗是一種動物」來表示。那么,在第二層中,「動物」的表示會受到「黑色貴賓犬」的影響,盡管兩者之間沒有直接聯(lián)系。

另外,研究人員還形式化了全局GLM,(對標(biāo)自注意力)可以將任何節(jié)點(diǎn)連接到每個(gè)其他節(jié)點(diǎn)。這種形式需要為任意token對設(shè)置PE,包括那些不在同一三元組中出現(xiàn)的token。

為此,全局GLM引入了新的圖到圖(G2G)相對位置。LM中沒有學(xué)習(xí)G2G連接的參數(shù),因此這里使用相對位置( +∞ )來初始化參數(shù),表示相應(yīng)的token出現(xiàn)在文本段落中很遠(yuǎn)的地方。

預(yù)處理

GT架構(gòu)引入了圖先驗(yàn),而LM的參數(shù)初始化賦予了其語言理解能力。

對模型進(jìn)行修改的整體思想是,三元組應(yīng)該盡可能地類似于自然語言,以使LM能夠?qū)W習(xí),而圖推理應(yīng)該通過消息傳遞來工作。

類似于LM分詞器將文本轉(zhuǎn)換為詞表中的向量,GoT也需要同樣的處理以便GLM可以像LM那樣處理圖。

為了實(shí)現(xiàn)這一點(diǎn),研究人員首先將GoT轉(zhuǎn)換為Levi圖,用包含關(guān)系名稱作為文本特征的節(jié)點(diǎn)替換每條邊,并將新節(jié)點(diǎn)連接到原始邊的頭部和尾部,保留原始邊的方向。

接下來,將每個(gè)節(jié)點(diǎn)拆分為多個(gè)節(jié)點(diǎn),每個(gè)新節(jié)點(diǎn)對應(yīng)單個(gè)token,建立新的邊連接相鄰節(jié)點(diǎn),保留原來的方向。

圖片

在這種表示中,每個(gè)三元組都表示為一個(gè)token序列,就像標(biāo)準(zhǔn)LM一樣。

位置編碼

如前所述,使用token對之間的相對位置進(jìn)行編碼,——只需將三元組視為一段文本,并計(jì)算該文本中的token距離。

請注意,轉(zhuǎn)換后GoT的token序列,不一定與輸入三元組的token序列完全相同。這里單獨(dú)對Levi圖中的每個(gè)節(jié)點(diǎn)進(jìn)行標(biāo)記,以確保多個(gè)三元組共享概念的一致。

當(dāng)token不屬于同一個(gè)三元組時(shí),為了確定這些token對之間的距離,之前的工作考慮了它們之間的最短路徑的長度。

然而,這中PE對于LM來說并不自然,因?yàn)槿绻谧疃搪窂街幸藻e誤的方向遍歷,三元組將以相反的順序出現(xiàn)。

因此,本文省略了不具有結(jié)構(gòu)信息的token之間的PE,使用局部 (?GLM) 和全局 (gGLM)。

實(shí)驗(yàn)結(jié)果

作者在兩個(gè)關(guān)系(標(biāo)簽)分類實(shí)驗(yàn)中評估了GLM嵌入GoT的能力(對哪個(gè)關(guān)系屬于給定的頭實(shí)體和尾實(shí)體進(jìn)行分類)。

ConceptNet子圖實(shí)驗(yàn)用來分析結(jié)構(gòu)圖屬性的影響;而在維基數(shù)據(jù)子圖和相關(guān)維基百科摘要的實(shí)驗(yàn),用于測試文本和圖形交錯輸入的能力。

圖片

研究人員構(gòu)建了一個(gè)平衡的英語CN子圖數(shù)據(jù)集,其中包含13,600個(gè)訓(xùn)練實(shí)例、1,700個(gè)開發(fā)實(shí)例和1,700個(gè)測試實(shí)例,并以17個(gè)不同關(guān)系作為標(biāo)簽,將要預(yù)測的關(guān)系替換為T5模型的第一個(gè)掩碼<extra_id_0>。

GLM對圖進(jìn)行編碼,為每個(gè)token生成嵌入,線性分類頭根據(jù)掩碼的嵌入給出最終預(yù)測,這里使用靜態(tài)模板來表達(dá)未屏蔽的關(guān)系。

圖片

ConceptNet子圖中關(guān)系分類的實(shí)驗(yàn)表明,GLM優(yōu)于基于LM和GNN的編碼方法——即使繼承的LM參數(shù)在GLM訓(xùn)練期間沒有更新。

維基數(shù)據(jù)子圖和維基百科摘要上的KG群體實(shí)驗(yàn)表明,GLM可以對GoT和文本的交錯輸入進(jìn)行推理,是LM所不具備的新能力。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-11-02 13:50:15

深度學(xué)習(xí)系統(tǒng)

2024-12-30 08:50:00

AI數(shù)據(jù)訓(xùn)練

2023-12-12 12:43:04

AI模型

2024-10-29 13:30:00

2023-12-20 13:34:56

2023-10-07 13:43:00

AI訓(xùn)練

2024-11-29 09:18:01

2021-12-01 10:05:12

模型人工智能計(jì)算

2024-06-17 09:00:00

2021-11-23 09:30:34

架構(gòu)AI技術(shù)

2025-04-30 03:20:00

2025-01-13 03:00:00

模型數(shù)據(jù)訓(xùn)練

2020-03-02 11:04:19

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-08-23 15:28:15

2017-07-02 05:45:50

分布式對抗網(wǎng)絡(luò)模型

2022-06-20 15:00:04

神經(jīng)網(wǎng)絡(luò)CV模型

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語言模型

2024-04-11 07:10:59

大語言模型AI人工智能

2024-03-27 13:34:00

模型訓(xùn)練

2021-07-28 15:35:58

谷歌神經(jīng)網(wǎng)絡(luò)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號