圖遇見(jiàn)大型語(yǔ)言模型:進(jìn)展與未來(lái)方向的研究 原創(chuàng)
摘要:在現(xiàn)實(shí)世界的應(yīng)用中,如引文網(wǎng)絡(luò)、社交網(wǎng)絡(luò)和生物數(shù)據(jù)等領(lǐng)域,圖(graph)在表示和分析復(fù)雜關(guān)系方面起著至關(guān)重要的作用。最近,大型語(yǔ)言模型(Large Language Models, LLMs)在眾多領(lǐng)域取得了顯著成功,并且也被應(yīng)用于與圖相關(guān)的任務(wù)中,以超越傳統(tǒng)的基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNNs)的方法,并實(shí)現(xiàn)了最先進(jìn)的性能。本綜述首先對(duì)現(xiàn)有整合LLMs與圖的各類方法進(jìn)行了全面回顧與分析。首先,我們提出了一種新的分類法,根據(jù)LLMs在圖相關(guān)任務(wù)中所扮演的角色(即增強(qiáng)器、預(yù)測(cè)器和對(duì)齊組件)將現(xiàn)有方法組織為三個(gè)類別。隨后,我們沿著該分類法的三個(gè)類別系統(tǒng)性地調(diào)研了具有代表性的方法。最后,我們討論了當(dāng)前研究存在的局限性,并指出了未來(lái)研究的有前景方向。相關(guān)論文已進(jìn)行總結(jié),并將在以下網(wǎng)址持續(xù)更新:https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。
1、 引言
圖或圖論,在當(dāng)今世界的眾多領(lǐng)域中扮演著基礎(chǔ)性角色,特別是在科技、科學(xué)和物流領(lǐng)域[引用文獻(xiàn):Ji等人,2021年]。圖數(shù)據(jù)展現(xiàn)了節(jié)點(diǎn)之間的結(jié)構(gòu)特性,從而揭示了圖內(nèi)各組成部分之間的關(guān)系。許多真實(shí)世界的數(shù)據(jù)集,比如引文網(wǎng)絡(luò)[引用文獻(xiàn):Sen等人,2008年]、社交網(wǎng)絡(luò)[引用文獻(xiàn):Hamilton等人,2017年]以及分子結(jié)構(gòu)數(shù)據(jù)[引用文獻(xiàn):Wu等人,2018年],本質(zhì)上都可以用圖的形式來(lái)表示。
為了處理與圖相關(guān)的各種任務(wù),圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNNs)[引用文獻(xiàn):Kipf和Welling,2016;Velickovic等人,2018年]已經(jīng)成為處理和分析圖數(shù)據(jù)的最熱門(mén)選擇之一。GNNs的主要目標(biāo)是通過(guò)節(jié)點(diǎn)間的遞歸消息傳遞和聚合機(jī)制,為不同類型的下游任務(wù)獲取節(jié)點(diǎn)、邊或整個(gè)圖級(jí)別的具有表達(dá)力的表示形式。這些機(jī)制允許GNNs能夠捕獲和傳播節(jié)點(diǎn)特征信息,從而實(shí)現(xiàn)對(duì)圖結(jié)構(gòu)數(shù)據(jù)的有效學(xué)習(xí)和推斷。
近年來(lái),諸如Transformer[ Vaswani等人,2017年]、BERT[ Kenton和Toutanova,2019年]、GPT[ Brown等人,2020年]及其變體等大型語(yǔ)言模型(LLMs)取得了重大進(jìn)展。這些LLMs能夠在稍作適應(yīng)后輕松應(yīng)用于多種下游任務(wù),在諸如情感分析、機(jī)器翻譯和文本分類等各種自然語(yǔ)言處理任務(wù)上展現(xiàn)出卓越性能[Zhao等人,2023d]。盡管它們的核心關(guān)注點(diǎn)一直是文本序列,但越來(lái)越多的研究興趣在于增強(qiáng)LLMs的多模態(tài)能力,使其能夠處理包括圖[Chai等人,2023年]、圖像[Zhang等人,2023b年]和視頻[Zhang等人,2023a年]在內(nèi)的多樣化數(shù)據(jù)類型。
LLMs在圖相關(guān)任務(wù)中的應(yīng)用日益顯著。借助LLMs,人們與圖形交互的方式發(fā)生了顯著轉(zhuǎn)變,特別是在包含帶有文本屬性節(jié)點(diǎn)的圖形上。如圖1所示,圖與LLMs的集成在眾多圖領(lǐng)域的各種下游任務(wù)中都展現(xiàn)出了成功案例。將LLMs與傳統(tǒng)的GNNs結(jié)合使用可以互惠互利并增強(qiáng)圖學(xué)習(xí)效果。雖然GNNs擅長(zhǎng)捕捉結(jié)構(gòu)信息,但其主要依賴于語(yǔ)義受限的嵌入作為節(jié)點(diǎn)特征,這限制了它們表達(dá)節(jié)點(diǎn)全部復(fù)雜性的能力。而引入LLMs可以使GNNs得到更強(qiáng)的節(jié)點(diǎn)特征,有效捕獲結(jié)構(gòu)和上下文兩方面的信息。另一方面,LLMs在編碼文本方面表現(xiàn)出色,但在捕捉圖形數(shù)據(jù)中存在的結(jié)構(gòu)信息時(shí)往往較弱。將GNNs與LLMs相結(jié)合,既可以利用LLMs強(qiáng)大的文本理解能力,又能發(fā)揮GNNs捕獲結(jié)構(gòu)關(guān)系的優(yōu)勢(shì),從而實(shí)現(xiàn)更全面、強(qiáng)大的圖學(xué)習(xí)。例如,TAPE[He等人,2023年]利用由LLMs生成的與節(jié)點(diǎn)(如論文)相關(guān)的語(yǔ)義知識(shí)來(lái)改進(jìn)GNNs中初始節(jié)點(diǎn)嵌入的質(zhì)量。此外,InstructGLM[葉等人,2023年]用LLMs替換了GNNs中的預(yù)測(cè)器,通過(guò)展平圖形和設(shè)計(jì)指令提示等技術(shù),利用自然語(yǔ)言的強(qiáng)大表征能力。MoleculeSTM[劉等人,2022年]將GNNs和LLMs對(duì)齊到同一向量空間中,將文本知識(shí)(即關(guān)于分子的信息)引入圖中,從而提升推理能力。
圖1:在眾多不同的圖領(lǐng)域中,圖與大型語(yǔ)言模型(LLMs)的整合在多種下游任務(wù)中均展現(xiàn)出成功的應(yīng)用。
顯然,從不同角度來(lái)看,LLMs對(duì)圖相關(guān)任務(wù)產(chǎn)生了重大影響。為了獲得更好的系統(tǒng)化概述,參照Chen等人[2023a年]的研究,我們?cè)趫D2中構(gòu)建了第一級(jí)分類體系,按照LLMs在整個(gè)模型流程中所扮演的角色(即增強(qiáng)器、預(yù)測(cè)器和對(duì)齊組件)進(jìn)行分類。我們進(jìn)一步細(xì)化了這個(gè)分類體系,并對(duì)初始類別引入了更多粒度。
動(dòng)機(jī):盡管LLMs越來(lái)越多地應(yīng)用于圖相關(guān)任務(wù),但這一快速發(fā)展的領(lǐng)域仍缺乏系統(tǒng)的綜述。Zhang等人[2023d年]開(kāi)展了一項(xiàng)前瞻性的調(diào)查,發(fā)表了一篇視角論文,探討了圖形與LLMs融合面臨的挑戰(zhàn)和機(jī)遇。Liu等人[2023b年]提供了另一項(xiàng)相關(guān)調(diào)查,總結(jié)了現(xiàn)有的圖基模型,并概述了預(yù)訓(xùn)練和適應(yīng)策略。然而,兩者在綜合覆蓋范圍和專門(mén)針對(duì)LLMs如何增強(qiáng)圖的分類體系方面均存在不足。相比之下,我們專注于圖和文本模態(tài)共存的場(chǎng)景,并提出了一個(gè)更為細(xì)致的分類體系,系統(tǒng)地回顧和總結(jié)了當(dāng)前LLMs在圖相關(guān)任務(wù)上的技術(shù)現(xiàn)狀。
貢獻(xiàn):本工作的貢獻(xiàn)可以從以下三個(gè)方面概括。1)結(jié)構(gòu)化的分類體系:通過(guò)一個(gè)結(jié)構(gòu)化的分類體系,展示了該領(lǐng)域的廣泛概覽,并將現(xiàn)有工作分為四個(gè)類別(見(jiàn)圖2)。2)全面的回顧:基于提出的分類體系,系統(tǒng)地勾勒出了LLMs在圖相關(guān)任務(wù)方面的當(dāng)前研究進(jìn)展。3)未來(lái)方向的探討:我們討論了現(xiàn)有工作中存在的局限性,并指出了可能的未來(lái)研究方向。
2、前言
在本節(jié)中,我們將首先介紹與本次調(diào)查密切相關(guān)的兩個(gè)關(guān)鍵領(lǐng)域的基本概念,即圖神經(jīng)網(wǎng)絡(luò)(GNNs)和大型語(yǔ)言模型(LLMs)。接下來(lái),我們將簡(jiǎn)要介紹新提出的分類體系。
2.1 圖神經(jīng)網(wǎng)絡(luò)
定義:大多數(shù)現(xiàn)存的GNN遵循消息傳遞范式,其中包括消息聚合和特征更新過(guò)程,例如GCN[Kipf和Welling,2016年]和GAT[Velickovic等人,2018年]。它們通過(guò)迭代地聚合鄰域信息并對(duì)它們進(jìn)行非線性函數(shù)更新來(lái)生成節(jié)點(diǎn)表示。前向傳播過(guò)程可定義為:
其中,hi(l) 是第 l 層節(jié)點(diǎn) i 的特征向量,Ni 是節(jié)點(diǎn) i 的鄰居節(jié)點(diǎn)集合。函數(shù) M 表示聚合鄰居信息的消息傳遞函數(shù),U 表示輸入中心節(jié)點(diǎn)特征和鄰居節(jié)點(diǎn)特征的更新函數(shù)。通過(guò)堆疊多層,GNNs能夠從更高階的鄰居那里聚合信息。
(注釋:這個(gè)公式描述的是圖神經(jīng)網(wǎng)絡(luò)(GNN)中的一個(gè)典型的消息傳遞(message passing)和節(jié)點(diǎn)更新(node updating)過(guò)程。這個(gè)過(guò)程是GNN的核心機(jī)制,用于在圖中的節(jié)點(diǎn)之間傳播和聚合信息。下面是對(duì)這個(gè)公式的詳細(xì)解釋:
1. h(il):
- 這是第l層中節(jié)點(diǎn)i的特征向量。在GNN的每一層,每個(gè)節(jié)點(diǎn)都會(huì)有一個(gè)特征向量,它包含了節(jié)點(diǎn)的信息以及從鄰居節(jié)點(diǎn)聚合過(guò)來(lái)的信息。
2. hi(l-1):
- 這是第l-1層中節(jié)點(diǎn)i的特征向量。在GNN中,節(jié)點(diǎn)的特征向量會(huì)隨著層數(shù)的增加而更新,新的特征向量是基于前一層的特征向量和鄰居節(jié)點(diǎn)的信息計(jì)算得到的。
3. Ni:
- 這是節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合。在圖中,每個(gè)節(jié)點(diǎn)都有一些直接相連的節(jié)點(diǎn),這些節(jié)點(diǎn)被稱為鄰居節(jié)點(diǎn)。鄰居節(jié)點(diǎn)的信息對(duì)于更新當(dāng)前節(jié)點(diǎn)的特征向量至關(guān)重要。
4. M:
- 這是消息傳遞函數(shù),用于聚合鄰居節(jié)點(diǎn)的信息。這個(gè)函數(shù)定義了如何將鄰居節(jié)點(diǎn)的特征向量合并到當(dāng)前節(jié)點(diǎn)的特征向量中。常見(jiàn)的聚合函數(shù)包括求和(sum)、取平均(mean)、最大值(max)等。
5. U:
- 這是更新函數(shù),它使用中心節(jié)點(diǎn)的特征和鄰居節(jié)點(diǎn)的特征作為輸入來(lái)更新節(jié)點(diǎn)的特征向量。更新函數(shù)通常還會(huì)結(jié)合一些激活函數(shù)(如ReLU)來(lái)增加模型的非線性。
6. h(jl-1) | vj ∈ Ni:
- 這表示對(duì)于節(jié)點(diǎn)i的所有鄰居節(jié)點(diǎn)vj,取它們?cè)诘趌-1層的特征向量h(jl-1)。這是消息傳遞的一部分,其中每個(gè)鄰居節(jié)點(diǎn)的特征向量都會(huì)根據(jù)某種規(guī)則被聚合。
7. stacking multiple layers:
- 通過(guò)堆疊多層GNN,可以聚合來(lái)自高階鄰居(不僅是直接鄰居,還包括鄰居的鄰居等)的信息。每一層都會(huì)從前一層的特征向量和鄰居節(jié)點(diǎn)的信息中學(xué)習(xí)新的特征表示。
總的來(lái)說(shuō),這個(gè)公式展示了GNN如何通過(guò)消息傳遞和節(jié)點(diǎn)更新機(jī)制來(lái)學(xué)習(xí)圖中節(jié)點(diǎn)的高階表示。通過(guò)這種方式,GNN能夠捕捉圖中的結(jié)構(gòu)信息和節(jié)點(diǎn)間的復(fù)雜關(guān)系,從而在各種圖相關(guān)任務(wù)中取得良好的性能。)
圖預(yù)訓(xùn)練和提示:盡管GNN已在圖機(jī)器學(xué)習(xí)中取得一定成果,但它們通常需要昂貴的標(biāo)注,并且難以泛化至未見(jiàn)過(guò)的數(shù)據(jù)。為了解決這些問(wèn)題,圖預(yù)訓(xùn)練旨在提取通用知識(shí),使得圖模型能更容易地處理不同任務(wù),而無(wú)需大量標(biāo)注成本。當(dāng)前主流的圖預(yù)訓(xùn)練方法可以分為對(duì)比學(xué)習(xí)和生成式方法兩大類。例如,GraphCL[You等人,2020年]和GCA[Zhu等人,2021年]遵循對(duì)比學(xué)習(xí)框架,最大化兩個(gè)增強(qiáng)視圖之間的相似性。Sun等人[2023b年]將對(duì)比思想擴(kuò)展到了超圖領(lǐng)域。而GraphMAE[Hou等人,2022年]、S2GAE[Tan等人,2023a年]和WGDN[Cheng等人,2023年]則采用了掩蔽圖的某個(gè)成分并嘗試重構(gòu)原始數(shù)據(jù)的方法。典型的“預(yù)訓(xùn)練與微調(diào)”學(xué)習(xí)方案基于預(yù)訓(xùn)練任務(wù)與下游任務(wù)在某些內(nèi)在任務(wù)空間上共享共同性的假設(shè)。而在自然語(yǔ)言處理領(lǐng)域,研究人員逐漸關(guān)注一種新的范式——“預(yù)訓(xùn)練、提示及微調(diào)”,其目的是通過(guò)重新構(gòu)造輸入數(shù)據(jù)以適應(yīng)預(yù)設(shè)任務(wù)。這一想法也自然地被應(yīng)用到了圖學(xué)習(xí)領(lǐng)域。GPPT[Sun等人,2022年]首先通過(guò)掩蔽邊預(yù)測(cè)進(jìn)行圖模型預(yù)訓(xùn)練,然后將獨(dú)立節(jié)點(diǎn)轉(zhuǎn)換為token對(duì),并將下游分類任務(wù)重新表述為邊預(yù)測(cè)任務(wù)。此外,All in One[Sun等人,2023a年]提出了一個(gè)多任務(wù)提示框架,統(tǒng)一了圖提示和語(yǔ)言提示的格式。
2.2 大型語(yǔ)言模型
定義:雖然目前對(duì)于大型語(yǔ)言模型(LLMs)尚無(wú)明確的定義[Shayegani等人,2023年],但在本調(diào)查中我們給出一個(gè)針對(duì)所提及LLMs的具體定義。關(guān)于LLMs的兩項(xiàng)有影響力的調(diào)查[Zhao等人,2023d;Yang等人,2023年]從模型規(guī)模和訓(xùn)練方法的角度區(qū)分了LLMs和預(yù)訓(xùn)練語(yǔ)言模型(PLMs)。具體來(lái)說(shuō),LLMs是指那些經(jīng)過(guò)大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的巨型語(yǔ)言模型(即十億級(jí)別參數(shù)量),而PLMs則是指早期預(yù)訓(xùn)練的、具有適度參數(shù)規(guī)模(即百萬(wàn)級(jí)別)的模型,這些模型能夠在特定任務(wù)數(shù)據(jù)上輕松進(jìn)一步微調(diào),以實(shí)現(xiàn)對(duì)下游任務(wù)更好的表現(xiàn)。鑒于GNNs參數(shù)量相對(duì)較小,結(jié)合GNNs和LLMs時(shí)往往不需要具有大型參數(shù)的LLMs。因此,我們遵循Liu等人[2023b]的思路,在本調(diào)查中將LLMs的定義擴(kuò)展到包括先前調(diào)查中定義的LLMs和PLMs兩類模型。
進(jìn)化歷程:LLMs可以根據(jù)非自回歸和自回歸語(yǔ)言建模的方式劃分為兩大類別。非自回歸LLMs通常專注于自然語(yǔ)言理解,采用“掩碼語(yǔ)言建?!弊鳛轭A(yù)訓(xùn)練任務(wù),而自回歸LLMs更側(cè)重于自然語(yǔ)言生成,經(jīng)常利用“下一個(gè)令牌預(yù)測(cè)”目標(biāo)作為其基礎(chǔ)任務(wù)。像BERT[Kenton和Toutanova,2019年]、SciBERT[Beltagy等人,2019年]和RoBERTa[Liu等人,2019年]等經(jīng)典的僅編碼器模型屬于非自回歸LLMs類別。最近,自回歸LLMs持續(xù)發(fā)展,例如基于編碼器-解碼器結(jié)構(gòu)構(gòu)建的Flan-T5[Chung等人,2022年]和ChatGLM[Zeng等人,2022年],以及基于僅解碼器架構(gòu)的GPT-3[Brown等人,2020年]、PaLM[Chowdhery等人,2022年]、Galactica[Taylor等人,2022年]和LLaMA[Touvron等人,2023年]。值得注意的是,LLMs在架構(gòu)和訓(xùn)練方法上的進(jìn)步催生了新興能力[Wei等人,2022a],即通過(guò)諸如上下文學(xué)習(xí)[Radford等人,2021年;Dong等人,2022年]和鏈?zhǔn)剿季S[Wei等人,2022b]等技術(shù),在小樣本或零樣本場(chǎng)景下處理復(fù)雜任務(wù)的能力。
2.3 提出的分類體系
我們提出一個(gè)分類體系(如圖2所示),該體系將涉及圖形和文本兩種模態(tài)的代表性技術(shù)組織成三大主要類別:(1) LLM作為增強(qiáng)器,其中LLMs被用來(lái)提升GNNs的分類性能;(2) LLM作為預(yù)測(cè)器,其中LLMs利用輸入的圖結(jié)構(gòu)信息進(jìn)行預(yù)測(cè);(3) GNN與LLM的對(duì)齊,通過(guò)對(duì)齊技術(shù),LLMs語(yǔ)義上增強(qiáng)GNNs的功能。我們注意到,在某些模型中,由于LLMs參與程度較低,很難將其歸入這三大主要類別中。因此,我們將它們單獨(dú)歸類為“其他”類別,并在圖2中提供了它們的具體作用。例如,LLM-GNN [Chen等人,2023b]主動(dòng)選擇節(jié)點(diǎn)供ChatGPT注釋,從而通過(guò)將LLM作為一個(gè)標(biāo)注器來(lái)增強(qiáng)GNN的訓(xùn)練。GPT4GNAS [Wang等人,2023a]在圖神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索任務(wù)中視LLM為一個(gè)經(jīng)驗(yàn)豐富的控制器,它利用GPT-4 [OpenAI, 2023]探索搜索空間并生成新的GNN架構(gòu)。此外,ENG [Yu等人,2023]使LLM成為一個(gè)樣本生成器,用于生成帶有標(biāo)簽的額外訓(xùn)練樣本,為GNN提供充分的監(jiān)督信號(hào)。
接下來(lái)的章節(jié)中,我們將按照提出的分類體系中的三大主要類別,分別對(duì)將LLMs融入圖相關(guān)任務(wù)的方法進(jìn)行全面綜述。
圖2:借助大型語(yǔ)言模型(LLMs)解決圖任務(wù)的模型分類體系及其代表性例子
(注釋:使用大型語(yǔ)言模型(LLMs)解決圖任務(wù)的模型分類體系,并且提供了一些代表性的例子。這個(gè)分類體系將模型分為幾個(gè)主要類別,每個(gè)類別都有其特定的角色和應(yīng)用場(chǎng)景。
1. 基于解釋的模型(Explanation-based):
- 這一類模型使用LLMs來(lái)生成解釋或理由,以支持圖任務(wù)的決策過(guò)程。例如,TAPE和LLMRec可能生成為什么某個(gè)節(jié)點(diǎn)對(duì)分類或預(yù)測(cè)特別重要的理由。
2. LLM作為增強(qiáng)器(LLM as Enhancer):
- 在這一類中,LLMs被用來(lái)增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)(GNNs)的性能。GIANT和SimTeG等模型可能會(huì)結(jié)合LLMs的文本理解能力和GNNs的圖結(jié)構(gòu)處理能力來(lái)提高整體性能。
3.基于嵌入的模型(Embedding-based):
- 這些模型使用LLMs來(lái)生成或改進(jìn)節(jié)點(diǎn)或圖的嵌入表示。WalkLM和OFA等模型可能會(huì)利用LLMs來(lái)學(xué)習(xí)更豐富的節(jié)點(diǎn)特征表示,這些表示可以用于各種下游任務(wù)。
4. 凍結(jié)(Frozen):
- 這一類涉及到使用預(yù)訓(xùn)練的LLMs,但不對(duì)它們的權(quán)重進(jìn)行進(jìn)一步的訓(xùn)練或微調(diào)。這些模型可能直接使用LLMs的輸出作為特征或輔助信息。
5. 扁平化調(diào)整(Flatten-based Tuning):
- 這些方法可能涉及將LLMs的輸出進(jìn)行扁平化處理,然后對(duì)這些特征進(jìn)行調(diào)整或微調(diào),以適應(yīng)特定的圖任務(wù)。
6. LLM作為預(yù)測(cè)器(LLM as Predictor):
- 在這一類中,LLMs被直接用作預(yù)測(cè)器,而不依賴于GNNs。GIT-Mol和GraphLLM等模型可能會(huì)直接使用LLMs來(lái)預(yù)測(cè)節(jié)點(diǎn)屬性或圖的特性。
7. 基于GNN的模型(GNN-based):
- 這些模型結(jié)合了GNNs和LLMs,以利用兩者的優(yōu)勢(shì)。GraphGPT和DGTL等模型可能會(huì)使用GNNs來(lái)處理圖結(jié)構(gòu)數(shù)據(jù),同時(shí)使用LLMs來(lái)處理文本信息。
8. 對(duì)稱的(Symmetrical):
- 這一類可能指的是同時(shí)使用LLMs和GNNs的模型,兩者在模型中具有相似的角色或重要性。
9. GNN-LLM對(duì)齊(GNN-LLM Alignment):
- 這些模型專注于對(duì)齊GNNs和LLMs的輸出,以便兩者可以更好地協(xié)同工作。GraphFormers和GRAD等模型可能會(huì)探索如何整合GNNs的空間信息和LLMs的語(yǔ)言信息。
10. LLM作為注釋器(LLM as Annotator):
- 這一類模型使用LLMs來(lái)為圖數(shù)據(jù)提供注釋或標(biāo)簽,可能用于半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)場(chǎng)景。
11. LLM作為控制器(LLM as Controller):
- 在這一類中,LLMs可能用來(lái)指導(dǎo)或控制GNNs的行為,例如決定哪些部分的圖數(shù)據(jù)更重要或應(yīng)該被重點(diǎn)關(guān)注。
12. LLM作為樣本生成器(LLM as Sample Generator):
- 這些模型使用LLMs來(lái)生成圖任務(wù)的樣本數(shù)據(jù),可能用于數(shù)據(jù)增強(qiáng)或模擬場(chǎng)景。)
3、LLM作為增強(qiáng)器
GNNs已成為分析圖結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大工具。然而,主流基準(zhǔn)數(shù)據(jù)集(如Cora[楊等人,2016年]和Ogbn-Arxiv[胡等人,2020年])采用淺層嵌入方法(如詞袋、跳字模型[Mikolov等人,2013年]或TF-IDF[Salton和Buckley,1988年])來(lái)編碼TAG中的文本信息,這不可避免地限制了GNNs在TAG上的性能。LLM作為增強(qiáng)器的方法對(duì)應(yīng)于借助強(qiáng)大的LLMs提高節(jié)點(diǎn)嵌入的質(zhì)量。由此產(chǎn)生的嵌入會(huì)被附加到圖結(jié)構(gòu)中,供任何GNNs使用,或者直接輸入下游分類器以完成各種任務(wù)。我們將這些方法自然地分為兩類:基于解釋的增強(qiáng)和基于嵌入的增強(qiáng),取決于它們是否利用LLMs生成額外的文本信息。
3.1 基于解釋的增強(qiáng)
為了豐富文本屬性,基于解釋的增強(qiáng)方法專注于利用LLMs強(qiáng)大的零樣本能力捕獲高層次信息。如圖3(a)所示,通常它們會(huì)促使LLMs生成語(yǔ)義豐富的附加信息,如解釋、知識(shí)實(shí)體和偽標(biāo)簽。典型流程如下:
其中ti為原始文本屬性,p是設(shè)計(jì)好的文本提示,ei為L(zhǎng)LMs生成的附加文本輸出,xi∈RD和X∈RN×D分別表示維度為D的增強(qiáng)后的節(jié)點(diǎn)i的初始節(jié)點(diǎn)嵌入和嵌入矩陣,同時(shí)利用鄰接矩陣A∈RN×N通過(guò)GNNs獲取節(jié)點(diǎn)表示H∈RN×d,其中d是表示的維度。例如,TAPE[何等人,2023年]是基于解釋增強(qiáng)方法的先驅(qū)工作,它促使LLMs生成解釋和偽標(biāo)簽以增強(qiáng)文本屬性。之后,相對(duì)小型的語(yǔ)言模型會(huì)在原始文本數(shù)據(jù)和解釋上進(jìn)行微調(diào),以編碼文本語(yǔ)義信息作為初始節(jié)點(diǎn)嵌入。陳等人[2023a年]探究了LLMs在圖學(xué)習(xí)中的潛在能力。他們首先比較了可觀察嵌入的LLMs與淺層嵌入方法,然后提出KEA來(lái)豐富文本屬性。KEA促使LLMs生成一系列知識(shí)實(shí)體及其文本描述,并通過(guò)微調(diào)的預(yù)訓(xùn)練語(yǔ)言模型和深度句子嵌入模型進(jìn)行編碼。LLM4Mol[錢(qián)等人,2023年]試圖利用LLMs協(xié)助分子性質(zhì)預(yù)測(cè)。具體來(lái)說(shuō),它利用LLMs生成原始SMILES的語(yǔ)義豐富的解釋,然后微調(diào)一個(gè)小規(guī)模的語(yǔ)言模型來(lái)進(jìn)行下游任務(wù)。LLMRec[魏等人,2023年]旨在利用LLMs解決圖推薦系統(tǒng)中的數(shù)據(jù)稀疏性和數(shù)據(jù)質(zhì)量問(wèn)題。它通過(guò)LLMs強(qiáng)化用戶-項(xiàng)目交互邊,并生成用戶的/項(xiàng)目的側(cè)信息,最后使用輕量級(jí)的GNN[何等人,2020年]編碼增強(qiáng)后的推薦網(wǎng)絡(luò)。
圖3:LLM作為增強(qiáng)器方法的示意圖:
a) 基于解釋的增強(qiáng),該方法利用LLMs生成文本屬性的解釋以增強(qiáng)文本嵌入;
b) 嵌入式增強(qiáng),該方法直接通過(guò)LLMs獲取文本嵌入作為初始節(jié)點(diǎn)嵌入。
(注釋:這兩種方法都旨在改善圖任務(wù)中文本屬性的處理。
1. 基于解釋的增強(qiáng)(a) Explanation-based enhancement):
- 在這種方法中,LLMs被用來(lái)生成文本屬性的解釋。這些解釋是對(duì)文本內(nèi)容的額外描述,可以幫助模型更好地理解文本的含義和上下文。
- 生成的解釋可以與原始的文本嵌入(由傳統(tǒng)的語(yǔ)言模型(LM)生成)結(jié)合,從而增強(qiáng)節(jié)點(diǎn)的表示。這種增強(qiáng)的表示可以更好地捕捉文本屬性中的復(fù)雜性和深度。
- 這種增強(qiáng)的文本嵌入隨后可以用于圖神經(jīng)網(wǎng)絡(luò)(GNNs),以提供更豐富的節(jié)點(diǎn)特征,幫助GNNs在圖任務(wù)中做出更準(zhǔn)確的預(yù)測(cè)。
2. 基于嵌入的增強(qiáng)(b) Embedding-based enhancement):
- 在這種方法中,LLMs直接用來(lái)生成文本嵌入,這些嵌入作為圖任務(wù)中節(jié)點(diǎn)的初始表示。
- 與基于解釋的方法不同,這里L(fēng)LMs生成的嵌入不需要與任何其他文本嵌入結(jié)合,而是直接作為節(jié)點(diǎn)的特征輸入到GNNs中。
- 這種方法利用了LLMs強(qiáng)大的語(yǔ)義理解能力,直接將文本數(shù)據(jù)轉(zhuǎn)換為嵌入空間中的向量表示,這些向量能夠捕捉文本的復(fù)雜語(yǔ)義信息。
圖片中的圖示還展示了一些可選操作,如調(diào)整(Tuned)或凍結(jié)(Frozen)LLMs的權(quán)重。調(diào)整意味著對(duì)LLMs進(jìn)行進(jìn)一步的訓(xùn)練或微調(diào),以適應(yīng)特定的圖任務(wù)。凍結(jié)則意味著使用LLMs的預(yù)訓(xùn)練權(quán)重,不對(duì)其進(jìn)行任何修改。
這兩種方法都利用了LLMs在處理文本數(shù)據(jù)方面的優(yōu)勢(shì),通過(guò)增強(qiáng)文本屬性的表示來(lái)提升圖學(xué)習(xí)任務(wù)的性能。通過(guò)這種方式,可以將LLMs的語(yǔ)言理解能力與GNNs的結(jié)構(gòu)學(xué)習(xí)能力結(jié)合起來(lái),以處理更復(fù)雜的圖任務(wù)。)
3.2 嵌入式增強(qiáng)
參見(jiàn)圖3(b),基于嵌入式的增強(qiáng)方法直接利用LLMs輸出文本嵌入作為GNN訓(xùn)練的初始節(jié)點(diǎn)嵌入:
增強(qiáng):xi = fLLM(ti)
圖學(xué)習(xí):H = fGNN(X, A)
此類方法要求使用具有嵌入可見(jiàn)性或開(kāi)源的LLMs,因?yàn)樗枰苯釉L問(wèn)文本嵌入并結(jié)合結(jié)構(gòu)信息對(duì)LLMs進(jìn)行微調(diào)。當(dāng)前許多先進(jìn)LLMs(例如GPT4[OpenAI, 2023年]和PaLM[Chowdhery等人,2022年])是閉源的,并僅提供在線服務(wù)。嚴(yán)格的限制使得研究人員無(wú)法訪問(wèn)其參數(shù)和輸出的嵌入。這類方法大多采用級(jí)聯(lián)形式,并利用結(jié)構(gòu)信息輔助語(yǔ)言模型在預(yù)訓(xùn)練或微調(diào)階段捕捉信息,以便最大程度地應(yīng)用于大規(guī)模應(yīng)用。典型的例子是GALM[Xie等人,2023年],它在一個(gè)給定的大規(guī)模圖譜語(yǔ)料庫(kù)上預(yù)訓(xùn)練PLMs和GNN聚合器,以捕獲對(duì)大量應(yīng)用最有價(jià)值的信息,然后針對(duì)特定下游應(yīng)用進(jìn)一步微調(diào)框架以提升性能。
有幾項(xiàng)研究致力于通過(guò)在LLMs的微調(diào)階段融入結(jié)構(gòu)信息來(lái)生成節(jié)點(diǎn)嵌入。代表性的是GIANT[Chien等人,2021年],它通過(guò)一種新型的自我監(jiān)督學(xué)習(xí)框架微調(diào)語(yǔ)言模型,該框架采用XR-Transformers解決鏈接預(yù)測(cè)上的極端多標(biāo)簽分類問(wèn)題。SimTeG[段等人,2023年]和TouchUp-G[朱等人,2023年]遵循相似的方式,兩者都通過(guò)類似鏈接預(yù)測(cè)的方法微調(diào)PLMs,幫助它們感知結(jié)構(gòu)信息。兩者之間的微妙差異在于,TouchUp-G在鏈接預(yù)測(cè)時(shí)使用負(fù)采樣,而SimTeG則采用參數(shù)高效的微調(diào)方式加速微調(diào)過(guò)程。G-Prompt[黃等人,2023b年]在PLMs末端引入了一個(gè)圖適配器,以幫助提取具有圖意識(shí)的節(jié)點(diǎn)特征。一旦訓(xùn)練完成,任務(wù)特定的提示被整合進(jìn)來(lái),以產(chǎn)生針對(duì)各種下游任務(wù)的可解釋節(jié)點(diǎn)表征。WalkLM[Tan等人,2023b年]是一種無(wú)監(jiān)督的通用圖表示學(xué)習(xí)方法,第一步是在圖上生成帶屬性的隨機(jī)游走并通過(guò)自動(dòng)化文本化程序組成大致有意義的文本序列;第二步則是利用文本序列微調(diào)LLM并從LLM中提取表征。METERN[金等人,2023b年]引入關(guān)系先驗(yàn)令牌來(lái)捕獲關(guān)系特異性信號(hào),并使用一個(gè)語(yǔ)言編碼器跨關(guān)系建模共享知識(shí)。LEADING[薛等人,2023年]有效地微調(diào)LLMs并將LLM中的風(fēng)險(xiǎn)知識(shí)轉(zhuǎn)移到下游GNN模型中,從而降低計(jì)算成本和內(nèi)存開(kāi)銷。
最近的一項(xiàng)工作OFA[劉等人,2023a年]嘗試提出一個(gè)通用圖學(xué)習(xí)框架,該框架可以利用單一圖模型執(zhí)行適應(yīng)性下游預(yù)測(cè)任務(wù)。它使用人類可讀的文本描述所有節(jié)點(diǎn)和邊,并通過(guò)LLMs將不同領(lǐng)域的它們編碼到同一空間中。隨后,通過(guò)在輸入圖中插入任務(wù)特定的提示子結(jié)構(gòu),框架能夠適應(yīng)性地執(zhí)行不同的任務(wù)。
3.3 討論
LLM作為增強(qiáng)器的方法在TAG上展現(xiàn)出卓越的性能,能夠有效捕獲文本和結(jié)構(gòu)信息。此外,它們還表現(xiàn)出強(qiáng)大的靈活性,因?yàn)镚NNs和LLMs是即插即用的,允許它們利用最新技術(shù)來(lái)解決遇到的問(wèn)題。這類方法(特別是基于解釋的增強(qiáng)方法)的另一個(gè)優(yōu)點(diǎn)是它們開(kāi)辟了使用閉源LLMs輔助圖相關(guān)任務(wù)的道路。然而,盡管一些論文聲稱其具有良好的可擴(kuò)展性,實(shí)際上,當(dāng)處理大規(guī)模數(shù)據(jù)集時(shí),LLM作為增強(qiáng)器的方法確實(shí)涉及顯著的開(kāi)銷。以基于解釋的方法為例,對(duì)于包含N個(gè)節(jié)點(diǎn)的圖,它們需要向LLMs的API查詢N次,這的確是一項(xiàng)巨大的成本。
4、 LLM作為預(yù)測(cè)器
這個(gè)類別背后的核心理念是利用LLMs在統(tǒng)一的生成范式下,對(duì)廣泛的與圖相關(guān)的任務(wù)(如分類和推理等)進(jìn)行預(yù)測(cè)。然而,將LLMs應(yīng)用于圖模態(tài)時(shí),面臨獨(dú)特挑戰(zhàn),主要原因在于圖數(shù)據(jù)通常缺乏直接轉(zhuǎn)化為順序文本的簡(jiǎn)單方式,因?yàn)椴煌膱D以不同的方式定義結(jié)構(gòu)和特征。在本節(jié)中,我們將模型大致分為基于展平和平面GNN預(yù)測(cè)兩類,依據(jù)是否利用GNNs為L(zhǎng)LMs提取結(jié)構(gòu)特征。
(注釋:這個(gè)類別的核心思想是使用大型語(yǔ)言模型(LLMs)來(lái)預(yù)測(cè)和處理各種與圖相關(guān)的任務(wù),比如圖的分類和邏輯推理等。但是,當(dāng)我們想用LLMs來(lái)處理圖數(shù)據(jù)時(shí),會(huì)遇到一些特別的挑戰(zhàn)。這是因?yàn)閳D的結(jié)構(gòu)和特征通常是很復(fù)雜的,而且不像文本那樣可以很容易地轉(zhuǎn)換成一連串的文字。所以,在這部分內(nèi)容中,我們會(huì)看到兩種主要的方法來(lái)解決這個(gè)問(wèn)題。第一種是“基于展平”的方法,它可能意味著把圖的結(jié)構(gòu)和特征轉(zhuǎn)換成一種可以被LLMs處理的形式。第二種是“平面GNN預(yù)測(cè)”,這種方法使用圖神經(jīng)網(wǎng)絡(luò)(GNNs)來(lái)幫助LLMs理解圖的結(jié)構(gòu)特征。這兩種方法都是為了讓LLMs更好地處理和預(yù)測(cè)圖數(shù)據(jù)。)
4.1 基于展平的預(yù)測(cè)
目前大多數(shù)利用LLMs作為預(yù)測(cè)器的嘗試采用了將圖轉(zhuǎn)化為文本描述的策略,這有助于LLMs通過(guò)文本序列直接處理圖數(shù)據(jù)。如圖4(a)所示,基于展平的預(yù)測(cè)通常包括兩個(gè)步驟:(1) 使用展平函數(shù)Flat(·)將圖結(jié)構(gòu)轉(zhuǎn)化為節(jié)點(diǎn)或令牌的序列Gseq;(2) 然后應(yīng)用解析函數(shù)Parse(·)從LLMs生成的輸出中檢索預(yù)測(cè)標(biāo)簽,如下所示:
圖結(jié)構(gòu)展平:Gseq = Flat(V, E, T ,J )
預(yù)測(cè):Y? = Parse(fLLM(Gseq, p))
其中,V、E、T 和J 分別代表節(jié)點(diǎn)集合、邊集合、節(jié)點(diǎn)文本屬性集合和邊文本屬性集合。p 表示當(dāng)前圖任務(wù)的指令提示,而Y? 是預(yù)測(cè)得到的標(biāo)簽。
(注釋:在許多嘗試中,人們通常把圖數(shù)據(jù)轉(zhuǎn)換成一連串的文字描述,這樣大型語(yǔ)言模型(LLMs)就可以直接處理這些圖數(shù)據(jù)了。這個(gè)過(guò)程大致分為兩步,就像圖4(a)展示的那樣:
1. 圖結(jié)構(gòu)展平:首先,我們使用一個(gè)叫做“展平函數(shù)”的東西,它把復(fù)雜的圖結(jié)構(gòu)(包括節(jié)點(diǎn)、邊、節(jié)點(diǎn)上的文本信息和邊上的文本信息)轉(zhuǎn)換成一序列的節(jié)點(diǎn)或令牌,我們把這串東西叫做Gseq。
2. 預(yù)測(cè):然后,我們用一個(gè)叫做“解析函數(shù)”的東西,從LLMs根據(jù)Gseq和一些提示(這些提示告訴我們LLMs我們現(xiàn)在要做什么任務(wù))生成的輸出中提取出預(yù)測(cè)的標(biāo)簽。
用數(shù)學(xué)符號(hào)來(lái)表示就是:
- 我們先得到一個(gè)序列Gseq,它是由節(jié)點(diǎn)V、邊E、節(jié)點(diǎn)的文本屬性集合T和邊的文本屬性集合J通過(guò)展平函數(shù)Flat(·)得到的。
- 接著,我們用LLMs的函數(shù)fLLM,輸入是Gseq和任務(wù)提示p,最后得到一個(gè)預(yù)測(cè)的輸出Y?。
這里的V、E、T和J分別代表圖中的節(jié)點(diǎn)、邊、節(jié)點(diǎn)的文本屬性和邊的文本屬性。p是我們給LLMs的指令提示,告訴它我們現(xiàn)在要完成什么任務(wù)。Y?是我們想要預(yù)測(cè)的結(jié)果,也就是標(biāo)簽。)
圖4展示了LLM作為預(yù)測(cè)器的方法示意圖:
a) 展平策略為基礎(chǔ)的預(yù)測(cè)方法,通過(guò)不同的展平策略將圖形結(jié)構(gòu)與LLM相結(jié)合;
b) 基于GNN的預(yù)測(cè)方法,利用GNN捕獲結(jié)構(gòu)信息供LLM使用。
(注釋:兩種使用大型語(yǔ)言模型(LLMs)作為預(yù)測(cè)器的方法
1. 基于展平的預(yù)測(cè)(a) Flatten-based prediction):
- 在這種方法中,圖結(jié)構(gòu)通過(guò)某種展平策略被轉(zhuǎn)換成一個(gè)序列,這樣LLMs就可以處理它了。展平函數(shù)(Flat(·))將圖的節(jié)點(diǎn)和邊轉(zhuǎn)換成一個(gè)線性序列,可能還包括節(jié)點(diǎn)和邊的文本屬性。
- 這個(gè)序列(Gseq)隨后被輸入到LLM中,LLM根據(jù)這個(gè)序列生成預(yù)測(cè)結(jié)果。這個(gè)過(guò)程可能涉及到一些額外的步驟,比如解析LLM的輸出來(lái)提取最終的預(yù)測(cè)標(biāo)簽(Y?)。
2. 基于GNN的預(yù)測(cè)(b) GNN-based prediction):
- 在這種方法中,圖神經(jīng)網(wǎng)絡(luò)(GNNs)首先被用來(lái)捕捉圖的結(jié)構(gòu)信息。GNNs通過(guò)消息傳遞和節(jié)點(diǎn)更新機(jī)制來(lái)學(xué)習(xí)節(jié)點(diǎn)的嵌入表示,這些嵌入表示包含了圖的結(jié)構(gòu)特征。
- 學(xué)習(xí)到的嵌入表示(可能是1跳或2跳鄰居的信息)隨后被用作LLM的輸入。這樣,LLM可以利用GNNs提供的結(jié)構(gòu)信息來(lái)進(jìn)行預(yù)測(cè)。
一些具體的步驟和組件:
- 圖結(jié)構(gòu)和文本屬性(Graph Structure & Attributes):這是原始圖數(shù)據(jù)的兩個(gè)組成部分,結(jié)構(gòu)特征描述了節(jié)點(diǎn)和邊如何連接,而文本屬性可能包含了節(jié)點(diǎn)和邊的描述或標(biāo)簽。
- 展平(Flattening):這是將圖數(shù)據(jù)轉(zhuǎn)換成序列的過(guò)程,以便LLMs可以處理。
- GNN序列(GNN Sequence):這是通過(guò)GNN處理后得到的節(jié)點(diǎn)序列,它包含了結(jié)構(gòu)信息。
- LLM:這是大型語(yǔ)言模型,它接收展平后的序列或GNN的嵌入表示,并生成預(yù)測(cè)結(jié)果。
這兩種方法都試圖將圖數(shù)據(jù)轉(zhuǎn)換為L(zhǎng)LMs可以處理的格式,但它們?cè)谌绾螠?zhǔn)備輸入數(shù)據(jù)和如何利用LLMs方面有所不同?;谡蛊降姆椒ㄖ苯犹幚韴D的結(jié)構(gòu),而基于GNN的方法則先使用GNNs來(lái)提取結(jié)構(gòu)信息,然后將這些信息傳遞給LLMs。)
模型的解析策略通常標(biāo)準(zhǔn)化。例如,考慮到LLM(大型語(yǔ)言模型)的輸出往往包含其推理和邏輯過(guò)程,特別是在鏈?zhǔn)剿伎迹–oT)場(chǎng)景中,一些研究工作[如Fatemi等人,2023;Zhao等人,2023c;Chen等人,2023a;Guo等人,2023;Liu和Wu,2023;Wang等人,2023b]利用正則表達(dá)式從輸出中提取預(yù)測(cè)標(biāo)簽。某些模型[如Chen等人,2023a;Fatemi等人,2023;Wang等人,2023b;Chai等人,2023;Huang等人,2023a]進(jìn)一步將LLM的解碼溫度設(shè)置為0,以減少LLM預(yù)測(cè)的變異性并獲得更可靠的結(jié)果。另一個(gè)方向是將圖任務(wù)形式化為多選問(wèn)答問(wèn)題[Robinson和Wingate,2022],其中LLM被指示在提供的選項(xiàng)中選擇正確答案。例如,一些研究[如Huang等人,2023a;Hu等人,2023;Shi等人,2023]通過(guò)在零樣本環(huán)境下給出選項(xiàng)并在提示中附加指令來(lái)約束LLM的輸出格式,比如“對(duì)于你的答案,不要給出任何推理或邏輯”。此外,還有一些方法,如GIMLET[Zhao等人,2023a]和InstructGLM[葉等人,2023],對(duì)LLM進(jìn)行微調(diào)以直接輸出預(yù)測(cè)標(biāo)簽,使它們無(wú)需額外的解析步驟就能提供準(zhǔn)確的預(yù)測(cè)。
(注釋:在這些模型中,研究人員通常會(huì)采用一些標(biāo)準(zhǔn)的方法來(lái)從大型語(yǔ)言模型(LLMs)的輸出中提取有用的信息。因?yàn)長(zhǎng)LMs在解決問(wèn)題時(shí)會(huì)展示它們的思考過(guò)程,就像人在解決問(wèn)題時(shí)會(huì)一步步地推理一樣。有些研究是這樣的:
- 他們會(huì)用類似“查找和替換”這樣的技術(shù)(正則表達(dá)式)來(lái)找出LLMs輸出中的關(guān)鍵信息,也就是預(yù)測(cè)的答案。
- 有些模型會(huì)讓LLMs的輸出更加確定,不那么隨機(jī)。他們通過(guò)調(diào)整一個(gè)叫做“解碼溫度”的設(shè)置來(lái)實(shí)現(xiàn)這一點(diǎn),把它設(shè)為0,這樣LLMs就只給出最可能的答案,而不是很多可能性。
- 另一種方法是把圖的問(wèn)題變成一個(gè)多項(xiàng)選擇題,然后讓LLMs從幾個(gè)選項(xiàng)中選擇正確的答案。這就像是在問(wèn)LLM:“在這些選項(xiàng)中,哪一個(gè)是對(duì)的?”
- 有些研究還會(huì)特別告訴LLMs不需要給出解釋,只需要直接給出答案。這樣,輸出的答案就很簡(jiǎn)單,不需要再進(jìn)行額外的處理。
- 最后,也有一些方法會(huì)特別訓(xùn)練LLMs,讓它們直接輸出預(yù)測(cè)的標(biāo)簽,這樣就不用再去分析LLMs說(shuō)了什么,直接就能得到預(yù)測(cè)結(jié)果。
所以,這些方法都是在嘗試讓LLMs更好地理解和解決圖相關(guān)的問(wèn)題,并且盡可能直接和清晰地給出答案。)
相比于解析策略,展平策略展現(xiàn)出顯著的變化性。接下來(lái),我們將依據(jù)LLM參數(shù)是否更新這一條件,組織整理展平方法。
LLM凍結(jié)狀態(tài)下
GPT4Graph[Guo等人,2023]利用諸如GML[Himsolt, 1997]和GraphML[Brandes等人,2013]等圖形描述語(yǔ)言來(lái)表示圖形結(jié)構(gòu)。這些語(yǔ)言提供了標(biāo)準(zhǔn)化的語(yǔ)法和語(yǔ)義,用于表示圖形內(nèi)的節(jié)點(diǎn)和邊。受語(yǔ)言學(xué)句法樹(shù)[Chiswell和Hodges, 2007]啟發(fā),GraphText[Zhao等人,2023c]利用圖-句法樹(shù)將圖形結(jié)構(gòu)轉(zhuǎn)換為一系列節(jié)點(diǎn)序列,然后將其輸入到LLM中進(jìn)行無(wú)需訓(xùn)練的圖形推理。此外,ReLM[Shi等人,2023]使用簡(jiǎn)化的分子輸入線性表達(dá)系統(tǒng)(SMILES)字符串,為分子圖形結(jié)構(gòu)提供一維線性化表示。圖形數(shù)據(jù)也可以通過(guò)鄰接矩陣和鄰接表等方式表示。若干方法[Wang等人,2023b; Fatemi等人,2023; Liu和Wu, 2023; Zhang等人,2023c]直接采用數(shù)值化組織的節(jié)點(diǎn)列表和邊列表,以純文本方式描繪圖形數(shù)據(jù)。GraphTMI[Das等人,2023]還進(jìn)一步探索了不同模態(tài),如motif和圖像,以便將圖形數(shù)據(jù)與LLM相結(jié)合。
(注釋:在大型語(yǔ)言模型(LLM)的凍結(jié)狀態(tài)下,意味著我們不訓(xùn)練或調(diào)整LLM的內(nèi)部參數(shù),而是直接使用它來(lái)處理圖數(shù)據(jù)。這里有幾種不同的方法來(lái)表示圖,讓LLM能夠理解并進(jìn)行推理:
1. 圖形描述語(yǔ)言:
- 有些研究,比如GPT4Graph,使用特殊的圖形描述語(yǔ)言(比如GML和GraphML)來(lái)描述圖的結(jié)構(gòu)。這些語(yǔ)言有自己的規(guī)則和語(yǔ)義,就像我們用單詞和句子來(lái)交流一樣,它們用來(lái)描述節(jié)點(diǎn)和邊的關(guān)系。
2. 圖-句法樹(shù)轉(zhuǎn)換:
- GraphText這種方法受到語(yǔ)言學(xué)中句法樹(shù)的啟發(fā),它把圖的結(jié)構(gòu)轉(zhuǎn)換成一系列的節(jié)點(diǎn)序列,就像句子中的單詞順序一樣,然后這些序列可以直接輸入到LLM中,讓LLM進(jìn)行圖推理,而不需要額外的訓(xùn)練。
3. 一維線性化表示:
- ReLM這種方法用一種簡(jiǎn)化的分子表示系統(tǒng)(SMILES)來(lái)表示分子圖。這種表示就像一個(gè)線性的字符串,可以很容易地被LLM讀取和理解。
4. 鄰接矩陣和鄰接表:
- 有些方法通過(guò)鄰接矩陣或鄰接表來(lái)表示圖,這些都是數(shù)學(xué)上常用的表示圖的方式。鄰接矩陣是一個(gè)表格,顯示了圖中每對(duì)節(jié)點(diǎn)之間是否有邊連接;鄰接表則是列出了每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)。
5. 數(shù)值化的節(jié)點(diǎn)列表和邊列表:
- 還有一些方法直接用數(shù)值列表來(lái)表示圖中的節(jié)點(diǎn)和邊,就像列出了一個(gè)清單一樣。這種純文本的描述方式可以讓LLM直接讀取圖的信息。
6. 多模態(tài)表示:
- GraphTMI這種方法探索了不同的模態(tài),比如圖的motif(圖案)和圖像,來(lái)結(jié)合圖數(shù)據(jù)和LLM。這意味著它不僅僅使用文本,還可能使用圖像等其他類型的數(shù)據(jù)來(lái)幫助LLM更好地理解圖。
這些方法都是在嘗試用不同的方式把圖的信息轉(zhuǎn)換成LLM能夠處理的格式,讓LLM能夠讀取和推理圖數(shù)據(jù),而不需要對(duì)LLM進(jìn)行任何訓(xùn)練或調(diào)整。)
另一方面,使用自然敘述表達(dá)圖形結(jié)構(gòu)的方法也正在穩(wěn)步發(fā)展。陳等人[2023a]和胡等人[2023]都將引用網(wǎng)絡(luò)的結(jié)構(gòu)信息整合到提示中,這是通過(guò)明確地使用單詞"引用(cite)"表示邊關(guān)系,并使用論文索引或標(biāo)題表示節(jié)點(diǎn)實(shí)現(xiàn)的。而黃等人[2023a]并未使用“引用(cite)”來(lái)表示邊,而是通過(guò)列舉當(dāng)前節(jié)點(diǎn)隨機(jī)選擇的k跳鄰居來(lái)描述關(guān)系。此外,GPT4Graph[Guo等人,2023]和陳等人[2023a]模仿了GNN的聚合行為,總結(jié)當(dāng)前鄰居的屬性作為額外輸入,旨在提供更多結(jié)構(gòu)信息。值得注意的是,F(xiàn)atemi等人[2023]探討了多種節(jié)點(diǎn)和邊的表示方法,總共檢驗(yàn)了11種策略。例如,他們使用索引或字母表示節(jié)點(diǎn),并應(yīng)用箭頭或括號(hào)來(lái)表示邊的關(guān)系。
(注釋:在描述圖結(jié)構(gòu)時(shí),研究人員也在嘗試用更自然的語(yǔ)言來(lái)表達(dá)。這里有一些具體的方法:
1.整合引用網(wǎng)絡(luò)信息:
- 陳等人和胡等人在他們的研究中,把引用網(wǎng)絡(luò)的結(jié)構(gòu)信息放到了提示中。他們用“引用”這個(gè)詞來(lái)明確表示節(jié)點(diǎn)之間的連接關(guān)系,就像論文之間互相引用一樣。節(jié)點(diǎn)則用論文的索引或標(biāo)題來(lái)表示。
2. 描述節(jié)點(diǎn)的鄰居:
- 黃等人則用了一種不同的方法。他們不是用“引用”來(lái)表示連接,而是列出一個(gè)節(jié)點(diǎn)的幾跳鄰居,這樣也能表達(dá)節(jié)點(diǎn)之間的關(guān)系。
3. 模仿GNN的聚合行為:
- GPT4Graph和陳等人的研究中,他們模仿了圖神經(jīng)網(wǎng)絡(luò)(GNN)的聚合行為。他們總結(jié)了一個(gè)節(jié)點(diǎn)的鄰居們的屬性,然后把這些信息作為額外的輸入,幫助模型更好地理解圖的結(jié)構(gòu)。
4. 探索不同的表示策略:
- Fatemi等人的研究中,他們探索了很多不同的表示方法。他們用索引或字母來(lái)表示節(jié)點(diǎn),用箭頭或括號(hào)來(lái)表示節(jié)點(diǎn)之間的邊關(guān)系,總共測(cè)試了11種不同的策略。
所以,這些方法都是在嘗試用更自然和直觀的方式來(lái)描述圖結(jié)構(gòu),讓大型語(yǔ)言模型(LLM)能夠更好地理解和處理圖數(shù)據(jù)。)
LLM調(diào)優(yōu)方面
GIMLET[Zhao等人,2023a]采用了基于距離的位置嵌入技術(shù),以增強(qiáng)LLM對(duì)圖形結(jié)構(gòu)的認(rèn)知能力。在對(duì)圖形進(jìn)行位置編碼時(shí),GIMLET定義了兩個(gè)節(jié)點(diǎn)之間的相對(duì)位置為它們?cè)趫D形中的最短距離,這一做法在圖形變換器領(lǐng)域的文獻(xiàn)中得到了廣泛應(yīng)用[如Ying等人,2021的研究]。類似于黃等人[2023a]的工作,InstructGLM[葉等人,2023]設(shè)計(jì)了一系列基于最大跳層級(jí)別的可擴(kuò)展提示。這些提示允許中心論文節(jié)點(diǎn)通過(guò)運(yùn)用自然語(yǔ)言表述的連接關(guān)系,與其任何指定跳層級(jí)別的鄰居建立直接關(guān)聯(lián),從而能夠與任意期望的鄰近層級(jí)建立聯(lián)系。
(注釋:在調(diào)整大型語(yǔ)言模型(LLM)以更好地處理圖網(wǎng)絡(luò)方面,有幾種方法:
1. 基于距離的位置嵌入(GIMLET):
- GIMLET這種方法用了一個(gè)技巧,就是給圖中的每個(gè)節(jié)點(diǎn)一個(gè)特別的位置編碼,這個(gè)編碼是基于節(jié)點(diǎn)之間最短的距離。就像是給每個(gè)節(jié)點(diǎn)在圖里的位置分配一個(gè)坐標(biāo),這樣模型就能更容易理解哪些節(jié)點(diǎn)是“近”的,哪些是“遠(yuǎn)”的。這個(gè)方法在圖處理的研究中已經(jīng)被證明是很有用的。想象一下,當(dāng)你想教會(huì)一個(gè)模型理解一張復(fù)雜的網(wǎng)狀結(jié)構(gòu)時(shí),就像教一個(gè)人理解一個(gè)社交網(wǎng)絡(luò)或化學(xué)分子結(jié)構(gòu)那樣,位置信息至關(guān)重要。GIMLET就是教模型關(guān)注節(jié)點(diǎn)間的相對(duì)位置,它把每對(duì)節(jié)點(diǎn)之間的距離看作是在這個(gè)圖形中的“最短路徑”,這樣一來(lái),模型就能更準(zhǔn)確地把握不同節(jié)點(diǎn)間的關(guān)系遠(yuǎn)近。這種思想在處理圖形數(shù)據(jù)的圖形變換器技術(shù)中非常流行,比如Ying等人在2021年的研究就曾探討過(guò)類似的方法。
2. 可擴(kuò)展提示(InstructGLM):
- InstructGLM設(shè)計(jì)了一系列提示,這些提示可以讓模型理解圖中的節(jié)點(diǎn)不僅與它的直接鄰居有關(guān)系,而且可以與更遠(yuǎn)的節(jié)點(diǎn)建立聯(lián)系。就像是告訴模型,一個(gè)節(jié)點(diǎn)可以通過(guò)幾個(gè)“跳”(或者說(shuō)是中間節(jié)點(diǎn))與圖中的其他節(jié)點(diǎn)連接起來(lái)。這樣,模型就能理解圖中更復(fù)雜的結(jié)構(gòu)和關(guān)系了。這個(gè)方法有點(diǎn)像制作一份詳細(xì)的導(dǎo)航指南,只不過(guò)它是為大型語(yǔ)言模型定制的。他們?cè)O(shè)計(jì)了一系列靈活的提示模板,這些模板能夠逐級(jí)展開(kāi),就像是層層遞進(jìn)的地圖索引一樣。這樣,模型就能輕松跟隨指引,從一個(gè)中心節(jié)點(diǎn)出發(fā),無(wú)論要探索幾步之遙的鄰居節(jié)點(diǎn)還是更遠(yuǎn)層次的關(guān)系節(jié)點(diǎn),都能通過(guò)自然語(yǔ)言表達(dá)的連接線索直達(dá)目的地。這樣做的好處是,模型不僅能理解單個(gè)節(jié)點(diǎn)的文本信息,還能結(jié)合圖形結(jié)構(gòu)的上下文關(guān)系,實(shí)現(xiàn)更加精準(zhǔn)的信息處理和推理。
這些方法都是在嘗試讓LLM更好地理解圖的結(jié)構(gòu),通過(guò)給節(jié)點(diǎn)加上位置信息或者通過(guò)設(shè)計(jì)特別的提示來(lái)描述節(jié)點(diǎn)之間的關(guān)系。這樣,當(dāng)LLM需要處理圖數(shù)據(jù)時(shí),它就能更準(zhǔn)確地理解圖中的信息,并做出更好的預(yù)測(cè)或決策。)
4.2 基于GNN的預(yù)測(cè)
GNN(圖神經(jīng)網(wǎng)絡(luò))已在通過(guò)遞歸的信息交換和節(jié)點(diǎn)間聚合,理解圖形結(jié)構(gòu)方面展現(xiàn)出卓越的能力。如圖4(b)所示,與基于展平預(yù)測(cè)(即將圖形數(shù)據(jù)轉(zhuǎn)化為文本描述作為L(zhǎng)LM的輸入)相比,基于GNN的預(yù)測(cè)充分利用GNN的優(yōu)勢(shì),將圖形數(shù)據(jù)中存在的內(nèi)在結(jié)構(gòu)特性和依賴關(guān)系與LLM相結(jié)合,使LLM具有結(jié)構(gòu)感知能力,如下所示:
圖形學(xué)習(xí):H = fGNN(X, A)
預(yù)測(cè):Y~ = Parse(fLLM(H, p))
其中X代表節(jié)點(diǎn)嵌入矩陣,A為鄰接矩陣,H表示與圖形相關(guān)的結(jié)構(gòu)感知嵌入。基于GNN的預(yù)測(cè)同樣依賴于一個(gè)解析器從LLM中提取輸出。然而,將GNN表示集成到LLM中通常需要調(diào)整,在訓(xùn)練過(guò)程中提供理想的輸出,這使得LLM的預(yù)測(cè)格式更容易標(biāo)準(zhǔn)化。
(注釋:圖神經(jīng)網(wǎng)絡(luò)(GNN)就像是一個(gè)專門(mén)研究圖形的專家,它很擅長(zhǎng)通過(guò)在圖里的節(jié)點(diǎn)之間傳遞和分享信息來(lái)理解圖形的結(jié)構(gòu)。就像你在朋友圈里聽(tīng)說(shuō)了一些八卦,然后通過(guò)這些信息來(lái)了解你的朋友們都是誰(shuí),他們之間是什么關(guān)系。
在圖4(b)中展示的基于GNN的預(yù)測(cè)方法,就是先用GNN來(lái)理解圖形,然后把得到的信息告訴LLM。這就像是先把圖里的信息整理好,然后再告訴LLM,這樣LLM就可以更容易理解這些信息了。
這里的X是每個(gè)節(jié)點(diǎn)的特征,可以想象成每個(gè)節(jié)點(diǎn)的一些個(gè)人信息,比如年齡、興趣等。A是鄰接矩陣,它告訴我們哪些節(jié)點(diǎn)是朋友(即哪些節(jié)點(diǎn)是相連的)。H是GNN理解后得到的新信息,它包含了節(jié)點(diǎn)之間關(guān)系的新理解。
然后,我們用一個(gè)解析器從LLM那里得到我們想要的答案。這就像是你問(wèn)LLM一個(gè)問(wèn)題,然后LLM根據(jù)它從GNN那里得到的信息來(lái)回答你。
通常,為了讓LLM更好地理解GNN給它的信息,我們可能需要對(duì)LLM進(jìn)行一些調(diào)整,讓它知道怎么用這些信息來(lái)給出我們想要的答案。這樣,LLM的預(yù)測(cè)就能更符合我們的期望,也更容易理解。)
各種策略已被提出以融合由GNN學(xué)習(xí)的結(jié)構(gòu)模式以及LLM捕獲的上下文信息。例如,GIT-Mol[Liu等人,2023c]和MolCA[Liu等人,2023d]都實(shí)現(xiàn)了BLIP-2的QFormer[Li等人,2023a]作為跨模態(tài)投影器,將圖編碼器的輸出映射到LLM的輸入文本空間。為了有效進(jìn)行圖-文本交互,采用了多種目標(biāo)函數(shù)和不同的注意力掩蔽策略。GraphLLM[Chai等人,2023]在前綴調(diào)優(yōu)階段通過(guò)對(duì)圖形表示施加線性投影,得到增強(qiáng)型前綴,使LLM能夠與圖形變換器協(xié)同作用,納入對(duì)圖形推理至關(guān)重要的結(jié)構(gòu)信息。此外,GraphGPT[Tang等人,2023]和InstructMol[Cao等人,2023]都采用簡(jiǎn)單的線性層作為輕量級(jí)對(duì)齊投影器,將編碼后的圖形表示映射到一些圖形令牌,而LLM擅長(zhǎng)將這些令牌與多樣化的文本信息對(duì)齊。DGTL[Qin等人,2023]則直接將分解的圖形嵌入注入LLM每一層,突出顯示圖形拓?fù)浜驼Z(yǔ)義的不同方面。
(注釋:在圖數(shù)據(jù)處理中,研究人員提出了各種方法來(lái)結(jié)合圖神經(jīng)網(wǎng)絡(luò)(GNN)學(xué)習(xí)到的結(jié)構(gòu)信息和大型語(yǔ)言模型(LLM)捕獲的上下文信息。這里有幾個(gè)例子:
1. 跨模態(tài)投影器:
- 像GIT-Mol和MolCA這樣的研究,使用了一種叫做BLIP-2的QFormer作為跨模態(tài)投影器。這個(gè)投影器的作用就像是翻譯員,它把GNN輸出的圖信息轉(zhuǎn)換成LLM能理解的文本信息。
2. 圖-文本交互:
- 為了幫助LLM和圖信息有效地交流,研究人員使用了不同的目標(biāo)函數(shù)和注意力掩蔽策略。這些技術(shù)幫助LLM更好地理解圖的結(jié)構(gòu)和文本內(nèi)容。
3. 增強(qiáng)型前綴:
- GraphLLM研究中,在調(diào)整模型的過(guò)程中,使用了線性投影來(lái)增強(qiáng)圖形表示,這樣LLM就可以更好地和圖變換器一起工作,理解圖形的結(jié)構(gòu)信息。
4. 輕量級(jí)對(duì)齊投影器:
- GraphGPT和InstructMol研究中,使用了簡(jiǎn)單的線性層來(lái)把圖形表示轉(zhuǎn)換成圖形令牌。這些令牌是LLM能夠處理的特殊標(biāo)記,它們幫助LLM把圖形信息和文本信息對(duì)齊。
5. 注入圖形嵌入:
- DGTL研究中,直接把圖的嵌入信息放到LLM的每一層中。這樣做可以讓LLM在處理文本的同時(shí),也關(guān)注到圖的拓?fù)浣Y(jié)構(gòu)和語(yǔ)義信息。
總的來(lái)說(shuō),這些方法都是在嘗試讓LLM更好地理解和處理圖數(shù)據(jù),通過(guò)把圖的結(jié)構(gòu)信息轉(zhuǎn)換成LLM能夠處理的格式,讓兩者能夠有效地結(jié)合,從而提高處理圖任務(wù)的能力。)
4.3 討論
直接將LLM用作預(yù)測(cè)器在處理圖形的文本屬性方面顯示出優(yōu)勢(shì),尤其是在零樣本性能上與傳統(tǒng)GNN相比表現(xiàn)卓越。最終目標(biāo)是開(kāi)發(fā)和完善將圖形結(jié)構(gòu)信息編碼成LLM能夠有效地理解和操作的格式的方法?;谡蛊降念A(yù)測(cè)在有效性方面可能具有優(yōu)勢(shì),而基于GNN的預(yù)測(cè)往往效率更高。在基于展平的預(yù)測(cè)中,LLM的輸入長(zhǎng)度限制導(dǎo)致每個(gè)節(jié)點(diǎn)只能訪問(wèn)其幾跳內(nèi)的鄰居,這使得捕捉長(zhǎng)程依賴性變得困難。此外,由于不涉及GNN,無(wú)法解決諸如異質(zhì)性等GNN固有問(wèn)題。另一方面,對(duì)于基于GNN的預(yù)測(cè),由于深度變換器早期層梯度消失問(wèn)題[Zhao等人,2023a; Qin等人,2023],訓(xùn)練附加的GNN模塊并將其插入LLM中進(jìn)行聯(lián)合訓(xùn)練頗具挑戰(zhàn)性。
5、GNN與LLM對(duì)齊
GNN與LLM的嵌入空間對(duì)齊是一種有效結(jié)合圖形與文本模態(tài)的方法。GNN-LLM對(duì)齊確保在特定階段保留每個(gè)編碼器的獨(dú)特功能,并協(xié)調(diào)它們的嵌入空間。本節(jié)概述了對(duì)齊GNN與LLM的技術(shù),根據(jù)是否對(duì)GNN和LLM同等重視或優(yōu)先考慮某一模態(tài),這些技術(shù)可以分為對(duì)稱和非對(duì)稱兩類。
5.1 對(duì)稱對(duì)齊
對(duì)稱對(duì)齊是指在對(duì)齊過(guò)程中對(duì)圖形和文本模態(tài)進(jìn)行平等處理。這類方法確保兩種模態(tài)的編碼器在各自的應(yīng)用中都能達(dá)到相當(dāng)?shù)谋憩F(xiàn)水平。典型的對(duì)稱對(duì)齊架構(gòu)如圖5(a)所示,采用雙塔樣式,分別使用獨(dú)立的編碼器對(duì)圖形和文本進(jìn)行編碼。在對(duì)齊過(guò)程中,兩種模態(tài)僅一次交互。像SAFER [Chandra等人,2020]這樣的方法使用簡(jiǎn)單拼接來(lái)處理這兩種獨(dú)立的嵌入,但這種方法在實(shí)現(xiàn)結(jié)構(gòu)信息和文本信息無(wú)縫融合方面存在不足,導(dǎo)致兩種模態(tài)松散耦合。因此,大多數(shù)雙塔樣式模型采用對(duì)比學(xué)習(xí)技術(shù)促進(jìn)對(duì)齊,類似于CLIP [Radford等人,2021]用于視覺(jué)和語(yǔ)言模態(tài)的對(duì)齊。一般來(lái)說(shuō),這些方法包括兩個(gè)步驟:第一步是特征提取,獲取圖形表示和文本表示;第二步是使用修改過(guò)的InfoNCE損失函數(shù)的對(duì)比學(xué)習(xí)過(guò)程,其方程式如下:
其中g(shù)代表特定圖形的表示,t表示對(duì)應(yīng)圖形文本的表示。s(·, ·)表示評(píng)分函數(shù),賦予正對(duì)高分值,負(fù)對(duì)低分值。τ是一個(gè)溫度參數(shù),|G|表示訓(xùn)練數(shù)據(jù)集中圖形的數(shù)量。兩個(gè)編碼器的參數(shù)都是通過(guò)反向傳播基于對(duì)比損失進(jìn)行更新。
圖5展示了GNN-LLM對(duì)齊方法的示意圖:
a) 對(duì)比、對(duì)稱對(duì)齊,采用拼接或?qū)Ρ葘W(xué)習(xí)方法應(yīng)用于圖形嵌入和文本嵌入;
b) 迭代對(duì)齊,屬于對(duì)稱對(duì)齊類別,旨在實(shí)現(xiàn)兩種模態(tài)嵌入間的迭代交互;
c) 圖形嵌套對(duì)齊,一種對(duì)稱對(duì)齊方式,它將GNN與Transformer交織在一起;
d) 知識(shí)蒸餾對(duì)齊,屬于非對(duì)稱對(duì)齊,使用GNN作為教師模型來(lái)訓(xùn)練語(yǔ)言模型使其具備對(duì)圖形結(jié)構(gòu)的理解能力。
Text2Mol [Edwards等人,2021]提出了跨模態(tài)注意力機(jī)制,實(shí)現(xiàn)在早期融合圖形和文本嵌入。通過(guò)transformer解碼器實(shí)現(xiàn),Text2Mol使用LLM的輸出作為源序列,GNN的輸出作為目標(biāo)序列。這種設(shè)置允許注意力機(jī)制學(xué)習(xí)多模態(tài)關(guān)聯(lián)規(guī)則,然后利用解碼器的輸出進(jìn)行對(duì)比學(xué)習(xí),與GNN處理后的輸出配對(duì)。
MoMu [Su等人,2022]、MoleculeSTM [Liu等人,2022]、ConGraT [Brannon等人,2023]和RLMRec [Ren等人,2023]共享類似的框架,采用配對(duì)的圖形嵌入和文本嵌入實(shí)現(xiàn)對(duì)比學(xué)習(xí),但在細(xì)節(jié)上仍存在差異。MoMu和MoleculeSTM均從PubChem [Wang等人,2009]收集分子,前者從已發(fā)表的科學(xué)論文中檢索相關(guān)文本,后者利用分子的相應(yīng)描述。ConGraT將此架構(gòu)擴(kuò)展至分子領(lǐng)域之外,已在社交、知識(shí)和引用網(wǎng)絡(luò)上驗(yàn)證了這種圖形-文本配對(duì)對(duì)比學(xué)習(xí)方法的有效性。RLMRec建議通過(guò)對(duì)比建模將LLM的語(yǔ)義空間與推薦系統(tǒng)中的協(xié)作關(guān)系信號(hào)(表明用戶-項(xiàng)目交互)的表示空間對(duì)齊。
類似G2P2 [Wen和Fang,2023]和GRENADE [Li等人,2023b]的研究進(jìn)一步推進(jìn)了對(duì)比學(xué)習(xí)的使用。具體來(lái)說(shuō),G2P2增強(qiáng)了對(duì)比學(xué)習(xí)的粒度,并在微調(diào)階段引入了提示。在預(yù)訓(xùn)練階段,它在三個(gè)層次上應(yīng)用對(duì)比學(xué)習(xí):節(jié)點(diǎn)-文本、文本-文本摘要和節(jié)點(diǎn)-節(jié)點(diǎn)摘要,從而強(qiáng)化了文本和圖形表示之間的對(duì)齊。提示在下游任務(wù)中得以運(yùn)用,表現(xiàn)出在少量樣本和零樣本文本分類及節(jié)點(diǎn)分類任務(wù)上的強(qiáng)大性能。另一方面,GRENADE通過(guò)整合以圖為中心的對(duì)比學(xué)習(xí)和雙層次的以圖為中心的知識(shí)對(duì)齊(包括節(jié)點(diǎn)級(jí)別和鄰域級(jí)別對(duì)齊)進(jìn)行優(yōu)化。
不同于以往方法,迭代對(duì)齊方法如圖5(b)所示,對(duì)兩種模態(tài)平等對(duì)待,但在訓(xùn)練過(guò)程中通過(guò)允許模態(tài)之間進(jìn)行迭代交互而區(qū)別開(kāi)來(lái)。例如,GLEM [Zhao等人,2022]采用期望最大化(EM)框架,其中一個(gè)編碼器迭代為另一個(gè)編碼器生成偽標(biāo)簽,使它們能夠?qū)R它們的表示空間。
5.2 非對(duì)稱對(duì)齊
當(dāng)對(duì)稱對(duì)齊旨在給予兩種模態(tài)同等重視時(shí),非對(duì)稱對(duì)齊則專注于允許一種模態(tài)輔助或增強(qiáng)另一種模態(tài)。當(dāng)前研究中,主導(dǎo)方法是利用GNN處理結(jié)構(gòu)信息的能力來(lái)強(qiáng)化LLM。這些研究可分為兩大類:嵌套式圖變換器和具有圖意識(shí)的蒸餾方法。
嵌套式圖變換器,如圖5(c)所示的GraphFormer [楊等人,2021]就是一個(gè)例子,它通過(guò)將GNN集成到每個(gè)變換器層來(lái)展示非對(duì)稱對(duì)齊。在LLM的每一層中,節(jié)點(diǎn)嵌入來(lái)自第一個(gè)令牌級(jí)嵌入,該嵌入對(duì)應(yīng)于[CLS]標(biāo)記。這一過(guò)程涉及收集所有相關(guān)節(jié)點(diǎn)的嵌入并應(yīng)用于圖變換器,然后將輸出與輸入嵌入拼接,并傳遞給LLM的下一層。Patton [金等人,2023a]擴(kuò)展了GraphFormer,提出兩種預(yù)訓(xùn)練策略——網(wǎng)絡(luò)上下文化的掩碼語(yǔ)言建模和掩碼節(jié)點(diǎn)預(yù)測(cè),特別適用于富含文本的圖。在分類、檢索、重排序和鏈接預(yù)測(cè)等各種下游任務(wù)中,它的表現(xiàn)非常出色。
另外,GRAD [Mavromatis等人,2023]采用具有圖意識(shí)的蒸餾方法來(lái)對(duì)齊兩種模態(tài),如圖5(d)所示。它利用GNN作為教師模型為L(zhǎng)LM生成軟標(biāo)簽,促進(jìn)了聚合信息的傳遞。此外,由于LLM共享參數(shù),在LLM參數(shù)更新后,GNN可以從改進(jìn)的文本編碼中受益。通過(guò)迭代更新,開(kāi)發(fā)出一個(gè)具備圖意識(shí)的LLM,由于去除了GNN,因此在推理階段提高了可擴(kuò)展性。與GRAD相似,THLM [鄒等人,2023]采用異構(gòu)GNN來(lái)增強(qiáng)LLM的多階拓?fù)鋵W(xué)習(xí)能力。它通過(guò)兩種不同的策略同時(shí)預(yù)訓(xùn)練LLM和輔助GNN。第一種策略側(cè)重于預(yù)測(cè)節(jié)點(diǎn)是否為目標(biāo)節(jié)點(diǎn)的上下文圖的一部分。第二種策略利用Masked Language Modeling任務(wù),有助于LLM發(fā)展強(qiáng)大的語(yǔ)言理解能力。預(yù)訓(xùn)練過(guò)程結(jié)束后,丟棄輔助GNN,并對(duì)LLM進(jìn)行微調(diào)以適應(yīng)下游任務(wù)。
5.3 討論
為了對(duì)齊GNN和LLM,對(duì)稱對(duì)齊以平等的方式對(duì)待每種模態(tài),目的是同時(shí)增強(qiáng)GNN和LLM,從而產(chǎn)生能有效處理涉及兩種模態(tài)任務(wù)的編碼器,利用各自編碼優(yōu)勢(shì)提高模態(tài)特異性表征。此外,非對(duì)稱方法通過(guò)將圖編碼器插入變換器中或直接使用GNN作為教師來(lái)增強(qiáng)LLM。然而,對(duì)齊技術(shù)在面對(duì)數(shù)據(jù)稀缺性問(wèn)題時(shí)面臨挑戰(zhàn)。特別是只有少數(shù)圖數(shù)據(jù)集(例如分子數(shù)據(jù)集)包含原生的圖-文本對(duì),這限制了這些方法的適用范圍。
表格1:按發(fā)布時(shí)間順序排列的文獻(xiàn)匯總,列出了利用LLM協(xié)助圖相關(guān)任務(wù)的各類模型。其中“微調(diào)”指是否需要對(duì)LLM的參數(shù)進(jìn)行微調(diào),?符號(hào)表示該模型采用了參數(shù)高效微調(diào)(PEFT)策略,比如LoRA和前綴調(diào)優(yōu)。"提示"表明在LLM中使用了文本格式的提示,無(wú)論是手動(dòng)還是自動(dòng)設(shè)置的。
任務(wù)縮寫(xiě)說(shuō)明:Node代表節(jié)點(diǎn)級(jí)別的任務(wù);Link代表邊級(jí)別的任務(wù);Graph代表圖級(jí)別的任務(wù);Reasoning代表圖推理任務(wù);Retrieval代表圖文檢索任務(wù);Captioning代表圖描述生成任務(wù)。
6、來(lái)發(fā)展方向
表1總結(jié)了按照提出的分類法,利用LLMs輔助處理圖相關(guān)任務(wù)的模型?;谏鲜龌仡櫯c分析,我們認(rèn)為該領(lǐng)域仍有很大的提升空間。本節(jié)我們將討論當(dāng)前利用LLM理解圖數(shù)據(jù)能力所面臨的局限性,并列出一些后續(xù)研究值得進(jìn)一步探索的方向。
1. 處理非TAG問(wèn)題:利用LLMs輔助學(xué)習(xí)帶有文本屬性的圖已經(jīng)表現(xiàn)出卓越性能。然而,在現(xiàn)實(shí)世界場(chǎng)景中普遍存在大量缺乏豐富文本信息的圖結(jié)構(gòu)數(shù)據(jù)。例如,在交通網(wǎng)絡(luò)(如PeMS03 [宋等人,2020年])中,每個(gè)節(jié)點(diǎn)代表一個(gè)運(yùn)行中的傳感器,在超像素圖(如PascalVOC-SP[德維迪等人,2022年])中,每個(gè)節(jié)點(diǎn)代表一個(gè)超像素塊。這些數(shù)據(jù)集并沒(méi)有在每個(gè)節(jié)點(diǎn)上附帶文本屬性,且難以用人類可理解的語(yǔ)言來(lái)描述每個(gè)節(jié)點(diǎn)的語(yǔ)義含義。雖然OFA[劉等人,2023a]提出用人類可理解的文本描述所有節(jié)點(diǎn)和邊,并通過(guò)LLMs將其嵌入同一空間,但這種方法可能并不適用于所有領(lǐng)域(如超像素圖),在某些特定領(lǐng)域和數(shù)據(jù)集上的性能可能不盡理想。因此,探索如何利用LLMs強(qiáng)大的泛化能力幫助構(gòu)建適用于無(wú)豐富文本信息的圖的基礎(chǔ)模型是一項(xiàng)有價(jià)值的研究方向。
2. 應(yīng)對(duì)數(shù)據(jù)泄露問(wèn)題:LLMs中的數(shù)據(jù)泄露問(wèn)題已成為討論焦點(diǎn)[Aiyappa等人,2023年]。由于LLMs經(jīng)過(guò)大規(guī)模文本語(yǔ)料庫(kù)的預(yù)訓(xùn)練,它們很可能至少接觸并記憶了部分常見(jiàn)基準(zhǔn)數(shù)據(jù)集的測(cè)試數(shù)據(jù),特別是對(duì)于引用網(wǎng)絡(luò)而言。這使得依賴早期基準(zhǔn)數(shù)據(jù)集的研究可靠性受到質(zhì)疑。此外,陳等人[2023a]證明了特定的提示可能會(huì)增強(qiáng)LLMs對(duì)應(yīng)記憶的“激活”,從而影響評(píng)估結(jié)果。黃等人[2023a]和何等人[2023]嘗試通過(guò)收集新的引用數(shù)據(jù)集避免數(shù)據(jù)泄露問(wèn)題,確保測(cè)試論文采樣自ChatGPT截止日期之后的時(shí)間段,但這仍然局限于引用領(lǐng)域,且其數(shù)據(jù)集中圖結(jié)構(gòu)的影響不顯著。因此,重新審視用于準(zhǔn)確評(píng)估LLMs在圖相關(guān)任務(wù)上性能的方法至關(guān)重要,同時(shí)建立公平、系統(tǒng)且全面的基準(zhǔn)也是必需的。
3. 提高遷移能力:遷移能力一直是圖領(lǐng)域的一大挑戰(zhàn)[Jiang等人,2022年]。由于各圖的獨(dú)特特性和結(jié)構(gòu),從一個(gè)數(shù)據(jù)集到另一個(gè)數(shù)據(jù)集,或者從一個(gè)領(lǐng)域到另一個(gè)領(lǐng)域的知識(shí)遷移并非易事。不同圖在大小、連通性、節(jié)點(diǎn)類型、邊類型以及整體拓?fù)浞矫娌町愶@著,直接在它們之間轉(zhuǎn)移知識(shí)較為困難。盡管LLMs由于在海量語(yǔ)料庫(kù)上進(jìn)行了廣泛預(yù)訓(xùn)練,顯示出了在語(yǔ)言任務(wù)上優(yōu)秀的零樣本/少樣本能力,但在利用LLMs中嵌入的知識(shí)提高圖相關(guān)任務(wù)的遷移能力方面的探索相對(duì)有限。OFA[劉等人,2023a]試圖通過(guò)將所有節(jié)點(diǎn)和邊描述為人類可讀文本,并用單一LLM將來(lái)自不同領(lǐng)域的文本嵌入同一向量空間實(shí)現(xiàn)跨領(lǐng)域的統(tǒng)一方法。提升遷移能力這一主題仍值得深入研究。
4. 提高可解釋性:可解釋性,又稱為可解釋度,指的是以人類可理解的方式來(lái)解釋或展示模型行為的能力[Zhao等人,2023b年]。LLMs在處理圖相關(guān)任務(wù)時(shí)相比GNNs顯示出更好的可解釋性,主要?dú)w因于LLMs能為圖推理生成用戶友好的解釋,包括第3節(jié)討論的生成額外解釋作為增強(qiáng)器,以及第4節(jié)提及的提供推理過(guò)程作為預(yù)測(cè)器。已有研究表明,在提示范式內(nèi)探索解釋技術(shù),如上下文學(xué)習(xí)[Radford等人,2021年]和思維鏈[Wei等人,2022b年],通過(guò)向LLM輸入一系列演示和提示以引導(dǎo)其生成特定方向的輸出并解釋其推理過(guò)程。進(jìn)一步的研究應(yīng)該致力于提升可解釋性。
5. 提高效率:盡管LLMs在圖學(xué)習(xí)上展現(xiàn)出有效性,但它們?cè)跁r(shí)間和空間效率上可能不如專門(mén)設(shè)計(jì)的圖學(xué)習(xí)模型如GNNs,尤其是在依賴序列圖描述進(jìn)行預(yù)測(cè)的情況下(如第4節(jié)所述)。例如,通過(guò)API(如ChatGPT和GPT-4)訪問(wèn)LLMs時(shí),計(jì)費(fèi)模型對(duì)于處理大規(guī)模圖會(huì)產(chǎn)生高昂成本。此外,開(kāi)源LLMs本地部署的訓(xùn)練和推理均需消耗大量時(shí)間及硬件資源?,F(xiàn)有研究[Duan等人,2023年;Liu等人,2023c年;Ye等人,2023年;Chai等人,2023年;Liu等人,2023d年;Tang等人,2023年]已嘗試采用諸如LoRA[胡等人,2021年]和前綴調(diào)優(yōu)[Li和Liang,2021年]等參數(shù)高效微調(diào)策略使LLMs適應(yīng)更加高效。我們相信,更多的高效方法可以解鎖在有限計(jì)算資源下應(yīng)用LLMs解決圖相關(guān)任務(wù)的潛力。
6. 表達(dá)能力的分析與改進(jìn):盡管LLMs最近在圖相關(guān)任務(wù)上取得了一些成就,但其理論上的表達(dá)力仍未得到充分探索。標(biāo)準(zhǔn)的消息傳遞神經(jīng)網(wǎng)絡(luò)被認(rèn)為具有與1-Weisfeiler-Lehman(WL)測(cè)試相當(dāng)?shù)谋憩F(xiàn)力,這意味著在1跳聚合下它們無(wú)法區(qū)分非同構(gòu)圖[Xu等人,2018年]。因此,有兩個(gè)基本問(wèn)題浮現(xiàn)出來(lái):LLMs理解和處理圖結(jié)構(gòu)的有效程度如何?其表達(dá)能力是否超越了GNNs或WL測(cè)試?此外,置換不變性是典型GNN的一個(gè)有趣特性,在幾何圖學(xué)習(xí)中尤為重要[Han等人,2022年]。探索如何賦予LLMs這一特性也是一個(gè)有趣的研究方向。
7.將LLMs作為智能體:目前結(jié)合LLMs和圖的應(yīng)用中,LLMs常常扮演增強(qiáng)器、預(yù)測(cè)器和對(duì)齊組件的角色。但在更復(fù)雜的場(chǎng)景中,這些應(yīng)用可能并未充分發(fā)揮LLMs的潛能。最新研究已經(jīng)開(kāi)始探索LLMs作為智能體的新角色,如生成智能體[Park等人,2023年]和領(lǐng)域特定智能體[Bran等人,2023年]。在一個(gè)由LLM驅(qū)動(dòng)的智能體系統(tǒng)中,LLMs充當(dāng)智能體的大腦,輔以規(guī)劃、記憶和工具使用等關(guān)鍵組件[Weng,2023年]。在復(fù)雜圖相關(guān)場(chǎng)景,如推薦系統(tǒng)和知識(shí)發(fā)現(xiàn)中,將LLMs視為智能體首先將任務(wù)分解為多個(gè)子任務(wù),然后針對(duì)每個(gè)子任務(wù)識(shí)別最合適的工具(如GNNs)或許能夠獲得更好的性能表現(xiàn)。此外,將LLMs作為智能體應(yīng)用于圖相關(guān)任務(wù)有可能構(gòu)建出強(qiáng)大且高度泛化的解決方案。
結(jié)論
近年來(lái),LLMs在圖相關(guān)任務(wù)中的應(yīng)用已經(jīng)成為了一個(gè)突出的研究領(lǐng)域。在本次綜述中,我們的目標(biāo)是深入介紹現(xiàn)有的將LLMs應(yīng)用于圖領(lǐng)域的各種策略。首先,我們引入了一種新穎的分類法,依據(jù)LLMs在其中扮演的不同角色,即增強(qiáng)器、預(yù)測(cè)器和對(duì)齊組件,將涉及圖形和文本兩種模態(tài)的技術(shù)分為三類。其次,我們按照這個(gè)分類體系系統(tǒng)地回顧了代表性研究成果。最后,我們討論了一些局限性,并指出了幾個(gè)未來(lái)的研究方向。通過(guò)這次全面的回顧,我們旨在揭示在LLMs輔助下的圖學(xué)習(xí)領(lǐng)域的進(jìn)展與挑戰(zhàn),從而激發(fā)該領(lǐng)域進(jìn)一步的優(yōu)化和發(fā)展。
Li Y, Li Z, Wang P, et al. A survey of graph meets large language model: Progress and future directions[J]. arXiv preprint arXiv:2311.12399, 2023.
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/yzqFSVm3j-UsT3niJi8LLw??
