自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM蒸餾到GNN,性能提升6.2%!Emory提出大模型蒸餾到文本圖|CIKM 2024

人工智能 新聞
Emory大學(xué)的研究團隊提出了一種創(chuàng)新的方法,將大語言模型(LLM)在文本圖(Text-Attributed Graph, 縮寫為TAG)學(xué)習(xí)中的強大能力蒸餾到本地模型中,以應(yīng)對文本圖學(xué)習(xí)中的數(shù)據(jù)稀缺、隱私保護和成本問題。通過訓(xùn)練一個解釋器模型來理解LLM的推理過程,并對學(xué)生模型進行對齊優(yōu)化,在多個數(shù)據(jù)集上實現(xiàn)了顯著的性能提升,平均提高了6.2%。

近年來,隨著文本屬性圖(TAG)在社交媒體、電子商務(wù)、推薦系統(tǒng)和學(xué)術(shù)引用網(wǎng)絡(luò)等領(lǐng)域的廣泛應(yīng)用,研究人員對如何有效地從這些復(fù)雜數(shù)據(jù)結(jié)構(gòu)中學(xué)習(xí)變得越來越感興趣。TAG不僅包含了節(jié)點之間的結(jié)構(gòu)關(guān)系,還包含了節(jié)點本身的文本特征,因此如何同時處理這兩種信息成為研究中的一個核心問題。

當(dāng)前,圖神經(jīng)網(wǎng)絡(luò)(GNN)在TAG學(xué)習(xí)中得到了廣泛的應(yīng)用,然而其訓(xùn)練過程通常需要大量的人工標(biāo)注數(shù)據(jù),這在實際應(yīng)用中往往難以獲取。

大語言模型(LLM)以其在少樣本和零樣本學(xué)習(xí)中的出色表現(xiàn),為解決數(shù)據(jù)稀缺問題帶來了曙光。然而,LLM的部署和使用成本高昂,且存在隱私數(shù)據(jù)泄露的風(fēng)險,這使得LLM在一些實際場景中的應(yīng)用受到了限制。

為了解決這些問題,埃默里大學(xué)(Emory)大學(xué)的研究團隊提出了一種通過知識蒸餾將LLM的能力轉(zhuǎn)移到本地圖模型的方法,該方法創(chuàng)新性地結(jié)合了LLM的推理能力與GNN的結(jié)構(gòu)化學(xué)習(xí)能力,通過將LLM生成的詳細(xì)推理過程轉(zhuǎn)化為圖模型能夠理解的信息,從而在無需依賴LLM的情況下,實現(xiàn)高效的TAG學(xué)習(xí)。

論文鏈接:https://arxiv.org/pdf/2402.12022

在將LLM蒸餾到本地模型的目標(biāo)下,研究團隊面臨了多重挑戰(zhàn),主要集中在以下幾個方面:

1. 如何讓語言模型教會圖模型?

大語言模型是生成性模型,能夠輸出詳細(xì)而豐富的文本信息,而圖神經(jīng)網(wǎng)絡(luò)則通常是判別性模型,其輸入和輸出都相對簡潔。傳統(tǒng)的知識蒸餾方法通過對齊輸出的方式,難以讓圖模型充分吸收語言模型中的知識。因此,如何在訓(xùn)練過程中有效地將語言模型中的豐富知識傳遞給圖模型,是研究團隊面臨的一個重要難題。

2. 如何將文本推理轉(zhuǎn)化為圖推理? 

大語言模型生成的推理依據(jù)通常以自然語言的形式存在,而圖模型難以直接理解這些文本信息。因此,如何將這些文本推理轉(zhuǎn)化為圖模型能夠理解的圖推理,是一個未被充分探索且具有挑戰(zhàn)性的問題。研究團隊需要設(shè)計出一種方法,使得圖模型能夠利用語言模型的推理依據(jù)來增強自身的學(xué)習(xí)能力。

3. 如何在蒸餾過程中協(xié)同文本和圖信息? 

文本屬性圖(TAG)同時包含文本和圖結(jié)構(gòu)信息,這兩者之間高度異構(gòu)。在知識蒸餾過程中,如何確保學(xué)生模型能夠同時保留文本和圖信息以及它們之間的相互作用,是研究團隊面臨的另一重大挑戰(zhàn)。研究團隊需要找到一種方法,使得學(xué)生模型不僅能從解釋器模型中繼承知識,還能在沒有語言模型支持的情況下,獨立處理并理解這些異構(gòu)信息。

方法

在這項研究中,Emory大學(xué)的研究團隊提出了一種創(chuàng)新的框架,通過蒸餾大語言模型(LLM)的知識來增強圖神經(jīng)網(wǎng)絡(luò)(GNN)在文本屬性圖(TAG)學(xué)習(xí)中的性能。該方法分為兩大核心部分:解釋器模型的訓(xùn)練和學(xué)生模型的對齊優(yōu)化。

圖片

1. 解釋器模型的訓(xùn)練

多層次特征增強: 研究團隊首先設(shè)計了一個解釋器模型,該模型的主要任務(wù)是理解并吸收LLM生成的推理依據(jù)。為了讓解釋器模型能夠有效地學(xué)習(xí)LLM的知識,研究團隊將LLM的推理依據(jù)轉(zhuǎn)化為多層次的圖推理增強特征。具體來說,這些特征包括:

  • 文本級特征:LLM識別并提取與分類最相關(guān)的關(guān)鍵詞,從而減少文本中可能干擾模型分類的噪聲信息。這些關(guān)鍵詞通過文本編碼器進行處理,以生成增強的文本嵌入。
  • 結(jié)構(gòu)級特征:LLM分析每個節(jié)點的鄰居節(jié)點,識別出對節(jié)點分類最重要的鄰居節(jié)點,并提取這些鄰居節(jié)點中的關(guān)鍵信息。這些增強的結(jié)構(gòu)特征用于圖卷積網(wǎng)絡(luò)(GNN)的信息傳遞過程中。
  • 消息級特征:在結(jié)構(gòu)級特征的基礎(chǔ)上,LLM進一步識別出每個鄰居節(jié)點中最關(guān)鍵的消息內(nèi)容,并將其整合到消息傳遞的第一層中。通過這種方式,解釋器模型能夠聚焦于更具相關(guān)性的鄰居信息,從而提高分類精度。

偽標(biāo)簽與偽軟標(biāo)簽生成:為了提供更加細(xì)膩的監(jiān)督信號,研究團隊使用LLM生成的偽標(biāo)簽和偽軟標(biāo)簽來訓(xùn)練解釋器模型。偽軟標(biāo)簽包含了每個類別的概率信息,這比硬分類標(biāo)簽提供了更多的監(jiān)督信息,有助于解釋器模型更好地學(xué)習(xí)LLM的推理邏輯。

2. 學(xué)生模型的對齊優(yōu)化

模型對齊方法: 為了讓學(xué)生模型在沒有LLM支持的情況下也能做出準(zhǔn)確預(yù)測,研究團隊設(shè)計了一種新的TAG模型對齊方法,該方法同時考慮了語義和結(jié)構(gòu)的對齊。

  • 語義對齊:研究團隊通過對比解釋器模型和學(xué)生模型的文本嵌入,特別是那些在結(jié)構(gòu)中出現(xiàn)頻率較高且關(guān)鍵詞差異較大的節(jié)點,來實現(xiàn)語義對齊。這種對齊方式確保了學(xué)生模型能夠更好地繼承解釋器模型中的語義信息。
  • 結(jié)構(gòu)對齊:在結(jié)構(gòu)對齊中,研究團隊關(guān)注那些鄰居結(jié)構(gòu)變化較大的節(jié)點,計算這些節(jié)點的原始鄰居結(jié)構(gòu)與增強鄰居結(jié)構(gòu)之間的相似度。通過最小化這些差異,確保學(xué)生模型能夠在圖結(jié)構(gòu)信息上與解釋器模型保持一致。

多任務(wù)學(xué)習(xí)與對齊目標(biāo):在訓(xùn)練過程中,研究團隊采用多任務(wù)學(xué)習(xí)的方法,使用交叉熵?fù)p失來優(yōu)化偽標(biāo)簽的預(yù)測,同時使用均方誤差損失來對齊解釋器模型和學(xué)生模型的輸出。最終的訓(xùn)練目標(biāo)整合了語義對齊和結(jié)構(gòu)對齊的損失,使得學(xué)生模型能夠在沒有LLM的情況下進行高效推理。

實驗與結(jié)果

研究團隊在四個廣泛使用的文本屬性圖數(shù)據(jù)集上驗證了他們的方法,包括Cora、PubMed、ogbn-products和arxiv-2023數(shù)據(jù)集。實驗結(jié)果顯示,該方法在所有數(shù)據(jù)集上均表現(xiàn)出色,特別是在標(biāo)簽稀缺的情況下,性能提升尤為顯著。

圖片

在Cora數(shù)據(jù)集上,該方法的準(zhǔn)確率相比現(xiàn)有方法提高了10.3%,而在PubMed和ogbn-products數(shù)據(jù)集上,分別提高了2.2%和4%。特別是在arxiv-2023數(shù)據(jù)集上,由于其內(nèi)容超出了現(xiàn)有大語言模型的知識截止日期,研究團隊的方法依然實現(xiàn)了8.3%的性能提升,進一步證明了該方法在處理新穎和未見數(shù)據(jù)方面的能力。

研究團隊進一步分析了不同訓(xùn)練數(shù)據(jù)比例下的模型性能,結(jié)果顯示該方法在訓(xùn)練數(shù)據(jù)稀缺的情況下仍能保持優(yōu)異的表現(xiàn)。這表明,通過蒸餾LLM的推理能力到學(xué)生模型,該方法能夠在有限的數(shù)據(jù)下有效學(xué)習(xí),顯示出強大的泛化能力。

圖片

在計算成本方面,盡管研究團隊的方法在訓(xùn)練時需要處理更多的輸入輸出數(shù)據(jù)(如LLM生成的推理依據(jù)),但其訓(xùn)練和測試時間與現(xiàn)有方法相當(dāng),顯示出良好的效率。尤其是在處理大型數(shù)據(jù)集時,這種蒸餾方法能夠顯著降低計算成本,使其在實際應(yīng)用中更具可行性。

結(jié)論

研究團隊的工作為如何在不依賴LLM的情況下有效利用其能力提供了新的思路。通過將大語言模型的知識蒸餾到本地圖模型中,研究人員不僅成功解決了TAG學(xué)習(xí)中的標(biāo)簽稀缺問題,還顯著提升了模型的性能和遷移性。這一研究不僅在學(xué)術(shù)界具有重要意義,也為工業(yè)界在隱私保護和成本控制方面提供了實用的解決方案。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-04-10 15:05:09

深度學(xué)習(xí)人工智能蒸餾

2025-04-22 08:08:37

2022-06-02 10:29:23

神經(jīng)網(wǎng)絡(luò)AI計算機

2025-01-22 09:32:30

2024-03-15 08:00:00

模型數(shù)據(jù)

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2023-05-15 09:43:49

模型數(shù)據(jù)

2025-03-07 08:00:00

LLM蒸餾和量化大模型

2024-09-10 13:30:00

2022-04-08 14:40:59

框架訓(xùn)練模型

2024-04-26 06:46:27

量化剪枝模型

2023-10-07 13:43:00

AI訓(xùn)練

2023-09-01 14:49:09

AI微軟

2025-02-20 09:27:46

2024-03-27 13:34:00

模型訓(xùn)練

2024-11-29 09:18:01

2025-04-01 05:10:00

2024-12-04 09:15:00

AI模型

2024-07-19 08:00:00

深度學(xué)習(xí)知識蒸餾

2024-11-29 16:35:50

模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號