AI預(yù)測論文能不能中,8B超越70B大模型,港大發(fā)布圖文融合多智能體GraphAgent
論文能不能中?可以用AI提前預(yù)測~
港大黃超教授團隊提出多智能體自動化框架GraphAgent,能自動構(gòu)建和解析知識圖譜中的復(fù)雜語義網(wǎng)絡(luò),應(yīng)對各類預(yù)測和生成任務(wù)。
GraphAgent通過圖生成、任務(wù)規(guī)劃和任務(wù)執(zhí)行三大核心智能體的協(xié)同運作,融合大語言模型與圖語言模型的優(yōu)勢,成功連接了結(jié)構(gòu)化圖數(shù)據(jù)與非結(jié)構(gòu)化文本數(shù)據(jù),在文本總結(jié)與關(guān)系建模方面實現(xiàn)了明顯提升。
實驗中,在預(yù)測性任務(wù)(如節(jié)點分類)和生成性任務(wù)(如文本生成)上,GraphAgent均取得突出成果,僅以8B參數(shù)規(guī)模便達到了與GPT-4、Gemini等大規(guī)模封閉源模型相當?shù)男阅芩健?/p>
特別在零樣本學習和跨域泛化等場景中,GraphAgent展現(xiàn)出顯著優(yōu)勢。
有意思的是,團隊將GraphAgent應(yīng)用到了學術(shù)論文評審場景。
在實際投稿流程中,作者往往需要根據(jù)評審意見準備Rebuttal回應(yīng),而GraphAgent僅基于論文評審意見(Reviews)就能幫助作者更好地評估論文的錄取可能。
GraphAgent長啥樣?
現(xiàn)實世界的數(shù)據(jù)呈現(xiàn)雙重特性:一方面是結(jié)構(gòu)化的圖連接數(shù)據(jù),另一方面是非結(jié)構(gòu)化的文本與視覺信息。
這些數(shù)據(jù)中蘊含的關(guān)系網(wǎng)絡(luò)也分為兩類:顯式的連接關(guān)系(如社交網(wǎng)絡(luò)互動),以及隱式的語義依賴(常見于知識圖譜)。
這種復(fù)雜性帶來了三大核心挑戰(zhàn):
- 異構(gòu)數(shù)據(jù)融合:系統(tǒng)需要整合多種形式的信息。以學術(shù)網(wǎng)絡(luò)為例,論文間的引用構(gòu)成了圖結(jié)構(gòu)關(guān)系,而標題、摘要等文本則承載著豐富的語義信息。有效整合這些異構(gòu)信息可支持知識總結(jié)、科學問答等應(yīng)用。
- 多層次關(guān)系理解:實際場景中往往存在多維度的關(guān)聯(lián)。例如電商平臺中,用戶-商品交互構(gòu)成行為圖譜,產(chǎn)品評論則形成語義網(wǎng)絡(luò)。深入理解這些多層關(guān)系有助于提升用戶-商品交互預(yù)測的準確性。
- 任務(wù)多元化:應(yīng)用場景要求系統(tǒng)具備廣泛的處理能力。預(yù)測類任務(wù)包括節(jié)點分類、鏈接推斷等圖分析;生成類任務(wù)涉及圖增強文本生成、知識圖譜問答等。這需要系統(tǒng)能夠靈活適應(yīng)不同任務(wù)特點,并充分利用數(shù)據(jù)中的結(jié)構(gòu)化與語義信息。
為應(yīng)對上述挑戰(zhàn),研究團隊提出多智能體自動化框架GraphAgent。
該框架通過三大核心智能體的協(xié)同配合,實現(xiàn)了圖結(jié)構(gòu)與語義信息的深度融合,可同時支持預(yù)測型(圖分析、節(jié)點分類)和生成型(文本創(chuàng)作)等多樣化任務(wù)。
其核心架構(gòu)包括:
- 圖生成智能體(Graph Generator Agent)
- 任務(wù)規(guī)劃智能體(Task Planning Agent)
- 任務(wù)執(zhí)行智能體(Task Execution Agent)
三大智能體通過協(xié)同機制緊密配合,融合大語言模型與圖語言模型的優(yōu)勢,有效挖掘數(shù)據(jù)中的關(guān)系網(wǎng)絡(luò)與語義依賴。
下面詳細介紹各個智能體的核心功能:
圖生成智能體
圖生成智能體負責構(gòu)建語義知識圖譜(Semantic Knowledge Graph, SKG),通過創(chuàng)新的雙階段迭代機制實現(xiàn)深層語義信息的提取與整合。
該智能體的工作流程分為兩個核心階段:
知識節(jié)點提取階段
該階段采用自適應(yīng)的分層策略,從非結(jié)構(gòu)化文本中識別多維度的知識實體:
- 通過定制化的系統(tǒng)提示,調(diào)用大語言模型(LLM)處理輸入文本
- 運用迭代式識別技術(shù),同時捕獲宏觀領(lǐng)域概念(如”Machine Learning”)和微觀技術(shù)細節(jié)(如”Self-Supervised Learning”)
- 基于多輪迭代構(gòu)建層次化知識結(jié)構(gòu),確保知識體系的完整性與連貫性
知識描述增強階段
這一階段著重提升知識表示的豐富度與準確性:
- 為每個識別的節(jié)點生成詳實的語義描述
- 整合相關(guān)上下文信息,構(gòu)建完整的知識聯(lián)系
- 采用動態(tài)迭代更新機制:i) 將每輪描述作為下輪優(yōu)化的基礎(chǔ);ii) 持續(xù)深化和拓展知識內(nèi)容;iii) 通過多輪迭代融合,最終形成語義完備的知識圖譜
任務(wù)規(guī)劃智能體
任務(wù)規(guī)劃智能體作為框架的決策核心,通過精密的三階段處理機制完成復(fù)雜任務(wù)的規(guī)劃與分解。
其工作流程包括:
意圖識別與任務(wù)制定
該階段專注于準確理解用戶需求并確定處理策略:
- 深度解析用戶查詢,提取核心意圖
- 將任務(wù)分類為三大類型:預(yù)定義圖預(yù)測(Predictive_predefined),處理已知結(jié)構(gòu)的圖分析;開放圖預(yù)測(Predictive_wild),應(yīng)對未知結(jié)構(gòu)的圖推理;自由生成任務(wù)(Open_generation),執(zhí)行靈活的創(chuàng)作需求。
圖結(jié)構(gòu)標準化處理
此階段實現(xiàn)不同類型圖數(shù)據(jù)的統(tǒng)一表達:
- 運用專業(yè)圖構(gòu)建工具(GBW_Tool)進行結(jié)構(gòu)轉(zhuǎn)換
- 同步處理顯式關(guān)系圖(G_exp)與語義知識圖(G_skg)
- 建立標準化的異構(gòu)圖表示體系,確保處理一致性
圖文特征融合
這一階段著重實現(xiàn)信息的深度整合:
- 結(jié)合預(yù)訓練文本編碼器與圖神經(jīng)網(wǎng)絡(luò),構(gòu)建雙層編碼體系
- 生成文本語義與圖結(jié)構(gòu)的聯(lián)合表示
- 為下游任務(wù)提供豐富的特征支持,奠定執(zhí)行基礎(chǔ)
圖動作智能體
圖動作智能體是框架的核心執(zhí)行單元,通過創(chuàng)新的三維處理架構(gòu),實現(xiàn)了任務(wù)的精準執(zhí)行與性能優(yōu)化。
其工作機制包括:
智能化任務(wù)處理機制
針對不同類型任務(wù)采用差異化處理策略:
- 預(yù)測類任務(wù):設(shè)計專屬系統(tǒng)提示,引導(dǎo)模型進行精準預(yù)測
- 生成類任務(wù):融合語義知識圖譜,提升文本生成的質(zhì)量與相關(guān)性
- 自適應(yīng)優(yōu)化:根據(jù)任務(wù)特點動態(tài)調(diào)整處理流程,確保執(zhí)行效率
深度圖指令對齊技術(shù)
創(chuàng)新性地實現(xiàn)了多層次的模態(tài)對齊:
- 同類型圖結(jié)構(gòu)對齊:增強模型對特定圖模式的理解能力
- 跨類型知識融合:提升處理異構(gòu)圖關(guān)系的準確性
- 雙向增強機制:顯著提升模型在多樣化場景下的泛化表現(xiàn)
漸進式學習策略
采用先進的課程學習方法:
- 基于難度梯度的任務(wù)編排:從基礎(chǔ)到進階的平滑過渡
- 精細化的訓練序列設(shè)計:確保知識積累的連續(xù)性
- 全方位性能調(diào)優(yōu):在各類任務(wù)中保持穩(wěn)定的高水平表現(xiàn)
實驗
數(shù)據(jù)集設(shè)置
實驗評估采用了六個各具特色的基準數(shù)據(jù)集,涵蓋了不同場景和任務(wù)類型。
如Table 1所示,這些精心選擇的數(shù)據(jù)集在規(guī)模、結(jié)構(gòu)和應(yīng)用領(lǐng)域等方面展現(xiàn)出顯著差異,為全面驗證框架性能提供了理想的測試基礎(chǔ)。
為全面評估GraphAgent的通用性能,本研究精選了六個具有代表性的基準數(shù)據(jù)集開展系統(tǒng)實驗。這些數(shù)據(jù)集按照任務(wù)特征可劃分為三大類:
結(jié)構(gòu)化圖數(shù)據(jù)集: 采用了兩個經(jīng)典的節(jié)點分類數(shù)據(jù)集IMDB和ACM。其中IMDB數(shù)據(jù)集包含11,616個節(jié)點,ACM數(shù)據(jù)集涵蓋10,942個節(jié)點,這兩個數(shù)據(jù)集都具有清晰的圖結(jié)構(gòu)特征,為評估模型在結(jié)構(gòu)化數(shù)據(jù)處理方面的能力提供了可靠基準。
文本處理數(shù)據(jù)集: 選擇了Arxiv-Papers和ICLR-Peer Reviews兩個具有代表性的數(shù)據(jù)集。Arxiv-Papers構(gòu)建了包含153,555個SKG節(jié)點的語義知識圖,用于評估文檔分類性能;ICLR-Peer Reviews則包含161,592個SKG節(jié)點,專門用于論文錄用預(yù)測任務(wù),這些數(shù)據(jù)集體現(xiàn)了模型處理復(fù)雜文本及語義關(guān)系的能力。
智能生成數(shù)據(jù)集: 引入了Related Work Generation和GovReport總結(jié)兩個具有挑戰(zhàn)性的數(shù)據(jù)集。Related Work Generation基于多篇論文構(gòu)建,包含875,921個SKG節(jié)點,用于驗證模型的相關(guān)工作生成能力;GovReport包含15,621個SKG節(jié)點,針對長文檔摘要生成任務(wù),這兩個數(shù)據(jù)集都對模型的生成能力提出了較高要求。
實驗效果分析
結(jié)構(gòu)化數(shù)據(jù)預(yù)測性能分析
為深入評估GraphAgent在結(jié)構(gòu)化圖任務(wù)中的零樣本學習能力,研究團隊設(shè)計了一組的對比實驗。
實驗采用IMDB數(shù)據(jù)集進行模型訓練,分別在1-shot和40-shot兩種低資源場景下驗證模型性能,并在ACM數(shù)據(jù)集的1,000個未見節(jié)點上開展遷移測試,以評估模型的泛化能力。
實驗結(jié)果表明:GraphAgent在所有關(guān)鍵指標上都顯著優(yōu)于當前最先進的圖語言模型HiGPT,平均性能提升超過28%。模型在40-shot設(shè)置下取得了顯著性能提升:Micro-F1和Macro-F1均達74.98%(提升48.5%/63.5%),AUC達80.90%(提升27.2%)。
GraphAgent的卓越性能主要源于三項核心技術(shù)創(chuàng)新:
首先,智能圖生成機制通過自動構(gòu)建語義知識圖譜(SKG)為模型注入豐富的補充信息,顯著增強了復(fù)雜語義關(guān)系的理解能力;
其次,精確的任務(wù)規(guī)劃機制使模型能夠準確理解和分解用戶意圖,并為不同應(yīng)用場景制定最優(yōu)執(zhí)行策略;
最后,創(chuàng)新性的雙重優(yōu)化策略結(jié)合了圖文對齊和任務(wù)微調(diào)機制,不僅提升了模型的基礎(chǔ)性能,還增強了遷移學習能力,使模型即使在1-shot等低資源場景下仍能保持穩(wěn)定的高性能表現(xiàn)。
語義理解能力分析
為深入評估GraphAgent在復(fù)雜語義關(guān)系處理方面的性能,研究團隊基于兩個典型數(shù)據(jù)集開展了系統(tǒng)實驗:利用Arxiv-Papers數(shù)據(jù)集進行論文分類驗證,并通過ICLR-Peer Reviews數(shù)據(jù)集測試論文錄用預(yù)測能力。
通過嚴格的實驗評估,GraphAgent在處理隱式語義依賴關(guān)系時展現(xiàn)出如下突出優(yōu)勢:
實驗結(jié)果凸顯了GraphAgent的三大核心優(yōu)勢:
在參數(shù)規(guī)模優(yōu)化方面,僅有8B參數(shù)的GraphAgent憑借其獨特的語義知識圖譜架構(gòu),成功實現(xiàn)了對復(fù)雜語義依賴關(guān)系的精準把握,通過多層次語義信息的局部與全局整合,在各項評估指標上顯著超越了Llama3-70b和Qwen2-72b等大規(guī)模模型,平均性能提升達31.9%。
在泛化能力表現(xiàn)上,GraphAgent展現(xiàn)出卓越的跨任務(wù)學習潛力。其多任務(wù)版本GraphAgent-General在Arxiv-Papers數(shù)據(jù)集的表現(xiàn)甚至優(yōu)于專門優(yōu)化的單任務(wù)版本。
特別值得注意的是,8B規(guī)模的GraphAgent在零樣本場景下也能達到Deepseek-Chat-V2等大型閉源模型的性能水平。
在架構(gòu)效率方面,GraphAgent通過創(chuàng)新性地整合語義知識圖譜和結(jié)構(gòu)化知識表示,相比傳統(tǒng)的監(jiān)督微調(diào)方法和GraphRAG系統(tǒng),不僅顯著提升了模型性能,還有效降低了輸入開銷,同時成功緩解了大語言模型常見的幻覺問題。
文本生成任務(wù)
GraphAgent在圖增強文本生成任務(wù)中展現(xiàn)出卓越表現(xiàn),通過性能評估、模型對比和架構(gòu)分析三個維度的系統(tǒng)實驗,充分驗證了其突出優(yōu)勢。
基于Llama3-70b和Qwen2-72b的雙重對比驗證表明,GraphAgent在困惑度(PPL)等核心指標上顯著優(yōu)于基線模型。不同于傳統(tǒng)的監(jiān)督微調(diào)(SFT)和GraphRAG方法,GraphAgent通過智能構(gòu)建語義知識圖譜,從根本上提升了模型的推理理解能力,有效解決了常規(guī)微調(diào)和知識注入方法在處理復(fù)雜推理模式時的固有局限。
在架構(gòu)創(chuàng)新和性能對標方面,GraphAgent展現(xiàn)出突出優(yōu)勢。
以GPT-4為評判基準的實驗顯示,GraphAgent相比Llama3-8b和Llama3-70b分別實現(xiàn)了114%和45%的性能提升,在67%的測試案例中領(lǐng)先同等規(guī)模模型,58%的情況下超越主流開源方案。
尤為顯著的是,GraphAgent僅以8B的參數(shù)規(guī)模和極低的計算開銷便達成這些卓越成果,充分驗證了基于語義知識圖譜的架構(gòu)設(shè)計在增強文本生成能力方面的顯著效果。
消融實驗
通過系統(tǒng)化的消融實驗(Ablation Study),研究團隊深入評估了GraphAgent架構(gòu)中三個核心組件的性能貢獻,研究結(jié)果揭示了以下關(guān)鍵發(fā)現(xiàn):
語義知識圖譜(SKG)的基礎(chǔ)支撐作用:移除SKG組件導(dǎo)致模型性能顯著降低15.2%,充分證實了自動構(gòu)建的語義知識圖譜在提供關(guān)鍵補充信息方面的不可替代性。這一發(fā)現(xiàn)強調(diào)了結(jié)構(gòu)化知識表示對模型整體性能的決定性影響。
圖文對齊機制的重要性:實驗表明,缺失圖文對齊機制造成了最顯著的性能損失,困惑度(PPL)增加達11.282。這突出表明深層次的圖文理解能力對于需要復(fù)雜推理的生成任務(wù)至關(guān)重要,是保障模型高質(zhì)量輸出的關(guān)鍵環(huán)節(jié)。
課程學習策略的優(yōu)化效果:雖然相較其他組件影響相對較小(預(yù)測任務(wù)降低4.0%,生成任務(wù)PPL增加0.503),但課程學習策略的缺失仍對雙任務(wù)性能產(chǎn)生明顯負面影響。這驗證了漸進式學習路徑在優(yōu)化模型訓練效果方面的積極作用。
最后研究團隊透露了他們的未來研究方向,包括:
多模態(tài)能力拓展:計劃將當前框架的處理能力擴展至視覺信息領(lǐng)域,建立支持關(guān)系型數(shù)據(jù)、文本內(nèi)容和視覺元素的綜合處理機制。這一拓展不僅包括多模態(tài)信息的理解與融合,還將重點開發(fā)跨模態(tài)知識表示和生成能力,從而實現(xiàn)更豐富的智能交互場景。特別關(guān)注視覺-文本-關(guān)系的協(xié)同建模,為多模態(tài)智能系統(tǒng)開辟新的研究方向。
模型性能優(yōu)化:致力于提升模型在復(fù)雜現(xiàn)實場景中的泛化表現(xiàn),重點研究如何在保持或提升性能的同時實現(xiàn)模型壓縮。這涉及創(chuàng)新的模型架構(gòu)設(shè)計、高效的參數(shù)共享機制以及先進的知識蒸餾技術(shù)。同時,將探索計算資源優(yōu)化策略,提高模型在實際部署環(huán)境中的效率,為大規(guī)模應(yīng)用奠定基礎(chǔ)。
應(yīng)用場景擴展:積極探索框架在多個實際領(lǐng)域的落地應(yīng)用,重點關(guān)注科學研究輔助和商業(yè)智能分析等高價值場景。在科研領(lǐng)域,將開發(fā)專門的文獻分析和知識發(fā)現(xiàn)工具;在商業(yè)領(lǐng)域,著重構(gòu)建面向決策支持的智能分析系統(tǒng)。同時,密切關(guān)注新興技術(shù)趨勢,探索在醫(yī)療健康、金融科技等領(lǐng)域的應(yīng)用場景。
項目地址:https://github.com/HKUDS/GraphAgent。
論文鏈接:https://arxiv.org/abs/2412.17029。
實驗室主頁: https://sites.google.com/view/chaoh。