ChatGPT性能最多提升214%,刷新七個榜單!IDEA、港科大廣州等提出ToG思維圖譜
大模型雖好,但「一本正經(jīng)的胡說八道」的問題該怎么解?
在金融、法律、醫(yī)療等嚴肅領域,幻覺問題一直是制約大模型落地應用的主要瓶頸。
如何彌補這部分缺陷,使更多行業(yè)能快速加入對新一輪生產(chǎn)力變革的探索,是當下AI研究的重要課題,其中,大模型(LLM)與知識圖譜(KG)的融合來彌補前者的能力短板,是頗受關注的研究方向。
最近,來自IDEA研究院、微軟亞洲研究院、香港科技大學、香港科技大學(廣州)、廈門大學和美國南加州大學的研究團隊推出Think-on-Graph(思維圖譜)技術(shù),通過LLM與KG的緊耦合交互,驅(qū)動LLM agent在知識圖譜上「思考」,逐步搜索推理出最優(yōu)答案。
圖片
論文地址:https://arxiv.org/abs/2307.07697
代碼鏈接:https://github.com/IDEA-FinAI/ToG
下面,我們先用一個刁鉆的問題來認識Think-on-Graph的「腦回路」:如何客觀評價段譽和洪七公誰的武功更高強?(段譽出自《天龍八部》,洪七公出自《射雕英雄傳》,兩者未在同一部作品中出現(xiàn)。)
首先看看地表最強大模型GPT-4是怎么說的:
圖片
由于LLM是經(jīng)由海量碎片化語料訓練而成,此類線索分析型的推理問題確實對其挑戰(zhàn)很大。從回答中不難看出,除了幻覺現(xiàn)象的出現(xiàn)之外,在比較兩位人物的武功水平時,GPT-4著重羅列表象事實,缺乏深度的邏輯分析。那么, Think-on-Graph是怎樣解題的呢?
圖片
首先,圖譜知識顯示,六脈神劍是大理段氏最強武功,而一陽指是大理段氏常用武功,大模型由此判斷「六脈神劍」強于「一陽指」;繼而推理出段譽武功強于以一陽指冠絕江湖的一燈大師。然后,又根據(jù)圖譜上的「一燈大師與洪七公同屬『華山四絕』」,推理出兩者武功相當。最終,段譽>一燈大師,而一燈大師=洪七公,于是得出結(jié)論:段譽武功更高??梢?,融合了結(jié)構(gòu)化知識與大模型推理能力的Think-on-Graph,不僅條理清晰,還提供了可追溯的推理鏈條。LLM從「翻譯官」變「跑腿」,與KG緊耦合實現(xiàn)深度推理眾所周之,大模型擅長理解、推理、生成與學習;知識圖譜則因其結(jié)構(gòu)化的知識存儲方式,在邏輯鏈條推理上表現(xiàn)更佳,且具備更好的推理透明度與可信度。兩者是互補度極高的好拍檔,關鍵在于能否找到好的結(jié)合方式,據(jù)研究人員介紹,目前主流的方法有兩類。第一類是在模型預訓練或微調(diào)階段,將知識圖譜嵌入到一個高維向量空間,并與大模型的嵌入向量相融合。但此類方法不僅耗時、耗算力,也無法發(fā)揮知識圖譜的許多天然優(yōu)勢(如:實時知識更新、可解釋性、推理可追溯等)。第二類路徑則利用知識圖譜的知識結(jié)構(gòu),通過prompt engineering來進行兩者的融合,這之中又分松耦合、緊耦合兩種范式。
圖片
松耦合范式中的LLM相當于「翻譯官」,理解用戶的自然語言輸入后,將其翻譯成知識圖譜中的查詢語言,將KG上的搜索結(jié)果反向翻譯給用戶,這種范式對知識圖譜本身的質(zhì)量與完整度要求極高,忽略了大模型的內(nèi)在知識與推理能力。
圖片
在Think-on-Graph所代表的緊耦合范式中,LLM變身「跑腿」,作為agent在KG的關聯(lián)實體上一步一步搜索推理出最優(yōu)答案。因此,在每一步推理中,LLM都親自參與,與知識圖譜取長補短。在研究中,團隊用以下例子展示了緊耦合范式的優(yōu)勢:堪培拉所在國家當前的多數(shù)黨是哪個黨派?
圖片
從上面例子中可以看出,ChatGPT由于信息滯后,給出了錯誤答案。松耦合范式下,盡管引入了包含最新信息的KG,但由于缺少「多數(shù)黨」信息,導致推理無法完成;而在緊耦合范式中,LLM自行推理出「議會制國家的政府首腦通常也是多數(shù)黨領袖」,彌補了KG中的信息缺失,繞道推理出正確答案。Think-on-Graph,高效的緊耦合新范式據(jù)研究團隊介紹,Think-on-Graph借鑒了Transformer的beam-search算法思路。該算法為一個可循環(huán)的迭代過程,每次循環(huán)需先后完成搜索剪枝、推理決策兩個任務。搜索剪枝用于找出最有希望成為正確答案的推理路徑,推理決策任務則通過LLM來判斷已有的候選推理路徑是否足以回答問題——如果判斷結(jié)果為否,則繼續(xù)迭代到下個循環(huán)。我們依然以「堪培拉所在國當前的多數(shù)黨是哪個黨派?」為例來解釋。
圖片
案例:用搜索寬度N=2的beam-search實現(xiàn)Think-on-Graph推理在搜索剪枝任務中,大模型從關鍵詞Canberra出發(fā),匹配到知識圖譜中最接近(或一致)的實體,分別搜索了5個「關系→實體」對,并為它們打分(得分越高,則代表此新實體加入推理路徑中,可正確回答問題的能力越高)。
圖片
將分數(shù)從高到低排序后,LLM保留了得分最高的2個,形成兩條候選推理路徑:接下來,LLM對候選推理路徑進行評估,并將結(jié)果以Yes/No的形式反饋給算法。在案例中可見,LLM連續(xù)兩輪否決了候選路徑,直到完成第三輪迭代時,LLM才判斷已獲取回答問題的充分信息,因此停止算法迭代,向用戶輸出答案(該答案確為正確答案)。
圖片
大模型推理如何更可信?可解釋、可追溯、可修正研究團隊表示,Think-on-Graph算法還有效提升了大模型推理的可解釋性,并實現(xiàn)知識的可追溯、可糾錯與可修正。尤其是借助人工反饋與LLM推理能力,發(fā)現(xiàn)并修正知識圖譜中的錯誤信息,彌補LLM訓練時間長、知識更新慢的缺點。為測試此能力,我們設計了一個實驗:在前述「段譽與洪七公武功對比」案例的知識圖譜中,故意摻入錯誤信息「大理段氏的最強武功是一陽指,一般武功是六脈神劍」。
圖片
可見,盡管Think-on-Graph根據(jù)錯誤知識得出了錯誤答案,但由于算法內(nèi)置的「自我反思」能力,當判斷答案可信度不足時,會自動回溯在知識圖譜上的推理路徑,檢查路徑中的所有三元組。此時,LLM將利用自有知識,將疑似有誤的三元組挑選出來,并向用戶反饋分析與糾錯建議。
圖片
7個新SOTA,深度推理較ChatGPT最多提升214%研究在四類知識密集型任務(KBQA, Open-Domain QA, Slot Filling, Fact Checking)的共9個數(shù)據(jù)集上,對Think-on-Graph的表現(xiàn)進行了評估。
圖片
與IO、CoT、CoT-SC等不同prompting策略下的ChatGPT(GPT-3.5)相比,Think-on-Graph在所有數(shù)據(jù)集上的表現(xiàn)都顯著更優(yōu)。以Zeroshot-RE數(shù)據(jù)集中的對比為例,基于CoT的ChatGPT精度為28.8%,而同底座的Think-on-Graph精度為88%。當?shù)鬃P蜕墳镚PT-4后,Think-on-Graph的推理精度也明顯提升,在7個數(shù)據(jù)集上取得了SOTA,剩余數(shù)據(jù)集中的CWQ上也十分接近SOTA。值得注意的是,Think-on-Graph未在上述任何測試數(shù)據(jù)集上進行過監(jiān)督學習性質(zhì)的增量訓練或增量微調(diào),體現(xiàn)出超強的即插即用能力。此外,研究者還發(fā)現(xiàn),即便替換小規(guī)模的底座模型(如LLAMA2-70B),Think-on-Graph依然可在多個數(shù)據(jù)集上超越ChatGPT,這或可為大模型使用者提供一條低算力需求的技術(shù)路線選擇。
參考資料: