自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024) 原創(chuàng)

發(fā)布于 2024-12-17 15:31
瀏覽
0收藏

摘要:大型語言模型(LLMs)在復(fù)雜任務(wù)中展示了令人印象深刻的推理能力。然而,它們?nèi)狈ψ钚碌闹R(shí),并在推理過程中出現(xiàn)幻覺,這可能導(dǎo)致不正確的推理過程,從而降低其性能和可信度。知識(shí)圖譜(KGs)以結(jié)構(gòu)化格式捕捉大量事實(shí),為推理提供了可靠的知識(shí)來源。然而,現(xiàn)有的基于KG的LLM推理方法僅將KG視為事實(shí)知識(shí)庫,忽視了其結(jié)構(gòu)信息在推理中的重要性。在本文中,我們提出了一種新方法,稱為圖上推理(RoG),它將LLMs與KGs協(xié)同作用,以實(shí)現(xiàn)忠實(shí)且可解釋的推理。具體而言,我們提出了一個(gè)規(guī)劃-檢索-推理框架,其中RoG首先生成由KGs支撐的關(guān)系路徑作為忠實(shí)的計(jì)劃。這些計(jì)劃隨后用于從KGs檢索有效的推理路徑,以便LLMs進(jìn)行忠實(shí)的推理。此外,RoG不僅通過訓(xùn)練從KGs中提煉知識(shí)以提高LLMs的推理能力,還允許在推理過程中與任何任意的LLMs無縫集成。在兩個(gè)基準(zhǔn)KGQA數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,RoG在KG推理任務(wù)上達(dá)到了最先進(jìn)的性能,并生成了忠實(shí)且可解釋的推理結(jié)果。

1、引言

大型語言模型(LLMs)在許多自然語言處理(NLP)任務(wù)中表現(xiàn)出色(Brown et al., 2020; Bang et al., 2023)。尤其引人注目的是它們通過推理處理復(fù)雜任務(wù)的能力(Wei et al., 2022; Huang & Chang, 2023)。為了進(jìn)一步釋放LLMs的推理能力,提出了計(jì)劃-解決范式(Wang et al., 2023c),其中LLMs被提示生成一個(gè)計(jì)劃并執(zhí)行每個(gè)推理步驟。通過這種方式,LLMs將復(fù)雜的推理任務(wù)分解為一系列子任務(wù)并逐步解決(Khot et al., 2022)。

盡管取得了成功,LLMs仍然受到知識(shí)缺乏的限制,并在推理過程中容易出現(xiàn)幻覺,這可能導(dǎo)致推理過程中的錯(cuò)誤(Hong et al., 2023; Wang et al., 2023b)。例如,如圖1所示,LLMs沒有最新的知識(shí)并且幻覺出一個(gè)錯(cuò)誤的推理步驟:“有一個(gè)女兒”。這些問題在高風(fēng)險(xiǎn)場景(例如法律判斷和醫(yī)療診斷)中大大降低了LLMs的性能和可信度。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

圖1:大型語言模型(LLMs)推理中知識(shí)缺乏和幻覺的問題,以及如何通過知識(shí)圖譜(KGs)中的三元組和關(guān)系路徑來解決這些問題。

為了解決這些問題,知識(shí)圖譜(KGs)被引入以提高LLMs的推理能力(Pan et al., 2024; Luo et al., 2023a)。KGs以結(jié)構(gòu)化格式捕獲豐富的事實(shí)知識(shí),為推理提供可信的知識(shí)源。作為典型的推理任務(wù),知識(shí)圖譜問答(KGQA)旨在根據(jù)KG中的知識(shí)獲取答案(Sun et al., 2019)。先前將KGs與LLMs聯(lián)合用于KGQA推理的工作大致可以分為兩類:1)語義解析方法(Lan & Jiang, 2020; Ye et al., 2022),這些方法使用LLMs將問題轉(zhuǎn)換為在KG上執(zhí)行的邏輯查詢以獲取答案;2)檢索增強(qiáng)方法(Li et al., 2023; Jiang et al., 2023),這些方法從KGs中檢索三元組作為知識(shí)上下文,并使用LLMs獲得最終答案。

盡管語義解析方法通過利用KGs進(jìn)行推理可以生成更準(zhǔn)確和可解釋的結(jié)果,但生成的邏輯查詢通常不可執(zhí)行,且由于語法和語義限制而得不到答案(Yu et al., 2022a)。檢索增強(qiáng)方法更加靈活,并利用LLMs的推理能力。然而,它們僅將KGs視為事實(shí)知識(shí)庫,忽視了其結(jié)構(gòu)信息在推理中的重要性(Jiang et al., 2022)。例如,如圖1所示,一個(gè)關(guān)系路徑,即關(guān)系序列“子女→有兒子”,可以用來回答“賈斯丁·比伯的兄弟是誰?”這個(gè)問題。因此,使LLMs能夠直接在KGs上推理是實(shí)現(xiàn)忠實(shí)和可解釋推理的關(guān)鍵。

在本文中,我們提出了一種新方法,稱為圖上推理(RoG),它將LLMs與KGs協(xié)同作用,以進(jìn)行忠實(shí)和可解釋的推理。為了解決幻覺和知識(shí)缺乏的問題,我們提出了一種規(guī)劃-檢索-推理框架,其中RoG首先通過規(guī)劃模塊生成由KGs支撐的關(guān)系路徑作為忠實(shí)的計(jì)劃。這些計(jì)劃隨后被用于通過檢索-推理模塊從KGs中檢索有效的推理路徑,以進(jìn)行忠實(shí)推理。通過這種方式,我們不僅從KGs中檢索最新的知識(shí),還考慮了KG結(jié)構(gòu)對推理和解釋的指導(dǎo)。此外,RoG的規(guī)劃模塊可以在推理期間與不同的LLMs進(jìn)行即插即用的集成,以提高它們的性能?;谠摽蚣?,RoG通過兩個(gè)任務(wù)進(jìn)行優(yōu)化:1)規(guī)劃優(yōu)化,我們從KGs中提煉知識(shí)以生成忠實(shí)的關(guān)系路徑作為計(jì)劃;2)檢索-推理優(yōu)化,我們使LLMs能夠基于檢索到的路徑進(jìn)行忠實(shí)推理,并生成可解釋的結(jié)果。我們在兩個(gè)基準(zhǔn)KGQA數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果表明,RoG在KG推理任務(wù)上達(dá)到了最先進(jìn)的性能,并生成了忠實(shí)和可解釋的推理結(jié)果。

2、相關(guān)工作

LLM推理提示。許多研究提出了通過提示利用LLMs的推理能力來處理復(fù)雜任務(wù)(Wei et al., 2022; Wang et al., 2022; Yao et al., 2023; Besta et al., 2023)。計(jì)劃-解決(Wang et al., 2023c)提示LLMs生成一個(gè)計(jì)劃并根據(jù)其執(zhí)行推理。DecomP(He et al., 2021)提示LLMs將推理任務(wù)分解為一系列子任務(wù)并逐步解決。然而,幻覺和知識(shí)缺乏的問題影響了LLMs推理的可信度。ReACT(Yao et al., 2022)將LLMs視為代理,與環(huán)境互動(dòng)以獲取最新的推理知識(shí)。為了探索忠實(shí)推理,F(xiàn)AME(Hong et al., 2023)引入蒙特卡洛規(guī)劃來生成忠實(shí)的推理步驟。RR(He et al., 2022)和KD-CoT(Wang et al., 2023b)進(jìn)一步從KGs中檢索相關(guān)知識(shí),以為LLMs生成忠實(shí)的推理計(jì)劃。

知識(shí)圖譜問答(KGQA)。傳統(tǒng)的基于嵌入的方法在嵌入空間中表示實(shí)體和關(guān)系,并設(shè)計(jì)特殊的模型架構(gòu)(例如,關(guān)鍵值記憶網(wǎng)絡(luò)、序列模型和圖神經(jīng)網(wǎng)絡(luò))來推理答案(Miller et al., 2016; He et al., 2021; Yasunaga et al., 2021)。為了將LLMs與KGQA結(jié)合,檢索增強(qiáng)方法旨在從KGs中檢索相關(guān)事實(shí),以提高推理性能(Li et al., 2023; Karpukhin et al., 2020)。最近,UniKGQA(Jiang et al., 2022)將圖檢索和推理過程統(tǒng)一為一個(gè)與LLMs的單一模型,達(dá)到了KGQA任務(wù)的最佳性能。語義解析方法通過LLMs將問題轉(zhuǎn)換為結(jié)構(gòu)查詢(例如SPARQL),這些查詢可以由查詢引擎執(zhí)行以在KG上推理答案(Sun et al., 2020; Lan & Jiang, 2020)。然而,這些方法在很大程度上依賴于生成查詢的質(zhì)量。如果查詢不可執(zhí)行,則不會(huì)生成答案。DECAF(Yu et al., 2022a)結(jié)合語義解析和LLMs推理以聯(lián)合生成答案,在KGQA任務(wù)中也取得了顯著性能。

3、初步概念

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

4、方法  

在這一部分,我們介紹我們的方法:圖上推理(RoG),它包含兩個(gè)組件:1)一個(gè)生成基于KGs的忠實(shí)關(guān)系路徑作為問題回答計(jì)劃的規(guī)劃模塊;2)一個(gè)檢索-推理模塊,首先根據(jù)計(jì)劃從KGs中檢索有效的推理路徑,然后根據(jù)檢索到的推理路徑進(jìn)行忠實(shí)推理并生成可解釋的答案。RoG的整體框架如圖2所示。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

圖2:圖上推理(RoG)的整體框架。1)給定一個(gè)問題,我們首先提示大型語言模型(LLMs)生成幾個(gè)以知識(shí)圖譜(KGs)為基礎(chǔ)的關(guān)系路徑作為計(jì)劃。2)然后,我們使用這些計(jì)劃從KGs中檢索推理路徑。3)最后,我們基于檢索到的推理路徑進(jìn)行忠實(shí)推理,并生成帶有可解釋解釋的答案。橙色和紅色矩形分別表示問題和答案中提到的實(shí)體。

4.1 圖上推理:規(guī)劃-檢索-推理  

最近,許多技術(shù)被探索以通過規(guī)劃提高LLMs的推理能力,首先提示LLMs生成推理計(jì)劃,然后根據(jù)該計(jì)劃進(jìn)行推理(Wang et al., 2023c)。然而,LLMs已知存在幻覺問題,容易生成不正確的計(jì)劃并導(dǎo)致錯(cuò)誤答案(Ji et al., 2023)。為了解決這個(gè)問題,我們提出了一種新穎的規(guī)劃-檢索-推理框架,使推理計(jì)劃基于KGs,從而檢索出忠實(shí)的推理路徑供LLMs進(jìn)行推理。

關(guān)系路徑捕獲了實(shí)體之間的語義關(guān)系,已在許多KG上的推理任務(wù)中得到應(yīng)用(Wang et al., 2021; Xu et al., 2022)。此外,與動(dòng)態(tài)更新的實(shí)體相比,KG中的關(guān)系更穩(wěn)定(Wang et al., 2023a)。通過使用關(guān)系路徑,我們始終可以從KGs中檢索到最新的知識(shí)進(jìn)行推理。因此,關(guān)系路徑可以作為回答KGQA任務(wù)的忠實(shí)計(jì)劃。

示例2。給定問題“艾麗斯的孩子是誰?”,我們可以生成一個(gè)關(guān)系路徑作為計(jì)劃:z = 嫁→父親。這個(gè)關(guān)系路徑表達(dá)了計(jì)劃:1)找到“艾麗斯”所嫁的人;2)找到該人的孩子。我們可以通過從KGs檢索推理路徑來執(zhí)行該計(jì)劃(關(guān)系路徑):wz = 艾麗斯嫁→鮑勃父親→查理。最后,我們可以根據(jù)推理路徑回答問題,答案是“查理”。

通過將關(guān)系路徑視為計(jì)劃,我們可以確保這些計(jì)劃基于KGs,從而使LLMs能夠在圖上進(jìn)行忠實(shí)和可解釋的推理。簡而言之,我們將RoG表述為一個(gè)優(yōu)化問題,旨在通過生成關(guān)系路徑z作為計(jì)劃,最大化從知識(shí)圖譜G推理答案的概率:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中 θ表示大型語言模型(LLMs)的參數(shù),z 表示LLMs生成的關(guān)系路徑(計(jì)劃),而 Z 表示可能關(guān)系路徑的集合。后一個(gè)項(xiàng) Pθ(z∣q) 是在給定問題 q 的情況下生成基于知識(shí)圖譜(KG)的忠實(shí)關(guān)系路徑 z 的概率,這由規(guī)劃模塊實(shí)現(xiàn)。前一個(gè)項(xiàng)Pθ(a∣q,z,G) 是在給定問題 q、關(guān)系路徑 z和知識(shí)圖譜 G的情況下推理答案 a的概率,這由檢索-推理模塊計(jì)算得出。

4.2 優(yōu)化框架

盡管生成關(guān)系路徑作為計(jì)劃具有優(yōu)勢,但LLMs對KGs中包含的關(guān)系幾乎沒有知識(shí)。因此,LLMs無法直接生成基于KGs的忠實(shí)計(jì)劃的關(guān)系路徑。此外,LLMs可能無法正確理解推理路徑并基于它們進(jìn)行推理。為了解決這些問題,我們設(shè)計(jì)了兩個(gè)指令調(diào)優(yōu)任務(wù):

1)規(guī)劃優(yōu)化,旨在將KG中的知識(shí)提煉到LLMs中,以生成忠實(shí)的關(guān)系路徑作為計(jì)劃;

2)檢索-推理優(yōu)化,旨在使LLMs能夠基于檢索到的推理路徑進(jìn)行推理。

公式(1)中的目標(biāo)函數(shù)可以通過最大化證據(jù)下界(ELBO)進(jìn)行優(yōu)化(Jordan et al., 1999),其形式為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中 Q(z)  表示基于KGs的忠實(shí)關(guān)系路徑的后驗(yàn)分布。后一個(gè)項(xiàng)最小化后驗(yàn)分布與先驗(yàn)分布之間的KL散度,這鼓勵(lì)LLMs生成忠實(shí)的關(guān)系路徑(規(guī)劃優(yōu)化)。前一個(gè)項(xiàng)最大化期望,即檢索-推理模塊基于關(guān)系路徑和KGs生成正確答案的概率(檢索-推理優(yōu)化)。

規(guī)劃優(yōu)化。在規(guī)劃優(yōu)化中,我們的目標(biāo)是將KG中的知識(shí)提煉到LLMs中,以生成忠實(shí)的關(guān)系路徑作為計(jì)劃。這可以通過最小化與KGs中的忠實(shí)關(guān)系路徑的后驗(yàn)分布  Q(z)  的KL散度來實(shí)現(xiàn)。

給定問題q和答案a ,我們可以在KG中找到路徑實(shí)例

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

連接  eq  和  ea 。相應(yīng)的關(guān)系路徑z={r1,r2,…,rl}可以被視為有效的,并作為回答問題  q  的忠實(shí)計(jì)劃。后驗(yàn)分布  Q(z)  可以形式化地近似為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中我們假設(shè)在所有有效關(guān)系路徑 Z  上均勻分布,且 ?wz(eq, ea) ∈ G   表示連接問題  e_q  和答案  e_a  的路徑實(shí)例在  G  中存在。因此,KL散度可以計(jì)算為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中我們使用KGs中 e_q  和  e_a  之間的最短路徑  Z ?Z  作為監(jiān)督信號(hào)(Zhang et al., 2022)。詳細(xì)推導(dǎo)可以在附錄A.1中找到。通過優(yōu)化公式(4),我們最大化LLMs生成忠實(shí)關(guān)系路徑的概率,同時(shí)從KG中提煉知識(shí)。

檢索-推理優(yōu)化。在檢索-推理優(yōu)化中,我們的目標(biāo)是使LLMs能夠基于檢索到的推理路徑進(jìn)行推理。對于檢索-推理模塊,我們遵循FiD框架(Izacard & Grave, 2021; Singh et al., 2021),該框架允許在多個(gè)檢索到的推理路徑上進(jìn)行推理,形式化為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

通過用采樣的 K  個(gè)計(jì)劃 ZK ?Z 近似期望,推理優(yōu)化的目標(biāo)函數(shù)可以寫為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

這最大化LLMs基于檢索到的推理路徑生成正確答案的概率。

RoG的最終目標(biāo)函數(shù)是規(guī)劃優(yōu)化和檢索-推理優(yōu)化的組合,可以形式化為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

從公式(7)可以看出,我們對規(guī)劃和推理使用相同的LLM,這兩個(gè)任務(wù)(規(guī)劃和檢索-推理)在共同訓(xùn)練。我們將在接下來的子部分討論這兩個(gè)任務(wù)的實(shí)現(xiàn)細(xì)節(jié)。

4.3 規(guī)劃模塊  

規(guī)劃模塊旨在生成忠實(shí)的關(guān)系路徑,作為回答問題的計(jì)劃。為了利用大型語言模型(LLMs)的指令跟隨能力(Wei et al., 2021),我們設(shè)計(jì)了一個(gè)簡單的指令模板,提示LLMs生成關(guān)系路徑:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

請生成一個(gè)有效的關(guān)系路徑,以幫助回答以下問題:<Question>

其中 <Question> 表示問題q。問題和指令模板一起輸入LLMs,以生成關(guān)系路徑,這些路徑結(jié)構(gòu)化格式化為一個(gè)句子:

z = <PATH> r1 <SEP> r2 <SEP> . . . <SEP> rl </PATH>

其中 <PATH>、<SEP> 和 </PATH> 是特殊標(biāo)記,分別表示關(guān)系路徑的開始、分隔符和結(jié)束。

因此,規(guī)劃的優(yōu)化可以表示為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中 Pθ(z|q)  表示生成忠實(shí)關(guān)系路徑z的先驗(yàn)分布,Pθ(ri|r<i, q) 表示LLMs生成路徑  z 中每個(gè)標(biāo)記的概率。

4.4 檢索-推理模塊  

檢索。給定問題q和作為計(jì)劃的關(guān)系路徑z,檢索模塊旨在從知識(shí)圖譜G中檢索推理路徑Wz。檢索過程可以通過找到在 G 中從問題實(shí)體 eq開始并遵循關(guān)系路徑 z的路徑來進(jìn)行,公式化為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

我們采用受限的廣度優(yōu)先搜索從知識(shí)圖譜中檢索推理路徑 wz 。在實(shí)驗(yàn)中,所有檢索到的路徑都用于推理。詳細(xì)的檢索算法可以在附錄 A.3 中找到。

盡管我們可以利用檢索到的推理路徑并通過多數(shù)投票直接獲得答案,但檢索到的推理路徑可能是噪聲且與問題無關(guān),這會(huì)導(dǎo)致錯(cuò)誤答案(He et al., 2021;Zhang et al., 2022)。因此,我們提出了一個(gè)推理模塊,以探索大型語言模型(LLMs)識(shí)別重要推理路徑的能力,并基于這些路徑回答問題。

推理。推理模塊接受問題  q  和一組推理路徑  Wz  來生成答案  a 。類似地,我們設(shè)計(jì)了一個(gè)推理指令提示,引導(dǎo)LLMs基于檢索到的推理路徑  Wz  進(jìn)行推理。 Wz  也格式化為一系列結(jié)構(gòu)化句子。詳細(xì)的提示可以在附錄 A.10 中找到。

推理的優(yōu)化可以寫為:

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

其中Pθ(a|q, ZK, G) 表示基于K條關(guān)系路徑ZK 推理正確答案a的概率,t表示答案a的標(biāo)記。

5、實(shí)驗(yàn)  

在我們的實(shí)驗(yàn)中,我們旨在回答以下研究問題:RQ1:RoG能否在KGQA任務(wù)中實(shí)現(xiàn)最先進(jìn)的性能?RQ2:RoG的規(guī)劃模塊能否與其他大型語言模型(LLMs)集成以提高它們的性能?RQ3:RoG能否進(jìn)行忠實(shí)推理并生成可解釋的推理結(jié)果?

5.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集。我們在兩個(gè)基準(zhǔn)知識(shí)圖譜問答(KGQA)數(shù)據(jù)集上評(píng)估RoG的推理能力:WebQuestionSP(WebQSP)(Yih et al., 2016)和復(fù)雜網(wǎng)頁問答(CWQ)(Talmor & Berant, 2018),這兩個(gè)數(shù)據(jù)集包含最多4跳的問題。Freebase(Bollacker et al., 2008)是這兩個(gè)數(shù)據(jù)集的背景知識(shí)圖譜,包含大約8800萬個(gè)實(shí)體、2萬個(gè)關(guān)系和1.26億個(gè)三元組。數(shù)據(jù)集的詳細(xì)信息在附錄A.4中描述。

基線。我們將RoG與21個(gè)基線進(jìn)行比較,這些基線分為5類:1)基于嵌入的方法,2)檢索增強(qiáng)的方法,3)語義解析的方法,4)大型語言模型(LLMs),以及5)LLMs+KGs的方法。每個(gè)基線的詳細(xì)信息在附錄A.5中描述。

評(píng)估指標(biāo)。根據(jù)先前的研究,我們使用Hits@1和F1作為評(píng)估指標(biāo)。Hits@1衡量的是預(yù)測答案的前1個(gè)正確的問答比例。由于一個(gè)問題可能對應(yīng)多個(gè)答案,F(xiàn)1考慮了所有答案的覆蓋率,從而平衡了預(yù)測答案的精準(zhǔn)度和召回率。

實(shí)現(xiàn)。對于RoG,我們使用LLaMA2-Chat-7B(Touvron et al., 2023)作為大型語言模型的基礎(chǔ),該模型在WebQSP和CWQ的訓(xùn)練集以及Freebase上進(jìn)行了3個(gè)周期的指令微調(diào)。我們?yōu)槊總€(gè)問題生成前3個(gè)關(guān)系路徑,使用的是束搜索算法。由于UniKGQA(Jiang et al., 2022)和DECAF(Yu et al., 2022a)是最先進(jìn)的方法,我們直接引用它們的結(jié)果以及其他基線在其論文中報(bào)告的結(jié)果進(jìn)行比較。對于LLMs,我們使用0-shot提示進(jìn)行KGQA。詳細(xì)設(shè)置在附錄A.6中描述。

5.2 RQ1: KGQA性能比較

主要結(jié)果。在本節(jié)中,我們比較RoG與其他基線在KGQA任務(wù)上的表現(xiàn)。結(jié)果如表1所示。我們的方法在兩個(gè)數(shù)據(jù)集上大多數(shù)指標(biāo)上都達(dá)到了最佳性能。具體來說,與最先進(jìn)的方法DECAF(Yu et al., 2022a)在WebQSP上的比較,我們的方法將Hits@1提高了4.4%。在CWQ數(shù)據(jù)集中,由于多跳問題的挑戰(zhàn),我們的方法在Hits@1和F1上分別提高了22.3%和14.4%,相比于最先進(jìn)模型UniKGQA(Jiang et al., 2022)。這些結(jié)果展示了我們方法在KGQA中的卓越推理能力。

表1:RoG與基線方法的性能比較

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

在其他方法中,檢索增強(qiáng)方法通過從KGs中檢索相關(guān)子圖,超越了傳統(tǒng)的基于嵌入的方法,從而降低了推理復(fù)雜性。此外,SR+NSM和SR+NSM+E2E采用基于關(guān)系路徑的檢索,取得了更好的性能,強(qiáng)調(diào)了關(guān)系路徑的重要性。語義解析方法在WebQSP上的表現(xiàn)優(yōu)于檢索方法,但在CWQ上表現(xiàn)較差,這是由于CWQ中復(fù)雜問題的邏輯查詢生成的復(fù)雜性。盡管基于LLMs的方法表現(xiàn)可比,但如第5.4節(jié)所示,它們受到幻覺和知識(shí)缺乏的限制。LLMs+KGs的方法取得了第二好的性能,這證明了統(tǒng)一KGs和LLMs進(jìn)行推理的有效性。

消融研究。我們進(jìn)行了一項(xiàng)消融研究,以分析我們的方法(RoG)中規(guī)劃模塊和推理模塊的有效性。我們比較了四個(gè)變體:1)不使用規(guī)劃(w/o planning),在此情況下,我們移除規(guī)劃模塊,進(jìn)行沒有檢索推理路徑的推理;2)不使用推理(w/o reasoning),在此情況下,我們移除推理模塊,使用從檢索推理路徑中獲得的所有答案作為結(jié)果;3)使用隨機(jī)計(jì)劃(w/ random plans),在此情況下,我們隨機(jī)從KGs中檢索推理路徑并將其輸入到推理模塊;4)使用投票推理(w/ vote reasoning),在此情況下,我們采用多數(shù)投票從檢索的推理路徑中選擇前5個(gè)答案。結(jié)果如表2所示。從結(jié)果中明顯可以看出,沒有規(guī)劃模塊,我們的方法退化為僅依賴問題作為輸入的傳統(tǒng)LLMs,遭受知識(shí)缺乏的問題。雖然移除推理模塊會(huì)導(dǎo)致由于答案數(shù)量增加而回憶率較高,但由于檢索路徑中的噪聲,精準(zhǔn)度顯著下降。這證明了推理模塊在識(shí)別重要推理路徑和過濾噪聲方面的有效性。此外,使用隨機(jī)計(jì)劃的性能還不如移除規(guī)劃模塊,強(qiáng)調(diào)了規(guī)劃模塊生成忠實(shí)推理計(jì)劃的重要性。使用簡單的多數(shù)投票推理可以改善結(jié)果,這也證明了推理模塊的必要性。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

5.3 RQ2: 即插即用的RoG規(guī)劃模塊

在本節(jié)中,我們評(píng)估將RoG的規(guī)劃模塊與不同的LLMs集成以提高其性能的有效性。具體而言,我們首先采用RoG的規(guī)劃模塊生成關(guān)系路徑,并將檢索到的推理路徑作為上下文輸入到不同的LLMs中進(jìn)行推理。結(jié)果如表3所示。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

考慮到從LLMs的輸出中提取答案數(shù)量的困難,我們僅報(bào)告Hits@1和召回率指標(biāo)。從結(jié)果中,我們可以注意到,所有LLMs的性能在集成RoG的規(guī)劃模塊后都有顯著改善。具體而言,ChatGPT、Alpaca、LLaMA2和Flan-T5的Hits@1分別提高了8.5%、15.3%和119.3%。這證明了RoG的規(guī)劃模塊可以與其他LLMs無縫集成,以提高其性能,而無需重新訓(xùn)練。

5.4 RQ3: 忠實(shí)推理和可解釋結(jié)果

定量結(jié)果。為了評(píng)估關(guān)系路徑的忠實(shí)性,我們在圖3中展示了定量結(jié)果。在實(shí)驗(yàn)中,我們調(diào)整了RoG生成的前K個(gè)關(guān)系路徑的數(shù)量。從結(jié)果中可以看出,檢索到的推理路徑的數(shù)量隨著K的增加而增加,這也導(dǎo)致覆蓋更多答案(召回)。這證明了通過檢索答案實(shí)現(xiàn)關(guān)系路徑的忠實(shí)性。然而,更多的檢索推理路徑也會(huì)導(dǎo)致更多的噪聲和檢索時(shí)間(如附錄A.7.4所示),這降低了精確度,并對最終結(jié)果(推理-F1)貢獻(xiàn)甚微。因此,我們在實(shí)驗(yàn)中設(shè)置K=3。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

圖3:前K個(gè)生成關(guān)系路徑的忠實(shí)性。綠色條形表示檢索到的推理路徑的平均數(shù)量,實(shí)線表示檢索路徑的答案覆蓋率,虛線表示基于檢索到的推理路徑的推理模塊的答案覆蓋率。

案例研究。我們還在表4和表5中展示了兩個(gè)案例研究。在表4中,我們發(fā)現(xiàn)ChatGPT+CoT遭遇了知識(shí)缺乏的問題,無法回答問題。相反,RoG能夠生成忠實(shí)的關(guān)系路徑,并從KGs中檢索有效的推理路徑進(jìn)行推理。此外,RoG可以基于推理路徑提供可解釋的解釋。在表5中,我們看到ChatGPT+CoT受到幻覺的影響,生成了錯(cuò)誤的答案。相比之下,盡管檢索到的推理路徑包含噪聲,推理模塊仍能夠識(shí)別出正確的推理路徑并進(jìn)行忠實(shí)推理。這些結(jié)果證明了RoG在進(jìn)行忠實(shí)推理和生成可解釋結(jié)果方面的有效性。更多案例可以在附錄A.8和A.9中找到。

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

圖上的推理:忠實(shí)且可解釋的大型語言模型推理(ICLR2024)-AI.x社區(qū)

5.4 討論  

RoG的實(shí)驗(yàn)結(jié)果顯示,通過規(guī)劃和檢索結(jié)合的方式,可以顯著提升LLMs在KGQA任務(wù)中的推理性能。生成的關(guān)系路徑為推理提供了結(jié)構(gòu)支持,從而降低了幻覺的可能性。

6、結(jié)論

在本文中,我們提出了圖上推理(RoG)框架,結(jié)合了規(guī)劃和檢索-推理模塊,利用知識(shí)圖譜提升LLMs的推理能力。我們的實(shí)驗(yàn)結(jié)果表明,RoG在多個(gè)KGQA任務(wù)上達(dá)到了最先進(jìn)的性能,并生成了可解釋的推理結(jié)果。未來的工作將致力于擴(kuò)展RoG框架,以支持更多類型的推理任務(wù),并進(jìn)一步提高推理的準(zhǔn)確性和解釋性。


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/sI31pnKqnhkdU3zG3zWAmQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦