自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升 精華

發(fā)布于 2024-9-3 11:53
瀏覽
0收藏

1. GMeLLo 提出的背景

1.1 多跳問答

多跳問答的難度往往比較大,因?yàn)椴粌H要追溯事實(shí),還要聚合與串聯(lián)事實(shí)。

事實(shí)的來源可以是知識圖譜、表格、自由格式文本,或者是這些來源的異構(gòu)組合。

隨著大型語言模型的發(fā)展,基于提示的方法搭配可選的檢索模塊已成為處理多跳問答的常用手段,但以往多數(shù)工作側(cè)重于靜態(tài)信息庫。

1.2 知識編輯

知識編輯目前有兩種主流方案:修改模型參數(shù)和保留模型參數(shù)。

1.2.1 修改模型參數(shù)

可進(jìn)一步細(xì)分為元學(xué)習(xí)和定位-編輯方法。

? 元學(xué)習(xí)方法(meta-learning):利用超網(wǎng)絡(luò)來學(xué)習(xí)編輯大型語言模型所需的調(diào)整。

? 定位-然后-編輯(locate-then-edit)范例,首先識別與特定知識對應(yīng)的參數(shù),然后通過直接更新目標(biāo)參數(shù)來進(jìn)行修改。

2.2.2 保留模型參數(shù)

在保留模型參數(shù)的情況下,主要方法是引入額外的參數(shù)或外部存儲器。

? 額外參數(shù)范式( additional parameters ):將額外的可訓(xùn)練參數(shù)納入語言模型。這些參數(shù)在修改后的知識數(shù)據(jù)集上進(jìn)行訓(xùn)練,而原始模型參數(shù)保持不變。

? 基于存儲器的模型(memory-based models):將所有編輯的示例存儲在存儲器中,并使用檢索器為每個新輸入提取相關(guān)的編輯事實(shí),從而引導(dǎo)模型生成編輯后的輸出。

2. GMeLLo

基于以上背景,作者提出了 GMeLLo (Graph Memory-based Editing for Large Language Models)方法,通過整合大語言模型和知識圖譜(Knowgledge Graph),解決知識編輯后的多跳問答任務(wù)。

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

如上圖,在更新了有關(guān)英國首相的信息后,顯然相應(yīng)的配偶信息也應(yīng)予以修改。

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

如上圖所示,GMeLLo  包括以下關(guān)鍵步驟:

? 借助大型語言模型將編輯后的事實(shí)句子轉(zhuǎn)化為三元組,利用這些三元組來更新知識圖譜,確保其信息保持最新。

? 對于給定的問題,利用大型語言模型提取其關(guān)系鏈。通過模板填充,將關(guān)系鏈轉(zhuǎn)換為正式查詢,并用于搜索更新后的知識圖譜。

? 依據(jù)問題檢索最相關(guān)的編輯事實(shí),并通過大型語言模型依據(jù)這些事實(shí)生成答案。

? 當(dāng)大型語言模型提供的答案與知識圖譜的答案相沖突時,將知識圖譜的答案作為最終回應(yīng)。

3.1 從知識庫中提取三元組

將知識圖譜 Wikidata 用作基礎(chǔ)知識庫。當(dāng)收到更新的事實(shí)時,運(yùn)用大型語言模型從句子中提取實(shí)體并確定它們的關(guān)系(從預(yù)定義列表中選擇一個關(guān)系)。生成經(jīng)過編輯的事實(shí)三元組,然后用于更新知識圖譜。需要依據(jù)主體實(shí)體和關(guān)系來識別知識圖譜中的連接,打破這些連接,并基于三元組建立新的連接。

通過上下文學(xué)習(xí),以確保大型語言模型對任務(wù)有深入理解。此外,鑒于大型語言模型可能生成不在預(yù)定義關(guān)系列表中的關(guān)系,使用檢索模型從預(yù)定義關(guān)系列表中識別出最相似的關(guān)系(即嵌入空間中最接近的關(guān)系)。檢索模型的融入讓三元組提取過程更強(qiáng)大。

3.2 從問題中提取關(guān)系鏈

隨著世界快速發(fā)展,大型語言模型的訓(xùn)練數(shù)據(jù)可能很快過時。

不過,由于語言模式的演變通常較為緩慢,大型語言模型的大量訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)能使其有效地理解大多數(shù)句子模式。

借助大型語言模型從句子中提取關(guān)系鏈,涵蓋問題中提到的實(shí)體及其與其他未識別實(shí)體的關(guān)系。與從知識庫中提取三元組提取類似,讓大型語言模型從預(yù)定義列表中選擇一個關(guān)系,以減少相同關(guān)系的不同表述。

以 MQuAKE-CF 數(shù)據(jù)集中的一個問題句子為例,

問題:

Eeyore 的創(chuàng)作者的孩子的國籍所在國家的首都是什么?

What is the capital of the country of citizenship of the child of the creator of Eeyore?

關(guān)系鏈

Eeyore->創(chuàng)作者->?x->孩子->?y->國籍->?z->首都->?m

Eeyore->creator->?x->child->?y->country of citizenship->?z->capital->?m

示例中的這個問題需要一個 4 跳的推理過程。

以“Eeyore”作為關(guān)注的已知實(shí)體,要得出最終答案,需要依次識別其創(chuàng)作者“?x”,接著是創(chuàng)作者的孩子“?y”,獲取孩子的國籍“?z”,最終檢索該國的首都“?m”。所有的關(guān)系,如“創(chuàng)作者”“孩子”“國籍”和“首都”,都從預(yù)定義的關(guān)系列表中選取。關(guān)系鏈囊括了得出答案所需的全部關(guān)鍵信息。

為了讓大型語言模型能夠提取關(guān)系鏈并以結(jié)構(gòu)化模板生成輸出,在提示中提供了若干關(guān)系鏈提取的示例用于模型的上下文學(xué)習(xí)。具體提示詞如下:

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

? 以上提示詞用于從知識庫中提取三元組

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

? 以上提示詞用于從問題中提取三元組

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

? 以上提示詞用于基于LLM的QA

3.3 將關(guān)系鏈轉(zhuǎn)換為正式查詢

一旦獲取關(guān)系鏈,接下來就要把已知實(shí)體和關(guān)系整合到正式的查詢模板中。

考慮以 RDF 格式展示知識圖譜并以 SPARQL 查詢,比如:

PREFIX ent: <http://www.kg/entity/>
PREFIX rel: <http://www.kg/relation/>
SELECT DISTINCT?id?label WHERE {
  ent:E0 rel:R0?x.
  ?x rel:R1?y.
  ?y rel:R2?z.
  ?z rel:R3?id.
  ?id rdfs:label?label.
}LIMIT 1

“ent”和“rel”分別作為實(shí)體和關(guān)系的前綴。

標(biāo)識符“E0”在知識圖譜中唯一代表“Eeyore”,而“創(chuàng)作者”“孩子”“國籍”和“首都”的標(biāo)識符分別記為“R0”“R1”“R2”和“R3”。

在識別出實(shí)體“?id”后,檢索其字符串標(biāo)簽“?label”作為最終答案。

3.4 整合LLM-QA與KG-QA

3.4.1 LLM-QA:基于大型語言模型的問答

使用預(yù)訓(xùn)練的 Contriever 模型從一系列編輯過的事實(shí)句子中檢索最相關(guān)的事實(shí)。然后,大型語言模型依據(jù)問題和這些相關(guān)事實(shí)生成答案。與 MeLLo 中的“拆分-回答-檢查”流程相比,在事實(shí)準(zhǔn)確提供的情況下,這種基于大型語言模型的問答方式預(yù)計(jì)更簡便,并能得出更準(zhǔn)確的結(jié)果。

Contriever是一個 Embedding模型,用于Dense Retrieval

Github地址:https://github.com/facebookresearch/contriever

然而,處理多跳問題,尤其是那些編輯的事實(shí)與中間跳有關(guān)的問題時,往往無法準(zhǔn)確檢索到相關(guān)信息。

3.4.2 KG-QA:基于知識庫的問答

為了解決基于大型語言模型問答的難題,整合來自基于知識庫的問答的響應(yīng),以優(yōu)化大型語言模型的輸出。

當(dāng)關(guān)系鏈和事實(shí)三元組準(zhǔn)確推導(dǎo)出來后,基于知識庫的問答系統(tǒng)會提供正確答案。

然而,如果關(guān)系鏈提取有誤,知識圖譜中的搜索路徑可能失效,導(dǎo)致基于知識庫的問答系統(tǒng)無法產(chǎn)生輸出。在這種情況下,將大型語言模型的響應(yīng)視作最終答案。

4. 效果評估

4.1 評估數(shù)據(jù)集

MQuAKE是一個聚焦于多跳問答的測試數(shù)據(jù)集,主要包括兩個數(shù)據(jù)集:MQuAKE-CF、MQuAKE-T。

? MQuAKE-CF:在 MQuAKE-CF 上的實(shí)驗(yàn)是基于完整數(shù)據(jù)集的隨機(jī)抽樣子集進(jìn)行的,總計(jì)包含 3000 個實(shí)例(2、3、4 跳問題各 1000 個實(shí)例),專為反事實(shí)編輯而設(shè)。每個問題都與一個或多個編輯相關(guān),用于檢驗(yàn)知識編輯方法處理反事實(shí)編輯的有效性。

? MQuAKE-T,專為時間知識的更新定制。由 1868 個實(shí)例構(gòu)成,每個實(shí)例都與一個現(xiàn)實(shí)世界的事實(shí)變化相關(guān)。其旨在評估知識編輯方法在運(yùn)用當(dāng)代事實(shí)數(shù)據(jù)更新過時信息方面的效能。

4.2 參數(shù)設(shè)置

具體而言,測試樣本被分組處理:

? MQuAKE-CF:每組樣本數(shù) n 取值于 {1, 100, 1000, 3000}

? MQuAKE-T:每組樣本數(shù) n 取值于 {1, 100, 500, 1868}

4.3 測試基準(zhǔn)

? MEND:通過訓(xùn)練一個超網(wǎng)絡(luò),基于編輯的事實(shí)轉(zhuǎn)換原始微調(diào)梯度來生成權(quán)重更新。

? MEMIT:更新各層的前饋網(wǎng)絡(luò)以納入所有相關(guān)事實(shí)。

? MeLLo:采用基于內(nèi)存的方式進(jìn)行多跳問答,將所有更新的事實(shí)存儲于外部內(nèi)存中。

4.4 主要結(jié)果

GMeLLo:結(jié)合知識圖譜的 LLM 多跳問答技術(shù),效果顯著提升-AI.x社區(qū)圖片

如上圖,GMeLLo 在 MQuAKE-CF 數(shù)據(jù)集和 MQuAKE-T 數(shù)據(jù)集上均顯著優(yōu)于所有現(xiàn)有方法,尤其在處理大量編輯時表現(xiàn)出色。

MeLLo 的性能下降主要?dú)w因于隨著編輯數(shù)量的增加,它在識別相關(guān)事實(shí)方面遭遇挑戰(zhàn)。

當(dāng) k = 1 時,模型僅使用與輸入問題直接相關(guān)的事實(shí)作為上下文。然而,隨著 k 的增大,模型在從更廣泛的內(nèi)存中辨別相關(guān)事實(shí)時面臨困境。

GMeLLo 模型通過采用明確的符號圖表示來化解這一難題,增強(qiáng)了系統(tǒng)有效更新和檢索相關(guān)事實(shí)的能力。這一特性顯著提升了 GMeLLo 的可擴(kuò)展性,使其非常適用于需要管理大量快速變化信息的實(shí)際問答應(yīng)用。

使用兩個更大的模型,GPT-3.5-Turbo-Instruct 和 GPT-3.5-Turbo 在 MQuAKE-CF 數(shù)據(jù)集上對 MeLLo 和 GMeLLo 進(jìn)行評估,k = 3000。MeLLo 和 GMeLLo 與 GPT-3.5-Turbo-Instruct 的準(zhǔn)確率分別為 30.7%和 51.4%。

而GMeLLo在使用GPT-3.5-Turbo時準(zhǔn)確率高達(dá)66.4%,但當(dāng)與MeLLo結(jié)合使用時,該模型卻頻繁出錯。

這些發(fā)現(xiàn)表明,GMeLLo即使在擴(kuò)展到更大型的語言模型時,依然能夠保持良好的性能。

5. 局限性

? 未借助更為精妙的提示技術(shù),例如思維鏈(CoT),來實(shí)現(xiàn)更精準(zhǔn)的多跳推理。

? 未優(yōu)化預(yù)定義的關(guān)系列表,以提升其準(zhǔn)確性。

? 可以進(jìn)一步強(qiáng)化知識圖譜,以支持更復(fù)雜的問答,比如涉及歷史信息的查詢。

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI 

標(biāo)簽
已于2024-9-3 17:46:58修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦