自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%

發(fā)布于 2024-5-30 13:53
瀏覽
0收藏

大型語言模型(LLMs)在預(yù)訓(xùn)練后仍難以有效整合大量新經(jīng)驗(yàn),當(dāng)前使用的檢索增強(qiáng)生成(RAG)方法無法幫助LLMs跨段落整合新知識(shí)。人類大腦通過海馬體的索引結(jié)構(gòu)來實(shí)現(xiàn)關(guān)聯(lián)記憶能力,這是當(dāng)前RAG系統(tǒng)所缺乏的。

知識(shí)整合與RAG。需要知識(shí)整合的任務(wù)對(duì)于當(dāng)前的RAG系統(tǒng)來說特別具有挑戰(zhàn)性。在上述例子中,從描述可能成千上萬的斯坦福教授和阿爾茨海默癥研究人員的段落中找到一位從事阿爾茨海默癥研究的斯坦福教授。由于當(dāng)前方法孤立地對(duì)段落進(jìn)行編碼,除非一個(gè)段落同時(shí)提到了這兩個(gè)特征,否則它們很難識(shí)別出托馬斯教授。相比之下,大多數(shù)熟悉這位教授的人會(huì)由于我們大腦的聯(lián)想記憶能力而迅速記住他,這種能力被認(rèn)為是由圖中C形海馬體(藍(lán)色)所描繪的索引結(jié)構(gòu)驅(qū)動(dòng)的。受這種機(jī)制的啟發(fā),HippoRAG允許大型語言模型構(gòu)建并利用類似的關(guān)聯(lián)圖來解決知識(shí)整合任務(wù)。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)


HippoRAG是一個(gè)受人類長期記憶的海馬索引理論啟發(fā)的新型檢索框架。HippoRAG旨在通過模仿人類大腦中新皮層和海馬體的不同角色,來實(shí)現(xiàn)更深層次、更高效的知識(shí)整合,整個(gè)框架包括離線索引階段在線檢索階段。

詳細(xì)的HippoRAG方法論。模擬人類長期記憶的三個(gè)組成部分,以模仿其模式分離和完成功能。對(duì)于離線索引中間),使用LLM處理段落,將其轉(zhuǎn)化為開放知識(shí)圖譜(KG)三元組,然后添加到我們的人工海馬體索引中,而合成海馬旁回區(qū)域(PHR)檢測同義性。在上面的例子中,涉及Thomas教授的三元組被提取并整合到知識(shí)圖譜中。對(duì)于在線檢索底部),的LLM新皮質(zhì)從查詢中提取命名實(shí)體,而海馬旁回檢索編碼器將它們鏈接到我們的海馬體索引。然后我們利用個(gè)性化PageRank算法來實(shí)現(xiàn)基于上下文的檢索,并提取Thomas教授。?

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

離線索引(Offline Indexing):

  • 新皮層模擬:使用一個(gè)指令調(diào)整的大型語言模型(LLM),作為人工新皮層,通過開放信息提?。∣penIE)從文檔集合中提取知識(shí)圖譜(KG)三元組。這一過程被稱為開放信息提取,它從文檔中提取名詞短語作為離散信號(hào),而不是密集的向量表示,從而實(shí)現(xiàn)更細(xì)粒度的模式分離。
  • 知識(shí)圖譜構(gòu)建:構(gòu)建的KG是無模式的(schemaless),允許更靈活的模式分離和新信息整合。
  • 海馬索引構(gòu)建:使用標(biāo)準(zhǔn)的檢索編碼器(retrieval encoders),這些編碼器為KG中的相似但不完全相同的名詞短語提供額外的邊,幫助下游的模式完成。

在線檢索(Online Retrieval):

  • 查詢處理:LLM基于新皮層從查詢中提取一組顯著的命名實(shí)體(query named entities),這些實(shí)體隨后通過檢索編碼器與KG中的節(jié)點(diǎn)鏈接。
  • 模式完成:選定的查詢節(jié)點(diǎn)成為部分線索,人工海馬體執(zhí)行模式完成,通過個(gè)性化PageRank(PPR)算法在KG上運(yùn)行,使用查詢概念作為種子,整合跨文檔的信息進(jìn)行檢索。
  • 個(gè)性化PageRank(PPR):PPR算法是一種PageRank的變體,它只通過一組用戶定義的源節(jié)點(diǎn)(即查詢節(jié)點(diǎn))在圖中分布概率。這使得PPR輸出只偏向于查詢節(jié)點(diǎn)集,模仿海馬體從特定部分線索中提取相關(guān)信號(hào)。

HippoRAG展示了處理當(dāng)前方法難以觸及的新類型場景的潛力:

  • HippoRAG在多跳問答(QA)基準(zhǔn)測試中表現(xiàn)出色,相較于現(xiàn)有RAG方法顯著提高了性能,最高可達(dá)20%。
  • 與迭代檢索方法如IRCoT相比,HippoRAG的單步檢索在成本上節(jié)省10-30倍,在速度上快6-13倍,并且與IRCoT結(jié)合使用可以帶來進(jìn)一步的顯著增益。?


單步檢索性能。HippoRAG在MuSiQue和2WikiMultiHopQA上的表現(xiàn)超過了所有基線,并且在挑戰(zhàn)性較小的HotpotQA數(shù)據(jù)集上達(dá)到了可比的性能。?

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

多步檢索性能。將HippoRAG與IRCoT等標(biāo)準(zhǔn)多步檢索方法相結(jié)合,在所有三個(gè)數(shù)據(jù)集上都取得了顯著的改進(jìn)。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

問答性能。HippoRAG的問答改進(jìn)與其在單步檢索(行1-3)和多步檢索(行4-5)的檢索改進(jìn)相關(guān)聯(lián)。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

成本與速度評(píng)測

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

圖3:HippoRAG流程示例(問題和注釋),頂部)一個(gè)示例問題及其答案。(中間和底部)這個(gè)問題的支持段落和干擾段落。解決這個(gè)問題需要兩個(gè)支持段落。干擾段落的摘錄與問題中提到的“區(qū)”有關(guān)。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)


圖4:HippoRAG流程示例(索引)。對(duì)語料庫中的每個(gè)段落依次進(jìn)行命名實(shí)體識(shí)別(NER)和開放信息抽?。∣penIE)。因此,為整個(gè)語料庫形成了一個(gè)開放的知識(shí)圖譜。只展示了知識(shí)圖譜(KG)中與此相關(guān)的子圖。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

圖5:HippoRAG流程示例(檢索)。在檢索過程中,首先從問題中提取查詢的命名實(shí)體(頂部),然后使用檢索編碼器選擇查詢節(jié)點(diǎn)。在本例中,查詢命名實(shí)體的名稱“Alhandra”與其知識(shí)圖譜(KG)中的節(jié)點(diǎn)相對(duì)應(yīng)。(中間)然后我們根據(jù)檢索到的查詢節(jié)點(diǎn)設(shè)置PPR的個(gè)性化概率。PPR運(yùn)行后,查詢節(jié)點(diǎn)的概率根據(jù)圖4中的子圖進(jìn)行分配,導(dǎo)致一些概率質(zhì)量落在節(jié)點(diǎn)“Vila France de Xira”上。(底部)然后,這些節(jié)點(diǎn)概率被加總到它們出現(xiàn)的段落上,以獲得段落級(jí)別的排名。PPR后排名最高的節(jié)點(diǎn)在排名最高的段落中被突出顯示。

HippoRAG:協(xié)同LLM、KG與PPR的新型開源檢索框架,R@5比RAPTOR提高28%-AI.x社區(qū)

HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models
https://arxiv.org/pdf/2405.14831
https://github.com/OSU-NLP-Group/HippoRAG

本文轉(zhuǎn)載自??PaperAgent??,作者: PaperAgent 


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦