自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用HippoRAG增強(qiáng)LLM的記憶 原創(chuàng)

發(fā)布于 2024-7-3 10:03
瀏覽
0收藏

譯者 | 李睿

審校 | 重樓


大型語言模型(LLM)已經(jīng)證明是一種非常寶貴的思考工具。經(jīng)過大量文本、代碼和其他媒體數(shù)據(jù)集的訓(xùn)練,它們能夠創(chuàng)作出接近人類水平的文章、翻譯語言、生成圖像,還能以信息豐富的方式回答人們提出的問題,甚至可以編寫不同類型的創(chuàng)意內(nèi)容。但是,盡管它們功能強(qiáng)大,即使是最先進(jìn)的LLM也有一個(gè)基本的限制:知識的時(shí)效性。它們所“知道”的一切知識都是由所接受的訓(xùn)練數(shù)據(jù)決定的,這使它們無法適應(yīng)新的信息,也無法了解人們的具體需求和偏好。

為了克服這一限制,研究人員開發(fā)了檢索增強(qiáng)生成(RAG)。RAG賦予了LLM訪問實(shí)時(shí)更新的數(shù)據(jù)存儲(chǔ)的能力。這種對動(dòng)態(tài)外部知識庫的訪問使它們能夠動(dòng)態(tài)地檢索相關(guān)信息,并將其合并到他們的響應(yīng)中。然而,由于這些模型往往依賴于關(guān)鍵字匹配,當(dāng)面對需要跨多個(gè)信息源進(jìn)行關(guān)聯(lián)的問題時(shí),標(biāo)準(zhǔn)的RAG實(shí)現(xiàn)就會(huì)遇到挑戰(zhàn)——這是一種被稱為“多跳” (multi-hop)推理的難題。

受到大腦存儲(chǔ)和提取記憶機(jī)制的啟發(fā),研究人員開發(fā)了HippoRAG這一新穎的RAG方法,這種方法在生成反應(yīng)時(shí)能夠檢索并整合更具意義的來源。本文將深入剖析HippoRAG的工作原理,探究其在傳統(tǒng)RAG技術(shù)之上的優(yōu)勢,并展望其在人工智能系統(tǒng)中激發(fā)全新推理和理解水平的潛力。

在RAG技術(shù)存在局限時(shí):尋求更深層次的聯(lián)系

在傳統(tǒng)的RAG系統(tǒng)中有兩個(gè)關(guān)鍵組件:檢索器和生成器。檢索器負(fù)責(zé)在龐大的文本數(shù)據(jù)庫(知識庫)中搜尋,這些數(shù)據(jù)庫可能包括維基百科、企業(yè)內(nèi)部文檔,甚至個(gè)人文件。其工作原理是將問題和文檔轉(zhuǎn)化為數(shù)字表示(即嵌入),并利用高效的算法迅速找出與問題嵌入最為相似的文檔。隨后,生成器(通常是一個(gè)強(qiáng)大的大型語言模型)將這些檢索到的文檔作為場景,生成一個(gè)全面且信息豐富的答案。

例如,如果詢問RAG系統(tǒng)“巴黎的主要旅游景點(diǎn)是什么?”,檢索器將在知識庫中搜索包含巴黎和旅游景點(diǎn)信息的文檔。它可能會(huì)從維基百科、旅游博客甚至旅游指南中找到文章。然后LLM將使用這些檢索到的文檔來生成響應(yīng),可能列出像埃菲爾鐵塔、盧浮宮博物館和凱旋門這樣的熱門景點(diǎn)。

盡管這款工具功能強(qiáng)大,但當(dāng)面對需要將多個(gè)信息片段串聯(lián)起來以解答問題的情況時(shí),傳統(tǒng)的RAG系統(tǒng)往往顯得力不從心——這正是所謂的“多跳”推理難題。假設(shè)某人向人工智能助理提問:“我下周去倫敦旅行時(shí)應(yīng)該帶把傘嗎?”為了回答這個(gè)問題,助理需從他的日歷中檢索旅行日期,核實(shí)這些日期內(nèi)倫敦的天氣狀況,并考慮他的個(gè)人行李偏好(他是習(xí)慣隨身攜帶雨傘,還是僅在天氣惡劣時(shí)才攜帶?)。然而,傳統(tǒng)的RAG系統(tǒng)往往僅依賴于基礎(chǔ)的關(guān)鍵字匹配,可能會(huì)找到包含“倫敦”和“雨傘”的文件,但不一定能理解這些文件與他的旅行或其個(gè)人行李偏好之間的時(shí)間關(guān)聯(lián)性。

類似地,像“谷歌現(xiàn)任首席執(zhí)行官(CEO)的出生地是哪個(gè)國家的首都?”這樣的問題需要將他的出生地與該國的首都聯(lián)系起來——這種聯(lián)系可能在任何一份文檔中都不明確。傳統(tǒng)的RAG很難有效地建立這些連接。

HippoRAG:模仿大腦的記憶指數(shù)

HippoRAG是一個(gè)新的RAG框架,其設(shè)計(jì)理念來自于人們的大腦如何存儲(chǔ)和檢索記憶。人類的大腦不只是將信息存儲(chǔ)在孤立的單元中,它在不同概念之間建立了豐富的聯(lián)系網(wǎng)絡(luò)。這種將相關(guān)想法聯(lián)系起來的能力使得HippoRAG能夠進(jìn)行復(fù)雜的邏輯推理,從而做出推斷,并回答需要將多個(gè)來源的信息綜合在一起的復(fù)雜問題。

通過模擬大腦的記憶索引機(jī)制,HippoRAG展現(xiàn)了其獨(dú)特的優(yōu)勢,為信息檢索和推理領(lǐng)域帶來了新的可能性。

受HippoRAG啟發(fā)的海馬體索引理論為大腦中的這種工作方式提供了一個(gè)模型:

  • 新皮質(zhì):作為大腦中負(fù)責(zé)“思考”的部分,負(fù)責(zé)處理感官信息和存儲(chǔ)復(fù)雜知識。這類似于HippoRAG中的LLM。?
  • 海馬體:大腦深處的一個(gè)區(qū)域,就像記憶的“索引”。它本身并不存儲(chǔ)完整的記憶,但它在存儲(chǔ)在新皮層中的不同信息片段之間建立了聯(lián)系(關(guān)聯(lián))??梢园阉胂蟪梢粋€(gè)概念之間聯(lián)系的心理地圖。這就是知識圖譜在HippoRAG中的作用。?

當(dāng)體驗(yàn)到新事物時(shí),大腦皮層就會(huì)處理,海馬體會(huì)在相關(guān)概念之間建立聯(lián)系,形成記憶痕跡。當(dāng)在今后回憶起那段經(jīng)歷的一部分時(shí),海馬體會(huì)激活相關(guān)的聯(lián)系,觸發(fā)從新皮質(zhì)提取完整的記憶。

為LLM構(gòu)建更好的記憶

HippoRAG模仿這種受大腦啟發(fā)的模型,為LLM提供了更復(fù)雜的記憶系統(tǒng)。以下探討HippoRAG是如何運(yùn)作的:

1.建立海馬指數(shù)

HippoRAG使用LLM從知識庫中提取關(guān)鍵概念和關(guān)系,構(gòu)建知識圖,其中節(jié)點(diǎn)表示概念,邊表示概念之間的關(guān)系。這個(gè)知識圖譜就像海馬體,儲(chǔ)存著想法之間的聯(lián)系。

以下是示例中知識圖譜的簡化表示:

  • 節(jié)點(diǎn):表示實(shí)體和概念:“倫敦”、“英國”、“天氣”、“不可預(yù)測”、“雨傘”、“保護(hù)”、“雨”、“旅行”、“下周”、“周一”、“周五”、“輕裝”、“我”等。?
  • 邊:表示節(jié)點(diǎn)之間的關(guān)系:“倫敦”-[是首都]->“英國”,“倫敦”-[以]->“不可預(yù)測的天氣”而聞名,“雨傘”-[提供]->“保護(hù)”,“保護(hù)”-[從]->“雨”,“旅行”-[目的地]->“倫敦”,“旅行”-[時(shí)間]->“下周”,“下周”-[包括]->“星期一”,“下周”-[包括]->“星期五”,“我”-[偏好]->“輕裝”,等等。?

2.個(gè)性化PageRank的查詢時(shí)間推理

給定一個(gè)新問題,LLM識別關(guān)鍵實(shí)體,并將它們映射到知識圖中的節(jié)點(diǎn)。然后,HippoRAG使用一種稱為個(gè)性化PageRank (PPR)的算法來探索知識圖譜,在相關(guān)節(jié)點(diǎn)上傳播激活。這就像海馬體激活了相關(guān)的記憶痕跡。PPR允許HippoRAG從遠(yuǎn)離原始實(shí)體的多“跳”中有效地收集信息,在一個(gè)步驟中捕獲多跳關(guān)系。在以下示例中:

  • 實(shí)體識別:與之前一樣,LLM識別問題中的關(guān)鍵實(shí)體:“雨傘”、“旅行”和“倫敦”。?
  • 知識圖譜上的PPR:從代表這些實(shí)體的節(jié)點(diǎn)開始,PPR探索知識圖譜,在相關(guān)節(jié)點(diǎn)之間傳播激活。它考慮邊緣的強(qiáng)度和方向來確定不同路徑的相關(guān)性。?

在例子中:PPR可能會(huì)高度激活通往“雨”、“變幻莫測的天氣”和“保護(hù)”等節(jié)點(diǎn)的路徑,因?yàn)樗鼈兣c“倫敦”和“雨傘”有聯(lián)系。

3.單步檢索

然后檢索最高度激活的節(jié)點(diǎn)(以及知識庫中與它們相關(guān)的文本塊)。這為LLM提供了回答問題所需的信息,包括概念之間的關(guān)鍵聯(lián)系。

在示例中,這可能包括原始示例中的文本塊1、2和3。

4.使用LLM生成答案

LLM現(xiàn)在已經(jīng)掌握了謎題的所有部分——原始問題、檢索到的知識(通過基于圖的連接豐富)和任何額外的實(shí)時(shí)信息。它可以利用這些更豐富的知識來提供更細(xì)致、更準(zhǔn)確的答案。

在例子中:

  • 組合輸入:LLM接收原始問題、檢索到的知識(現(xiàn)在已通過基于圖的連接得到豐富)以及倫敦在旅行日期的實(shí)時(shí)天氣預(yù)報(bào)。?
  • 增強(qiáng)推理:LLM現(xiàn)在可以利用更豐富的知識來提供更細(xì)致、更準(zhǔn)確的答案。它不僅知道倫敦的天氣變幻莫測,而且還知道雨傘可以防雨,而且知道行程安排在可能下雨的時(shí)間。?

從多跳到尋徑:人工智能記憶的未來

HippoRAG背后的研究人員證明,它在多跳推理任務(wù)上明顯優(yōu)于標(biāo)準(zhǔn)的RAG方法。但這種方法的含義遠(yuǎn)遠(yuǎn)超出了簡單的問題回答。

由HippoRAG實(shí)現(xiàn)的“尋徑”檢索概念尤其令人興奮。想象一下,人工智能系統(tǒng)不僅可以檢索信息,還可以發(fā)現(xiàn)概念之間的新聯(lián)系,即使這些聯(lián)系沒有在數(shù)據(jù)中明確說明。這將改變科學(xué)發(fā)現(xiàn)、法律推理和個(gè)性化推薦等領(lǐng)域的游戲規(guī)則,在這些領(lǐng)域,建立新聯(lián)系的能力是必不可少的。

雖然HippoRAG面臨著擴(kuò)展到大規(guī)模知識圖譜和管理概念-場景權(quán)衡等挑戰(zhàn),但它代表了構(gòu)建具有更類似人類記憶能力的LLM的重大飛躍。隨著人們繼續(xù)探索神經(jīng)科學(xué)和人工智能的交叉點(diǎn),正在接近創(chuàng)造能夠像人類大腦一樣學(xué)習(xí)、記憶和推理的深度和靈活性的人工智能系統(tǒng)。

原文標(biāo)題:LLMs Get a Memory Boost with HippoRAG,作者:Indrajit Bhattacharya,Obaid Sarvana?

鏈接:https://dzone.com/articles/llms-get-a-memory-boost-with-hipporag

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦