自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓DeepSeek更可靠!清華提出Hyper-RAG,用超圖提升知識建模精準(zhǔn)度

人工智能 新聞
Hyper-RAG利用超圖同時捕捉原始數(shù)據(jù)中的低階和高階關(guān)聯(lián)信息,最大限度地減少知識結(jié)構(gòu)化帶來的信息丟失,從而減少大型語言模型(LLM)的幻覺。

大語言模型(Large Language Models, LLMs)在面對專業(yè)領(lǐng)域知識問題的時候,經(jīng)常會生成偏離既定事實的回復(fù),或模糊不清的回答,從而帶來了潛在應(yīng)用風(fēng)險。

檢索增強生成(Retrieval-Augmented Generation, RAG)通過構(gòu)建特定領(lǐng)域知識庫,采用基于向量的檢索技術(shù)來提取與給定查詢相關(guān)的信息,從而使LLM能夠生成更準(zhǔn)確、更可靠的內(nèi)容。

然而,現(xiàn)有的基于圖的RAG方法受限于僅能表示實體之間的成對關(guān)聯(lián),無法表示那些更復(fù)雜的多實體間的群組高階關(guān)聯(lián),導(dǎo)致數(shù)據(jù)結(jié)構(gòu)化過程中這些高階信息的丟失。

為了解決這一難點,清華大學(xué)、西安交通大學(xué)等提出Hyper-RAG:一種超圖驅(qū)動的檢索增強生成方法。

Hyper-RAG將超圖表征融入RAG中,通過超圖捕獲原始數(shù)據(jù)中的成對低階關(guān)聯(lián)和群組高階關(guān)聯(lián),從而最大限度減少領(lǐng)域知識結(jié)構(gòu)化帶來的信息損失,提高生成響應(yīng)的準(zhǔn)確性和可靠性,可以作為醫(yī)療診斷金融分析等高可靠需求應(yīng)用的有利支撐。

圖片

在神經(jīng)科學(xué)任務(wù)上對六種LLMs進(jìn)行的實驗表明,Hyper-RAG相比于直接使用LLM,其準(zhǔn)確率平均提升了12.3%,比GraphRAG和LightRAG分別高出6.3%和6.0%。

此外,Hyper-RAG在查詢問題復(fù)雜性增加的情況下仍能保持穩(wěn)定性能,而現(xiàn)有方法的性能則有所下降;其輕量級變體Hyper-RAG-Lite在檢索速度上達(dá)到了Light RAG的兩倍,并且性能提升了3.3%。

圖片

論文地址:https://arxiv.org/abs/2504.08758

Github倉庫https://github.com/iMoonLab/Hyper-RAG

Hyper-RAG集成系統(tǒng)

超圖驅(qū)動的本地檢索增強大模型

圖片

超圖本地知識庫可視化系統(tǒng)

圖片

RAG困境

現(xiàn)有基于知識結(jié)構(gòu)化的RAG方法,如Graph RAG和Light RAG,利用圖結(jié)構(gòu)來表示特定領(lǐng)域文本中的關(guān)系信息。

然而,基于圖的方法僅限于成對關(guān)系圖片,限制了其捕捉復(fù)雜互連的能力,如下圖所示,在敘事故事中,雖然圖可以有效地模擬人物之間錯綜復(fù)雜的相關(guān)關(guān)系,但卻不足以表示涉及多個人物同時互動的事件。

圖片

在敘事故事中,雖然圖可以有效地模擬人物之間錯綜復(fù)雜的關(guān)聯(lián),但卻不足以表示涉及多個人物同時互動的事件。在構(gòu)建知識圖譜的過程中,通常會丟失這些超出成對相關(guān)的關(guān)聯(lián),從而導(dǎo)致信息的損失。

相比之下,超圖能夠?qū)Χ鄠€數(shù)據(jù)點之間的高階關(guān)聯(lián)(圖片及以上)進(jìn)行建模,提供了更全面的領(lǐng)域知識表示。

研究人員探討了基于超圖的RAG技術(shù),以實現(xiàn)關(guān)鍵知識的全面覆蓋。通過整合基于超圖的結(jié)構(gòu),大型語言模型能夠更好地減輕與關(guān)鍵信息相關(guān)的幻覺現(xiàn)象,從而增強其在專業(yè)領(lǐng)域輸出的可靠性和準(zhǔn)確性。

超圖建模索引

下圖舉例說明了如何從原始語料中提取實體、低階關(guān)聯(lián)和高階關(guān)聯(lián)??梢钥闯觯尤敫唠A關(guān)聯(lián)可確保更全面地檢索相關(guān)信息。與此相反,如果使用傳統(tǒng)圖,則僅提取成對相關(guān)性,會導(dǎo)致潛在的信息丟失,從而導(dǎo)致大模型產(chǎn)生幻覺。

圖片

方法概述

為了減少LLM的幻覺,Hyper-RAG將超圖建模納入RAG框架,利用超圖來捕捉錯綜復(fù)雜的多方面相關(guān)性。

具體來說,首先,從原始數(shù)據(jù)集中提取實體,作為超圖中的節(jié)點。隨后,這些實體之間的低階和高階關(guān)聯(lián)會被識別和整合,從而構(gòu)建一個基于超圖的知識庫。

在查詢階段,首先從輸入查詢中提取關(guān)鍵實體,然后利用超圖結(jié)構(gòu)從知識庫中檢索相關(guān)的先驗語料信息。

圖片

知識索引

在Hyper-RAG中,語料庫數(shù)據(jù)可以包含各種類型的文檔,包括書籍、手冊、報告和其他相關(guān)文本。首先對原始文檔進(jìn)行預(yù)處理,并將其劃分為大小一致的chunk,從而形成語料庫集合:圖片

隨后,使用文檔結(jié)構(gòu)函數(shù)Φ從語料庫中提取結(jié)構(gòu)信息,從而得到超圖G。

圖片

其中,v表示不同元素實體的集合,圖片分別表示實體間的低階和高階關(guān)聯(lián)。

檢索增強

在查詢環(huán)節(jié)給定一個查詢q,首先提取兩組不同的關(guān)鍵詞集合:實體關(guān)鍵詞圖片

(基本組件)和關(guān)聯(lián)關(guān)鍵詞圖片(復(fù)雜的相互依賴關(guān)系),如下所示:

圖片

其中,圖片是用于從輸入問題中提取關(guān)鍵字的提示詞。隨后,基于這兩類提取的關(guān)鍵詞,從超圖數(shù)據(jù)庫中檢索相關(guān)信息。

值得注意的是,實體關(guān)鍵字檢索的目標(biāo)是頂點,而關(guān)聯(lián)關(guān)鍵字檢索的目標(biāo)是超邊。出現(xiàn)這種區(qū)別是因為實體關(guān)鍵字主要描述單個實體,使頂點成為合適的檢索對象。

相反,相關(guān)性關(guān)鍵詞描述的是抽象信息,通常涉及多個實體之間的關(guān)系,因此需要超邊作為檢索目標(biāo)。

對于實體信息檢索,通過擴散實體對應(yīng)的超邊作為補充信息,對于關(guān)聯(lián)信息檢索,通過擴散超邊對應(yīng)的實體作為補充信息:

圖片

通過超圖知識庫進(jìn)行一步擴散,獲得與這些實體相關(guān)的超邊/超邊相關(guān)的節(jié)點作為補充信息。

隨后將頂點相關(guān)和超邊相關(guān)的信息合并送給大模型以獲得可靠知識補充,生成LLM對查詢的回答。

實驗結(jié)果

研究人員在9個不同領(lǐng)域數(shù)據(jù)集上(神經(jīng)科學(xué)、病理學(xué)、數(shù)學(xué)、物理學(xué)、法律、藝術(shù)等),采用了6個不同大模型,2種不同評估策略,多維評價指標(biāo)進(jìn)行了實驗驗證。

基于打分的評估

在NeurologyCrop數(shù)據(jù)集上的實驗結(jié)果表明,Hyper-RAG的性能優(yōu)于直接應(yīng)用LLM,平均提高了12.3%;此外,與GraphRAG和LightRAG相比,Hyper-RAG的性能分別提高了6.3%和6.0%。

當(dāng)通過引入嵌套,即一個問題后接另一個問題以增加復(fù)雜性,如下表所示。隨著問題難度的增加,現(xiàn)有的LLM和基于RAG的方法的性能顯著下降。相比之下,Hyper-RAG 保持了穩(wěn)定的性能水平。

具體來說,隨著問題難度的增加,Hyper-RAG與直接使用LLM相比,性能提高了12.7%到15%。這些結(jié)果證實了基于超圖的全面信息表示的優(yōu)越性。

圖片

對于簡單的查詢,直接來自大型語言模型的回答或簡單的成對(即低階)關(guān)聯(lián)可能已足夠。

然而,隨著查詢變得更加復(fù)雜,復(fù)雜的高階關(guān)聯(lián)的可用性對于約束和豐富模型的輸出變得至關(guān)重要,這一實驗趨勢強調(diào)了開發(fā)基于超圖的結(jié)構(gòu)表示和檢索方法,以應(yīng)對日益復(fù)雜的問題所帶來的挑戰(zhàn)的重要性。

圖片

基于選擇的評估

為了進(jìn)一步驗證Hyper-RAG,本文將實驗擴展到跨越多個領(lǐng)域的九個不同語料庫數(shù)據(jù)集。

在這些數(shù)據(jù)集中,Hyper-RAG的性能始終優(yōu)于傳統(tǒng)的基于圖的方法Light RAG,在使用基于選擇的評估方法對性能進(jìn)行評估時,Hyper-RAG的平均性能提高了35.5%。

圖片

效率分析

這里進(jìn)一步評估了從數(shù)據(jù)庫本地檢索獲取相關(guān)知識和構(gòu)建先驗知識提示所需的時間。

作者開發(fā)了Hyper-RAG的輕量級變體,Hyper-RAG-lite,它保留了實體檢索的基本增強功能。

可以看出,Hyper-RAG和Hyper-RAG-lite都位于圖的左上角附近,這表明這些方法在速度和性能方面都優(yōu)于其他方法。

圖片

總結(jié)

Hyper-RAG通過利用超圖對原始數(shù)據(jù)進(jìn)行更加全面且結(jié)構(gòu)化的知識表示,最大程度地減少信息丟失并降低大型語言模型的幻覺現(xiàn)象。

與現(xiàn)有的基于圖的RAG方法相比,Hyper-RAG在多個不同領(lǐng)域的數(shù)據(jù)集上表現(xiàn)出更優(yōu)異的性能,能夠有效捕捉復(fù)雜的多實體群組高階關(guān)系,從而提升生成內(nèi)容的準(zhǔn)確性和可靠性。

研究表明,Hyper-RAG在增強LLM的可靠性和減少不準(zhǔn)確輸出方面具有顯著優(yōu)勢,能夠更好地應(yīng)對輸出內(nèi)容不可靠帶來的挑戰(zhàn)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-27 10:22:02

2012-06-15 14:12:34

Google翻譯網(wǎng)站

2023-05-04 10:41:58

2025-04-01 10:01:42

RAGCozeAI

2020-05-21 10:16:41

谷歌算法機器學(xué)習(xí)

2024-12-12 11:58:29

模型YOLO跨層

2009-07-27 18:58:37

DHS與DSL運維管理摩卡

2017-06-05 16:08:28

2024-03-15 08:40:00

數(shù)據(jù)訓(xùn)練

2025-01-21 13:15:16

搜索版Search-o1框架

2021-07-18 22:43:39

數(shù)據(jù)安全人工智能網(wǎng)絡(luò)安全

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機器學(xué)習(xí)

2018-09-04 13:30:33

華為云

2020-10-14 10:52:39

Spectrum系統(tǒng)AWG

2024-07-02 08:00:00

人工智能網(wǎng)絡(luò)安全

2025-04-15 08:15:00

setTimeout代碼

2024-06-26 19:18:53

2025-03-06 10:41:32

2024-10-07 08:49:25

點贊
收藏

51CTO技術(shù)棧公眾號