自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="b1tcf"></thead>

<blockquote id="b1tcf"><rt id="b1tcf"></rt></blockquote>

<legend id="b1tcf"></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

讓DeepSeek更可靠！清華提出Hyper-RAG，用超圖提升知識建模精準(zhǔn)度

作者：新智元 2025-04-21 08:45:00

人工智能新聞

Hyper-RAG利用超圖同時捕捉原始數(shù)據(jù)中的低階和高階關(guān)聯(lián)信息，最大限度地減少知識結(jié)構(gòu)化帶來的信息丟失，從而減少大型語言模型（LLM）的幻覺。

大語言模型（Large Language Models, LLMs）在面對專業(yè)領(lǐng)域知識問題的時候，經(jīng)常會生成偏離既定事實的回復(fù)，或模糊不清的回答，從而帶來了潛在應(yīng)用風(fēng)險。

檢索增強生成（Retrieval-Augmented Generation, RAG）通過構(gòu)建特定領(lǐng)域知識庫，采用基于向量的檢索技術(shù)來提取與給定查詢相關(guān)的信息，從而使LLM能夠生成更準(zhǔn)確、更可靠的內(nèi)容。

然而，現(xiàn)有的基于圖的RAG方法受限于僅能表示實體之間的成對關(guān)聯(lián)，無法表示那些更復(fù)雜的多實體間的群組高階關(guān)聯(lián)，導(dǎo)致數(shù)據(jù)結(jié)構(gòu)化過程中這些高階信息的丟失。

為了解決這一難點，清華大學(xué)、西安交通大學(xué)等提出Hyper-RAG：一種超圖驅(qū)動的檢索增強生成方法。

Hyper-RAG將超圖表征融入RAG中，通過超圖捕獲原始數(shù)據(jù)中的成對低階關(guān)聯(lián)和群組高階關(guān)聯(lián)，從而最大限度減少領(lǐng)域知識結(jié)構(gòu)化帶來的信息損失，提高生成響應(yīng)的準(zhǔn)確性和可靠性，可以作為醫(yī)療診斷金融分析等高可靠需求應(yīng)用的有利支撐。

在神經(jīng)科學(xué)任務(wù)上對六種LLMs進(jìn)行的實驗表明，Hyper-RAG相比于直接使用LLM，其準(zhǔn)確率平均提升了12.3%，比GraphRAG和LightRAG分別高出6.3%和6.0%。

此外，Hyper-RAG在查詢問題復(fù)雜性增加的情況下仍能保持穩(wěn)定性能，而現(xiàn)有方法的性能則有所下降；其輕量級變體Hyper-RAG-Lite在檢索速度上達(dá)到了Light RAG的兩倍，并且性能提升了3.3%。

論文地址：https://arxiv.org/abs/2504.08758

Github倉庫：https://github.com/iMoonLab/Hyper-RAG

Hyper-RAG集成系統(tǒng)

超圖驅(qū)動的本地檢索增強大模型

超圖本地知識庫可視化系統(tǒng)

RAG困境

現(xiàn)有基于知識結(jié)構(gòu)化的RAG方法，如Graph RAG和Light RAG，利用圖結(jié)構(gòu)來表示特定領(lǐng)域文本中的關(guān)系信息。

然而，基于圖的方法僅限于成對關(guān)系，限制了其捕捉復(fù)雜互連的能力，如下圖所示，在敘事故事中，雖然圖可以有效地模擬人物之間錯綜復(fù)雜的相關(guān)關(guān)系，但卻不足以表示涉及多個人物同時互動的事件。

在敘事故事中，雖然圖可以有效地模擬人物之間錯綜復(fù)雜的關(guān)聯(lián)，但卻不足以表示涉及多個人物同時互動的事件。在構(gòu)建知識圖譜的過程中，通常會丟失這些超出成對相關(guān)的關(guān)聯(lián)，從而導(dǎo)致信息的損失。

相比之下，超圖能夠?qū)Χ鄠€數(shù)據(jù)點之間的高階關(guān)聯(lián)(及以上)進(jìn)行建模，提供了更全面的領(lǐng)域知識表示。

研究人員探討了基于超圖的RAG技術(shù)，以實現(xiàn)關(guān)鍵知識的全面覆蓋。通過整合基于超圖的結(jié)構(gòu)，大型語言模型能夠更好地減輕與關(guān)鍵信息相關(guān)的幻覺現(xiàn)象，從而增強其在專業(yè)領(lǐng)域輸出的可靠性和準(zhǔn)確性。

超圖建模索引

下圖舉例說明了如何從原始語料中提取實體、低階關(guān)聯(lián)和高階關(guān)聯(lián)?？梢钥闯觯尤敫唠A關(guān)聯(lián)可確保更全面地檢索相關(guān)信息。與此相反，如果使用傳統(tǒng)圖，則僅提取成對相關(guān)性，會導(dǎo)致潛在的信息丟失，從而導(dǎo)致大模型產(chǎn)生幻覺。

方法概述

為了減少LLM的幻覺，Hyper-RAG將超圖建模納入RAG框架，利用超圖來捕捉錯綜復(fù)雜的多方面相關(guān)性。

具體來說，首先，從原始數(shù)據(jù)集中提取實體，作為超圖中的節(jié)點。隨后，這些實體之間的低階和高階關(guān)聯(lián)會被識別和整合，從而構(gòu)建一個基于超圖的知識庫。

在查詢階段，首先從輸入查詢中提取關(guān)鍵實體，然后利用超圖結(jié)構(gòu)從知識庫中檢索相關(guān)的先驗語料信息。

知識索引

在Hyper-RAG中，語料庫數(shù)據(jù)可以包含各種類型的文檔，包括書籍、手冊、報告和其他相關(guān)文本。首先對原始文檔進(jìn)行預(yù)處理，并將其劃分為大小一致的chunk，從而形成語料庫集合：

隨后，使用文檔結(jié)構(gòu)函數(shù)Φ從語料庫中提取結(jié)構(gòu)信息，從而得到超圖G。

其中，v表示不同元素實體的集合，分別表示實體間的低階和高階關(guān)聯(lián)。

檢索增強

在查詢環(huán)節(jié)給定一個查詢q，首先提取兩組不同的關(guān)鍵詞集合：實體關(guān)鍵詞

（基本組件）和關(guān)聯(lián)關(guān)鍵詞（復(fù)雜的相互依賴關(guān)系），如下所示：

其中，是用于從輸入問題中提取關(guān)鍵字的提示詞。隨后，基于這兩類提取的關(guān)鍵詞，從超圖數(shù)據(jù)庫中檢索相關(guān)信息。

值得注意的是，實體關(guān)鍵字檢索的目標(biāo)是頂點，而關(guān)聯(lián)關(guān)鍵字檢索的目標(biāo)是超邊。出現(xiàn)這種區(qū)別是因為實體關(guān)鍵字主要描述單個實體，使頂點成為合適的檢索對象。

相反，相關(guān)性關(guān)鍵詞描述的是抽象信息，通常涉及多個實體之間的關(guān)系，因此需要超邊作為檢索目標(biāo)。

對于實體信息檢索，通過擴散實體對應(yīng)的超邊作為補充信息，對于關(guān)聯(lián)信息檢索，通過擴散超邊對應(yīng)的實體作為補充信息：

通過超圖知識庫進(jìn)行一步擴散，獲得與這些實體相關(guān)的超邊/超邊相關(guān)的節(jié)點作為補充信息。

隨后將頂點相關(guān)和超邊相關(guān)的信息合并送給大模型以獲得可靠知識補充，生成LLM對查詢的回答。

實驗結(jié)果

研究人員在9個不同領(lǐng)域數(shù)據(jù)集上（神經(jīng)科學(xué)、病理學(xué)、數(shù)學(xué)、物理學(xué)、法律、藝術(shù)等），采用了6個不同大模型，2種不同評估策略，多維評價指標(biāo)進(jìn)行了實驗驗證。

基于打分的評估

在NeurologyCrop數(shù)據(jù)集上的實驗結(jié)果表明，Hyper-RAG的性能優(yōu)于直接應(yīng)用LLM，平均提高了12.3%；此外，與GraphRAG和LightRAG相比，Hyper-RAG的性能分別提高了6.3%和6.0%。

當(dāng)通過引入嵌套，即一個問題后接另一個問題以增加復(fù)雜性，如下表所示。隨著問題難度的增加，現(xiàn)有的LLM和基于RAG的方法的性能顯著下降。相比之下，Hyper-RAG 保持了穩(wěn)定的性能水平。

具體來說，隨著問題難度的增加，Hyper-RAG與直接使用LLM相比，性能提高了12.7%到15%。這些結(jié)果證實了基于超圖的全面信息表示的優(yōu)越性。

對于簡單的查詢，直接來自大型語言模型的回答或簡單的成對（即低階）關(guān)聯(lián)可能已足夠。

然而，隨著查詢變得更加復(fù)雜，復(fù)雜的高階關(guān)聯(lián)的可用性對于約束和豐富模型的輸出變得至關(guān)重要，這一實驗趨勢強調(diào)了開發(fā)基于超圖的結(jié)構(gòu)表示和檢索方法，以應(yīng)對日益復(fù)雜的問題所帶來的挑戰(zhàn)的重要性。

基于選擇的評估

為了進(jìn)一步驗證Hyper-RAG，本文將實驗擴展到跨越多個領(lǐng)域的九個不同語料庫數(shù)據(jù)集。

在這些數(shù)據(jù)集中，Hyper-RAG的性能始終優(yōu)于傳統(tǒng)的基于圖的方法Light RAG，在使用基于選擇的評估方法對性能進(jìn)行評估時，Hyper-RAG的平均性能提高了35.5%。

效率分析

這里進(jìn)一步評估了從數(shù)據(jù)庫本地檢索獲取相關(guān)知識和構(gòu)建先驗知識提示所需的時間。

作者開發(fā)了Hyper-RAG的輕量級變體，Hyper-RAG-lite，它保留了實體檢索的基本增強功能。

可以看出，Hyper-RAG和Hyper-RAG-lite都位于圖的左上角附近，這表明這些方法在速度和性能方面都優(yōu)于其他方法。

總結(jié)

Hyper-RAG通過利用超圖對原始數(shù)據(jù)進(jìn)行更加全面且結(jié)構(gòu)化的知識表示，最大程度地減少信息丟失并降低大型語言模型的幻覺現(xiàn)象。

與現(xiàn)有的基于圖的RAG方法相比，Hyper-RAG在多個不同領(lǐng)域的數(shù)據(jù)集上表現(xiàn)出更優(yōu)異的性能，能夠有效捕捉復(fù)雜的多實體群組高階關(guān)系，從而提升生成內(nèi)容的準(zhǔn)確性和可靠性。

研究表明，Hyper-RAG在增強LLM的可靠性和減少不準(zhǔn)確輸出方面具有顯著優(yōu)勢，能夠更好地應(yīng)對輸出內(nèi)容不可靠帶來的挑戰(zhàn)。

責(zé)任編輯：張燕妮來源：新智元

語言模型數(shù)據(jù)AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="byq6b"><i id="byq6b"></i></blockquote>}