自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

給RAG系統(tǒng)做一次全面「體檢」,亞馬遜開源RAGChecker診斷工具

人工智能 新聞
近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統(tǒng)提供細(xì)粒度、全面、可靠的診斷報(bào)告,并為進(jìn)一步提升性能,提供可操作的方向。

亞馬遜上海人工智能研究院成立于 2018 年,已成為深度學(xué)習(xí)研究領(lǐng)域的領(lǐng)先機(jī)構(gòu)之一,共發(fā)表了~90 篇論文。研究領(lǐng)域包括深度學(xué)習(xí)的基礎(chǔ)理論、自然語言處理、計(jì)算機(jī)視覺、圖機(jī)器學(xué)習(xí)、高性能計(jì)算、智能推薦系統(tǒng)、欺詐檢測(cè)與風(fēng)險(xiǎn)控制、知識(shí)圖譜構(gòu)建以及智能決策系統(tǒng)等。研究院率先研究和開發(fā)了世界領(lǐng)先的深度圖學(xué)習(xí)庫 Deep Graph Library (DGL),結(jié)合了深度學(xué)習(xí)和圖結(jié)構(gòu)表示的優(yōu)勢(shì),影響許多重要應(yīng)用領(lǐng)域。

檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù)正在徹底革新 AI 應(yīng)用領(lǐng)域,通過將外部知識(shí)庫和 LLM 內(nèi)部知識(shí)的無縫整合,大幅提升了 AI 系統(tǒng)的準(zhǔn)確性和可靠性。然而,隨著 RAG 系統(tǒng)在各行各業(yè)的廣泛部署,其評(píng)估和優(yōu)化面臨著重大挑戰(zhàn)?,F(xiàn)有的評(píng)估方法,無論是傳統(tǒng)的端到端指標(biāo)還是針對(duì)單一模塊的評(píng)估,都難以全面反映 RAG 系統(tǒng)的復(fù)雜性和實(shí)際表現(xiàn)。特別是,它們只能提供一個(gè)最終打分報(bào)告,僅反映 RAG 系統(tǒng)的性能優(yōu)劣。

人生病了需要去醫(yī)院做檢查,那 RAG 系統(tǒng)生病了,如何診斷呢?

近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統(tǒng)提供細(xì)粒度、全面、可靠的診斷報(bào)告,并為進(jìn)一步提升性能,提供可操作的方向。本文詳細(xì)介紹了這個(gè) RAG 的 “顯微鏡”,看看它如何幫助開發(fā)者們打造更智能、更可靠的 RAG 系統(tǒng)。

圖片

  • 論文:https://arxiv.org/pdf/2408.08067
  • 項(xiàng)目地址:https://github.com/amazon-science/RAGChecker

RAGChecker: RAG 系統(tǒng)的全面診斷工具

想象一下,如果我們能對(duì) RAG 系統(tǒng)進(jìn)行一次全面的 “體檢”,會(huì)是什么樣子?RAGChecker 就是為此而生的。它不僅能評(píng)估系統(tǒng)的整體表現(xiàn),還能深入分析檢索和生成兩大核心模塊的性能。

圖片

RAGChecker 的主要特點(diǎn)包括:

  1. 細(xì)粒度評(píng)估:RAGChecker 采用基于聲明(claim)級(jí)別的蘊(yùn)含關(guān)系檢查,而非簡(jiǎn)單的回復(fù)級(jí)別評(píng)估。這種方法能夠?qū)ο到y(tǒng)性能進(jìn)行更加詳細(xì)和微妙的分析,提供深入的洞察。
  2. 全面的指標(biāo)體系:該框架提供了一套涵蓋 RAG 系統(tǒng)各個(gè)方面性能的指標(biāo),包括忠實(shí)度(faithfulness)、上下文利用率(context utilization)、噪聲敏感度(noise sensitivity)和幻覺(hallucination)等。
  3. 經(jīng)過驗(yàn)證的有效性:可靠性測(cè)試表明,RAGChecker 的評(píng)估結(jié)果與人類判斷有很強(qiáng)的相關(guān)性,其表現(xiàn)超過了其他現(xiàn)有的評(píng)估指標(biāo)。這保證了評(píng)估結(jié)果的可信度和實(shí)用性。
  4. 可操作的洞察:RAGChecker 提供的診斷指標(biāo)為改進(jìn) RAG 系統(tǒng)提供了明確的方向指導(dǎo)。這些洞察能夠幫助研究人員和實(shí)踐者開發(fā)出更加有效和可靠的 AI 應(yīng)用。

RAGChecker 的核心指標(biāo)

RAGChecker 的指標(biāo)體系可以用下圖直觀的理解:

這些指標(biāo)被分為三大類:

1. 整體指標(biāo): 

  • Precision(精確率):模型回答中正確陳述的比例
  • Recall(召回率):模型回答中包含的標(biāo)準(zhǔn)答案中陳述的比例
  • F1 score(F1 分?jǐn)?shù)):精確率和召回率的調(diào)和平均數(shù),提供平衡的性能度量

2. 檢索模塊指標(biāo): 

  • Context Precision(上下文精確率):在所有檢索塊中,包含至少一個(gè)標(biāo)準(zhǔn)答案陳述的塊的比例
  • Claim Recall(陳述召回率):被檢索塊覆蓋的標(biāo)準(zhǔn)答案陳述的比例

3. 生成模塊指標(biāo): 

  • Context Utilization(上下文利用率):評(píng)估生成模塊如何有效利用從檢索塊中獲取的相關(guān)信息來產(chǎn)生正確的陳述。這個(gè)指標(biāo)反映了系統(tǒng)對(duì)檢索到的信息的利用效率。
  • Noise Sensitivity(噪音敏感度):衡量生成模塊在回答中包含來自檢索塊的錯(cuò)誤信息的傾向。這個(gè)指標(biāo)幫助識(shí)別系統(tǒng)對(duì)不相關(guān)或錯(cuò)誤信息的敏感程度。
  • Hallucination(幻覺):測(cè)量模型生成既不存在于檢索塊也不在標(biāo)準(zhǔn)答案中的信息的頻率。這就像是捕捉模型 “憑空捏造” 信息的情況,是評(píng)估模型可靠性的重要指標(biāo)。
  • Self-knowledge(模型內(nèi)部知識(shí)):評(píng)估模型在未從檢索塊獲得信息的情況下,正確回答問題的頻率。這反映了模型在需要時(shí)利用自身內(nèi)置知識(shí)的能力。
  • Faithfulness(忠實(shí)度):衡量生成模塊的響應(yīng)與檢索塊提供的信息的一致程度。這個(gè)指標(biāo)反映了系統(tǒng)對(duì)給定信息的依從性。

這些指標(biāo)就像是 RAG 系統(tǒng)的 “體檢報(bào)告”,幫助開發(fā)者全面了解系統(tǒng)的健康狀況,并找出需要改進(jìn)的地方。

開始使用 RAGChecker

對(duì)于想要嘗試 RAGChecker 的開發(fā)者來說,上手過程非常簡(jiǎn)單。以下是快速入門的步驟:

1. 環(huán)境設(shè)置:首先,安裝 RAGChecker 及其依賴:

pip install ragchecker
python -m spacy download en_core_web_sm

2. 準(zhǔn)備數(shù)據(jù):將 RAG 系統(tǒng)的輸出準(zhǔn)備成特定的 JSON 格式,包括查詢、標(biāo)準(zhǔn)答案、模型回答和檢索的上下文。數(shù)據(jù)格式應(yīng)如下所示:

{
     "results": [
       {
         "query_id": "< 查詢 ID>",
         "query": "< 輸入查詢 >",
         "gt_answer": "< 標(biāo)準(zhǔn)答案 >",
         "response": "<RAG 系統(tǒng)生成的回答 >",
         "retrieved_context": [
           {
             "doc_id": "< 文檔 ID>",
             "text": "< 檢索塊的內(nèi)容 >"
           },
           ...
         ]
       },
       ...
     ]
   }

3. 運(yùn)行評(píng)估:

  • 使用命令行:
ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json
  • 或者使用 Python 代碼:
from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

# 從 JSON 初始化 RAGResults
with open ("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json (fp.read ())

# 設(shè)置評(píng)估器
evaluator = RAGChecker ()

# 評(píng)估結(jié)果
evaluator.evaluate (rag_results, all_metrics)
print (rag_results)

4. 分析結(jié)果:RAGChecker 會(huì)輸出 json 格式的文件來展示評(píng)估指標(biāo),幫助你了解 RAG 系統(tǒng)的各個(gè)方面表現(xiàn)。

輸出結(jié)果的格式如下:

圖片

通過分析這些指標(biāo),開發(fā)者可以針對(duì)性地優(yōu)化 RAG 系統(tǒng)的各個(gè)方面。例如:

  • 較低的 Claim Recall(陳述召回率)可能表明需要改進(jìn)檢索策略。這意味著系統(tǒng)可能沒有檢索到足夠多的相關(guān)信息,需要優(yōu)化檢索算法或擴(kuò)展知識(shí)庫。
  • 較高的 Noise Sensitivity(噪音敏感度)表明生成模塊需要提升其推理能力,以便更好地從檢索到的上下文中區(qū)分相關(guān)信息和不相關(guān)或錯(cuò)誤的細(xì)節(jié)。這可能需要改進(jìn)模型的訓(xùn)練方法或增強(qiáng)其對(duì)上下文的理解能力。
  • 高 Hallucination(幻覺)分?jǐn)?shù)可能指出需要更好地將生成模塊與檢索到的上下文結(jié)合。這可能涉及改進(jìn)模型對(duì)檢索信息的利用方式,或增強(qiáng)其對(duì)事實(shí)的忠實(shí)度。
  • Context Utilization(上下文利用率)和 Self-knowledge(模型內(nèi)部知識(shí))之間的平衡可以幫助你優(yōu)化檢索信息利用和模型固有知識(shí)之間的權(quán)衡。這可能涉及調(diào)整模型對(duì)檢索信息的依賴程度,或改進(jìn)其綜合利用多種信息源的能力。

通過這種方式,RAGChecker 不僅提供了詳細(xì)的性能評(píng)估,還為 RAG 系統(tǒng)的具體優(yōu)化方向提供了清晰的指導(dǎo)。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 現(xiàn)在已經(jīng)與 LlamaIndex 集成,為使用 LlamaIndex 構(gòu)建的 RAG 應(yīng)用提供了強(qiáng)大的評(píng)估工具。如果你想了解如何在 LlamaIndex 項(xiàng)目中使用 RAGChecker,可以參考 LlamaIndex 文檔中關(guān)于 RAGChecker 集成的部分。

結(jié)語

RAGChecker 的推出為 RAG 系統(tǒng)的評(píng)估和優(yōu)化提供了一個(gè)新的工具。它為開發(fā)者提供了一把 “顯微鏡”,幫助他們深入了解、精準(zhǔn)優(yōu)化 RAG 系統(tǒng)。無論你是正在研究 RAG 技術(shù)的學(xué)者,還是致力于開發(fā)更智能 AI 應(yīng)用的工程師,RAGChecker 都將是你不可或缺的得力助手。讀者可以訪問 https://github.com/amazon-science/RAGChecker 獲取更多信息或參與到項(xiàng)目的開發(fā)中來。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-03-22 15:38:28

代碼架構(gòu)Java

2022-06-21 09:26:28

開源項(xiàng)目PR

2023-04-11 08:01:31

MongoDB數(shù)據(jù)工具

2017-12-12 16:17:55

微服務(wù)系統(tǒng)運(yùn)維

2014-05-19 10:16:56

WinJS開源TypeScript

2020-03-19 15:32:47

手機(jī)消毒病毒

2021-02-25 15:54:41

微軟開源Error Analy

2024-07-31 14:07:00

RAGSQL技術(shù)

2020-08-19 11:02:39

系統(tǒng)ssh登錄

2017-09-08 15:34:01

2017-06-12 11:09:56

計(jì)數(shù)架構(gòu)數(shù)據(jù)庫

2011-06-28 10:41:50

DBA

2019-09-12 09:40:34

秒殺系統(tǒng)高并發(fā)

2023-06-07 07:31:04

PC端app脫殼技巧

2021-12-27 10:08:16

Python編程語言

2020-10-24 13:50:59

Python編程語言

2013-08-19 09:53:01

系統(tǒng)監(jiān)控lsof 監(jiān)控工具

2019-08-02 14:45:22

阿里Java命令

2025-04-30 08:31:40

2019-09-23 10:26:20

開源技術(shù) 工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)