自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

給RAG系統(tǒng)做一次全面「體檢」，亞馬遜開源RAGChecker診斷工具

作者：機(jī)器之心 2024-08-19 09:40:00

人工智能新聞

近日，亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統(tǒng)提供細(xì)粒度、全面、可靠的診斷報(bào)告，并為進(jìn)一步提升性能，提供可操作的方向。

亞馬遜上海人工智能研究院成立于 2018 年，已成為深度學(xué)習(xí)研究領(lǐng)域的領(lǐng)先機(jī)構(gòu)之一，共發(fā)表了～90 篇論文。研究領(lǐng)域包括深度學(xué)習(xí)的基礎(chǔ)理論、自然語言處理、計(jì)算機(jī)視覺、圖機(jī)器學(xué)習(xí)、高性能計(jì)算、智能推薦系統(tǒng)、欺詐檢測(cè)與風(fēng)險(xiǎn)控制、知識(shí)圖譜構(gòu)建以及智能決策系統(tǒng)等。研究院率先研究和開發(fā)了世界領(lǐng)先的深度圖學(xué)習(xí)庫 Deep Graph Library (DGL)，結(jié)合了深度學(xué)習(xí)和圖結(jié)構(gòu)表示的優(yōu)勢(shì)，影響許多重要應(yīng)用領(lǐng)域。

檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG）技術(shù)正在徹底革新 AI 應(yīng)用領(lǐng)域，通過將外部知識(shí)庫和 LLM 內(nèi)部知識(shí)的無縫整合，大幅提升了 AI 系統(tǒng)的準(zhǔn)確性和可靠性。然而，隨著 RAG 系統(tǒng)在各行各業(yè)的廣泛部署，其評(píng)估和優(yōu)化面臨著重大挑戰(zhàn)?，F(xiàn)有的評(píng)估方法，無論是傳統(tǒng)的端到端指標(biāo)還是針對(duì)單一模塊的評(píng)估，都難以全面反映 RAG 系統(tǒng)的復(fù)雜性和實(shí)際表現(xiàn)。特別是，它們只能提供一個(gè)最終打分報(bào)告，僅反映 RAG 系統(tǒng)的性能優(yōu)劣。

人生病了需要去醫(yī)院做檢查，那 RAG 系統(tǒng)生病了，如何診斷呢？

近日，亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統(tǒng)提供細(xì)粒度、全面、可靠的診斷報(bào)告，并為進(jìn)一步提升性能，提供可操作的方向。本文詳細(xì)介紹了這個(gè) RAG 的 “顯微鏡”，看看它如何幫助開發(fā)者們打造更智能、更可靠的 RAG 系統(tǒng)。

論文：https://arxiv.org/pdf/2408.08067
項(xiàng)目地址：https://github.com/amazon-science/RAGChecker

RAGChecker: RAG 系統(tǒng)的全面診斷工具

想象一下，如果我們能對(duì) RAG 系統(tǒng)進(jìn)行一次全面的 “體檢”，會(huì)是什么樣子？RAGChecker 就是為此而生的。它不僅能評(píng)估系統(tǒng)的整體表現(xiàn)，還能深入分析檢索和生成兩大核心模塊的性能。

RAGChecker 的主要特點(diǎn)包括：

細(xì)粒度評(píng)估：RAGChecker 采用基于聲明（claim）級(jí)別的蘊(yùn)含關(guān)系檢查，而非簡(jiǎn)單的回復(fù)級(jí)別評(píng)估。這種方法能夠?qū)ο到y(tǒng)性能進(jìn)行更加詳細(xì)和微妙的分析，提供深入的洞察。
全面的指標(biāo)體系：該框架提供了一套涵蓋 RAG 系統(tǒng)各個(gè)方面性能的指標(biāo)，包括忠實(shí)度（faithfulness）、上下文利用率（context utilization）、噪聲敏感度（noise sensitivity）和幻覺（hallucination）等。
經(jīng)過驗(yàn)證的有效性：可靠性測(cè)試表明，RAGChecker 的評(píng)估結(jié)果與人類判斷有很強(qiáng)的相關(guān)性，其表現(xiàn)超過了其他現(xiàn)有的評(píng)估指標(biāo)。這保證了評(píng)估結(jié)果的可信度和實(shí)用性。
可操作的洞察：RAGChecker 提供的診斷指標(biāo)為改進(jìn) RAG 系統(tǒng)提供了明確的方向指導(dǎo)。這些洞察能夠幫助研究人員和實(shí)踐者開發(fā)出更加有效和可靠的 AI 應(yīng)用。

RAGChecker 的核心指標(biāo)

RAGChecker 的指標(biāo)體系可以用下圖直觀的理解：

這些指標(biāo)被分為三大類：

1. 整體指標(biāo):

Precision（精確率）：模型回答中正確陳述的比例
Recall（召回率）：模型回答中包含的標(biāo)準(zhǔn)答案中陳述的比例
F1 score（F1 分?jǐn)?shù)）：精確率和召回率的調(diào)和平均數(shù)，提供平衡的性能度量

2. 檢索模塊指標(biāo):

Context Precision（上下文精確率）：在所有檢索塊中，包含至少一個(gè)標(biāo)準(zhǔn)答案陳述的塊的比例
Claim Recall（陳述召回率）：被檢索塊覆蓋的標(biāo)準(zhǔn)答案陳述的比例

3. 生成模塊指標(biāo):

Context Utilization（上下文利用率）：評(píng)估生成模塊如何有效利用從檢索塊中獲取的相關(guān)信息來產(chǎn)生正確的陳述。這個(gè)指標(biāo)反映了系統(tǒng)對(duì)檢索到的信息的利用效率。
Noise Sensitivity（噪音敏感度）：衡量生成模塊在回答中包含來自檢索塊的錯(cuò)誤信息的傾向。這個(gè)指標(biāo)幫助識(shí)別系統(tǒng)對(duì)不相關(guān)或錯(cuò)誤信息的敏感程度。
Hallucination（幻覺）：測(cè)量模型生成既不存在于檢索塊也不在標(biāo)準(zhǔn)答案中的信息的頻率。這就像是捕捉模型 “憑空捏造” 信息的情況，是評(píng)估模型可靠性的重要指標(biāo)。
Self-knowledge（模型內(nèi)部知識(shí)）：評(píng)估模型在未從檢索塊獲得信息的情況下，正確回答問題的頻率。這反映了模型在需要時(shí)利用自身內(nèi)置知識(shí)的能力。
Faithfulness（忠實(shí)度）：衡量生成模塊的響應(yīng)與檢索塊提供的信息的一致程度。這個(gè)指標(biāo)反映了系統(tǒng)對(duì)給定信息的依從性。

這些指標(biāo)就像是 RAG 系統(tǒng)的 “體檢報(bào)告”，幫助開發(fā)者全面了解系統(tǒng)的健康狀況，并找出需要改進(jìn)的地方。

開始使用 RAGChecker

對(duì)于想要嘗試 RAGChecker 的開發(fā)者來說，上手過程非常簡(jiǎn)單。以下是快速入門的步驟：

1. 環(huán)境設(shè)置：首先，安裝 RAGChecker 及其依賴：

pip install ragchecker
python -m spacy download en_core_web_sm

2. 準(zhǔn)備數(shù)據(jù)：將 RAG 系統(tǒng)的輸出準(zhǔn)備成特定的 JSON 格式，包括查詢、標(biāo)準(zhǔn)答案、模型回答和檢索的上下文。數(shù)據(jù)格式應(yīng)如下所示：

{
     "results": [
       {
         "query_id": "< 查詢 ID>",
         "query": "< 輸入查詢 >",
         "gt_answer": "< 標(biāo)準(zhǔn)答案 >",
         "response": "<RAG 系統(tǒng)生成的回答 >",
         "retrieved_context": [
           {
             "doc_id": "< 文檔 ID>",
             "text": "< 檢索塊的內(nèi)容 >"
           },
           ...
         ]
       },
       ...
     ]
   }

3. 運(yùn)行評(píng)估：

使用命令行：

ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json

或者使用 Python 代碼：

from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

# 從 JSON 初始化 RAGResults
with open ("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json (fp.read ())

# 設(shè)置評(píng)估器
evaluator = RAGChecker ()

# 評(píng)估結(jié)果
evaluator.evaluate (rag_results, all_metrics)
print (rag_results)

4. 分析結(jié)果：RAGChecker 會(huì)輸出 json 格式的文件來展示評(píng)估指標(biāo)，幫助你了解 RAG 系統(tǒng)的各個(gè)方面表現(xiàn)。

輸出結(jié)果的格式如下：

通過分析這些指標(biāo)，開發(fā)者可以針對(duì)性地優(yōu)化 RAG 系統(tǒng)的各個(gè)方面。例如：

較低的 Claim Recall（陳述召回率）可能表明需要改進(jìn)檢索策略。這意味著系統(tǒng)可能沒有檢索到足夠多的相關(guān)信息，需要優(yōu)化檢索算法或擴(kuò)展知識(shí)庫。
較高的 Noise Sensitivity（噪音敏感度）表明生成模塊需要提升其推理能力，以便更好地從檢索到的上下文中區(qū)分相關(guān)信息和不相關(guān)或錯(cuò)誤的細(xì)節(jié)。這可能需要改進(jìn)模型的訓(xùn)練方法或增強(qiáng)其對(duì)上下文的理解能力。
高 Hallucination（幻覺）分?jǐn)?shù)可能指出需要更好地將生成模塊與檢索到的上下文結(jié)合。這可能涉及改進(jìn)模型對(duì)檢索信息的利用方式，或增強(qiáng)其對(duì)事實(shí)的忠實(shí)度。
Context Utilization（上下文利用率）和 Self-knowledge（模型內(nèi)部知識(shí)）之間的平衡可以幫助你優(yōu)化檢索信息利用和模型固有知識(shí)之間的權(quán)衡。這可能涉及調(diào)整模型對(duì)檢索信息的依賴程度，或改進(jìn)其綜合利用多種信息源的能力。

通過這種方式，RAGChecker 不僅提供了詳細(xì)的性能評(píng)估，還為 RAG 系統(tǒng)的具體優(yōu)化方向提供了清晰的指導(dǎo)。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 現(xiàn)在已經(jīng)與 LlamaIndex 集成，為使用 LlamaIndex 構(gòu)建的 RAG 應(yīng)用提供了強(qiáng)大的評(píng)估工具。如果你想了解如何在 LlamaIndex 項(xiàng)目中使用 RAGChecker，可以參考 LlamaIndex 文檔中關(guān)于 RAGChecker 集成的部分。

結(jié)語

RAGChecker 的推出為 RAG 系統(tǒng)的評(píng)估和優(yōu)化提供了一個(gè)新的工具。它為開發(fā)者提供了一把 “顯微鏡”，幫助他們深入了解、精準(zhǔn)優(yōu)化 RAG 系統(tǒng)。無論你是正在研究 RAG 技術(shù)的學(xué)者，還是致力于開發(fā)更智能 AI 應(yīng)用的工程師，RAGChecker 都將是你不可或缺的得力助手。讀者可以訪問 https://github.com/amazon-science/RAGChecker 獲取更多信息或參與到項(xiàng)目的開發(fā)中來。

責(zé)任編輯：張燕妮來源：機(jī)器之心

人工智能診斷

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="wawwi"></sub>