理解 RAG 第四部分:檢索增強(qiáng)生成評(píng)估框架
檢索增強(qiáng)生成(RAG) 在擴(kuò)展獨(dú)立大型語(yǔ)言模型(LLM)的局限性和克服其諸多限制方面發(fā)揮了關(guān)鍵作用。通過(guò)整合檢索器,RAG 增強(qiáng)了響應(yīng)的相關(guān)性和事實(shí)準(zhǔn)確性:它只需實(shí)時(shí)利用外部知識(shí)源(例如矢量文檔庫(kù)),并在原始用戶(hù)查詢(xún)或提示中添加相關(guān)的上下文信息,然后將其傳遞給 LLM 進(jìn)行輸出生成。
對(duì)于那些深入 RAG 領(lǐng)域的人來(lái)說(shuō),一個(gè)自然而然的問(wèn)題出現(xiàn)了:我們?nèi)绾卧u(píng)估這些遠(yuǎn)非簡(jiǎn)單的系統(tǒng)?
為此,存在幾個(gè)框架,例如DeepEval,它提供了超過(guò) 14 種評(píng)估指標(biāo)來(lái)評(píng)估幻覺(jué)和忠實(shí)度等標(biāo)準(zhǔn);MLflow LLM Evaluate,以其模塊化和簡(jiǎn)單性而聞名,可以在自定義管道中進(jìn)行評(píng)估;RAGAs,專(zhuān)注于定義 RAG 管道,提供忠實(shí)度和上下文相關(guān)性等指標(biāo)來(lái)計(jì)算綜合的 RAGA 質(zhì)量得分。
以下是這三個(gè)框架的摘要:
理解 RAGA
RAGA (檢索增強(qiáng)生成評(píng)估的縮寫(xiě))被認(rèn)為是評(píng)估 LLM 應(yīng)用的最佳工具包之一。它能夠以最簡(jiǎn)單的方式——既可以單獨(dú)評(píng)估,也可以作為單一流程聯(lián)合評(píng)估RAG 系統(tǒng)組件(即檢索器和生成器)的性能。
RAGA 的核心要素是其指標(biāo)驅(qū)動(dòng)開(kāi)發(fā)(MDD) 方法,該方法依賴(lài)數(shù)據(jù)做出明智的系統(tǒng)決策。MDD 需要持續(xù)監(jiān)控關(guān)鍵指標(biāo),從而清晰洞察應(yīng)用程序的性能。除了允許開(kāi)發(fā)人員評(píng)估其 LLM/RAG 應(yīng)用程序并進(jìn)行指標(biāo)輔助實(shí)驗(yàn)外,MDD 方法還與應(yīng)用程序的可重復(fù)性高度契合。
RAGA 組件
- 提示對(duì)象:定義提示的結(jié)構(gòu)和內(nèi)容的組件,用于引出語(yǔ)言模型生成的響應(yīng)。通過(guò)遵循一致且清晰的提示,它有助于進(jìn)行準(zhǔn)確的評(píng)估。
- 評(píng)估樣本:一個(gè)獨(dú)立的數(shù)據(jù)實(shí)例,包含用戶(hù)查詢(xún)、生成的響應(yīng)以及參考響應(yīng)或基本事實(shí)(類(lèi)似于 ROUGE、BLEU 和 METEOR 等 LLM 指標(biāo))。它是評(píng)估 RAG 系統(tǒng)性能的基本單元。
- 評(píng)估數(shù)據(jù)集:一組評(píng)估樣本,用于基于各種指標(biāo)更系統(tǒng)地評(píng)估整個(gè) RAG 系統(tǒng)的性能。其目的是全面評(píng)估系統(tǒng)的有效性和可靠性。
RAGA指標(biāo)
RAGAs 提供了配置 RAG 系統(tǒng)指標(biāo)的功能,通過(guò)定義檢索器和生成器的特定指標(biāo),并將它們混合成整體 RAGAs 分?jǐn)?shù),如下圖所示:
讓我們了解一下事物檢索和生成方面的一些最常見(jiàn)的指標(biāo)。
1.檢索性能指標(biāo):
- 上下文回憶率:回憶率衡量的是知識(shí)庫(kù)中檢索到的相關(guān)文檔在真實(shí) Top-K 結(jié)果中所占的比例,即檢索到的與問(wèn)題答案最相關(guān)的文檔數(shù)量是多少?它的計(jì)算方法是將檢索到的相關(guān)文檔數(shù)量除以相關(guān)文檔總數(shù)。
- 上下文精度:在檢索到的文檔中,有多少與提示相關(guān),而不是噪音?上下文精度可以回答這個(gè)問(wèn)題,其計(jì)算方法是將檢索到的相關(guān)文檔數(shù)除以檢索到的文檔總數(shù)。
2.生成性能指標(biāo):
- 忠實(shí)度:它評(píng)估生成的響應(yīng)是否與檢索到的證據(jù)相符,換句話說(shuō),就是響應(yīng)的事實(shí)準(zhǔn)確性。這通常通過(guò)比較響應(yīng)和檢索到的文檔來(lái)完成。
- 上下文相關(guān)性:此指標(biāo)決定生成的響應(yīng)與查詢(xún)的相關(guān)性。它通常基于人工判斷或通過(guò)自動(dòng)語(yǔ)義相似度評(píng)分(例如余弦相似度)計(jì)算得出。
作為連接 RAG 系統(tǒng)兩個(gè)方面(檢索和生成)的示例指標(biāo),我們有:
- 上下文利用率:這評(píng)估了 RAG 系統(tǒng)如何有效地利用檢索到的上下文來(lái)生成其響應(yīng)。即使檢索器獲取了極好的上下文(高準(zhǔn)確率和記憶),性能較差的生成器也可能無(wú)法有效地利用它。上下文利用率的提出正是為了捕捉這種細(xì)微差別。
在 RAGAs 框架中,各個(gè)指標(biāo)會(huì)被組合起來(lái),計(jì)算出一個(gè)RAGAs 的總體得分,從而全面量化 RAG 系統(tǒng)的性能。計(jì)算此得分的過(guò)程包括:選擇相關(guān)指標(biāo)并計(jì)算它們,將它們標(biāo)準(zhǔn)化為在同一范圍內(nèi)變動(dòng)(通常為 0-1),然后計(jì)算這些指標(biāo)的加權(quán)平均值。權(quán)重的分配取決于每個(gè)用例的優(yōu)先級(jí),例如,在需要高度事實(shí)準(zhǔn)確性的系統(tǒng)中,確保信息的忠實(shí)性和準(zhǔn)確性確實(shí)至關(guān)重要。當(dāng)處理或提供信息時(shí),尤其是涉及到具體數(shù)據(jù)、日期、事件等事實(shí)性?xún)?nèi)容時(shí),優(yōu)先考慮信息的真實(shí)性而非僅僅追求快速的回憶或檢索能力是十分必要的。這樣可以保證提供的信息更加可靠,減少錯(cuò)誤信息傳播的風(fēng)險(xiǎn)。
小結(jié)
本文介紹并概述了 RAGA:這是一個(gè)流行的評(píng)估框架,用于從信息檢索和文本生成的角度系統(tǒng)地衡量 RAG 系統(tǒng)性能的多個(gè)方面。了解該框架的關(guān)鍵要素是掌握其實(shí)際用途以利用高性能 RAG 應(yīng)用程序的第一步。