評估RAG系統(tǒng)組件的終極指南 原創(chuàng)
RAG系統(tǒng)包含兩個核心組件:檢索器和生成器,本文將介紹如何評估這兩個組件。
檢索增強型生成(RAG)系統(tǒng)被設(shè)計用來提升大型語言模型(LLM)的響應(yīng)質(zhì)量。當(dāng)用戶提交查詢時,RAG系統(tǒng)從向量數(shù)據(jù)庫中提取相關(guān)信息,并將其作為場景傳遞給LLM。然后,LLM使用這個場景為用戶生成響應(yīng)。這一過程顯著提高了LLM反應(yīng)的質(zhì)量,減少了“幻覺”。
圖1 RAG系統(tǒng)工作流程
在圖1的工作流程中,RAG系統(tǒng)中有兩個主要組件:
- 檢索器:它利用相似度搜索的能力從向量數(shù)據(jù)庫中識別出與用戶查詢最相關(guān)的信息。這一階段是任何RAG系統(tǒng)中最關(guān)鍵的部分,因為它為最終輸出的質(zhì)量奠定了基礎(chǔ)。檢索器會在向量數(shù)據(jù)庫中搜索與用戶查詢相關(guān)的文檔。這包括將查詢和文檔編碼為向量,并使用相似性度量來查找最接近的匹配。
- 響應(yīng)生成器:一旦檢索到相關(guān)文檔,用戶查詢和檢索到的文檔將被傳遞給LLM模型,以生成連貫的、相關(guān)的和信息豐富的響應(yīng)。生成器(LLM)使用檢索器提供的場景和原始查詢來生成準(zhǔn)確的響應(yīng)。
任何RAG系統(tǒng)的有效性和性能在很大程度上取決于這兩個核心組件:檢索器和生成器。檢索器必須有效地識別和檢索最相關(guān)的文檔,而生成器應(yīng)該使用檢索到的信息生成連貫、相關(guān)和準(zhǔn)確的響應(yīng)。在部署之前,對這些組件進(jìn)行嚴(yán)格的評估對于確保RAG模型的最佳性能和可靠性至關(guān)重要。
一、評估RAG
為了評估RAG系統(tǒng),通常使用兩種評估方法:
- 檢索評估
- 響應(yīng)評估
與傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)不同,RAG系統(tǒng)的評估更為復(fù)雜,具有明確的定量指標(biāo)(例如基尼系數(shù)、R平方、AIC、BIC、混淆矩陣等)。出現(xiàn)這種復(fù)雜性是因為RAG系統(tǒng)生成的響應(yīng)是非結(jié)構(gòu)化文本,需要定性和定量指標(biāo)的結(jié)合來準(zhǔn)確評估它們的性能。
TRIAD框架
為了有效地評估RAG系統(tǒng),通常遵循TRIAD框架。該框架由三個主要部分組成:
- 場景相關(guān)性:該組件評估RAG系統(tǒng)的檢索部分。它評估從大型數(shù)據(jù)集檢索文檔的準(zhǔn)確性。這里使用精確率、召回率、MRR和MAP等指標(biāo)。
- 忠誠度(具有依據(jù)):該部分屬于響應(yīng)評估范疇。它檢查生成的響應(yīng)是否真實準(zhǔn)確,是否以檢索到的文檔為依據(jù)。評估忠誠度可以采用人工評估、自動化事實核查工具和一致性檢查等方法。
- 答案相關(guān)性:這也是響應(yīng)評估的一部分。它衡量生成的響應(yīng)如何處理用戶的查詢并提供有用的信息。使用了BLEU、ROUGE、METEOR和基于嵌入的評估等指標(biāo)。
圖2 RAG TRIAD
二、檢索評估
檢索評估應(yīng)用于RAG系統(tǒng)的檢索組件,該系統(tǒng)通常使用向量數(shù)據(jù)庫。這些評估衡量檢索器在響應(yīng)用戶查詢時識別相關(guān)文檔并對其進(jìn)行排序的有效性。檢索評估的主要目標(biāo)是評估場景相關(guān)性,即檢索到的文檔與用戶查詢的一致程度。它確保提供給生成組件的場景是相關(guān)的和準(zhǔn)確的。
圖3 場景相關(guān)性
每個指標(biāo)都對檢索到的文檔的質(zhì)量提供了獨特的視角,并有助于對場景相關(guān)性的全面理解。
精確率
精確率衡量檢索到的文檔的準(zhǔn)確性。它是檢索到的相關(guān)文檔的數(shù)量與檢索到的文檔總數(shù)的比率。其定義是:
圖4 精確率公式
這意味著精確率評估系統(tǒng)檢索的文檔中有多少實際上與用戶的查詢相關(guān)。例如,如果檢索器檢索10個文檔,其中7個是相關(guān)的,則精確率為0.7或70%。
精確率評估的是,“在系統(tǒng)檢索的所有文檔中,有多少是實際相關(guān)的?”
當(dāng)呈現(xiàn)不相關(guān)的信息可能產(chǎn)生負(fù)面后果時,準(zhǔn)確性尤為重要。例如,醫(yī)療信息檢索系統(tǒng)的高精度是至關(guān)重要的,因為提供無關(guān)的醫(yī)療文件可能會導(dǎo)致錯誤信息和潛在的有害結(jié)果。
召回率
召回率衡量檢索文檔的全面性。它是針對給定查詢檢索到的相關(guān)文檔的數(shù)量與數(shù)據(jù)庫中相關(guān)文檔的總數(shù)之比。其定義是:
圖5 召回率公式
這意味著召回率評估系統(tǒng)成功檢索到數(shù)據(jù)庫中存在的相關(guān)文檔的數(shù)量。
召回率評估的是,“在數(shù)據(jù)庫中存在的所有相關(guān)文檔中,系統(tǒng)設(shè)法檢索了多少個?”
在錯過相關(guān)信息可能代價高昂的情況下,召回率至關(guān)重要。例如,在法律信息檢索系統(tǒng)中,召回率高至關(guān)重要,因為未能檢索到相關(guān)法律文件可能會導(dǎo)致案例研究不完整,并可能影響法律訴訟的結(jié)果。
精確率和召回率之間的平衡
精確率和召回率的平衡通常是必要的,因為提高其中一個有時會降低另一個指標(biāo)。目標(biāo)是找到適合應(yīng)用程序特定需求的最佳平衡。這種平衡有時用F1評分來量化,這是精確率和召回率的調(diào)和平均值:
圖6 F1評分公式
平均倒數(shù)排名(MRR)
平均倒數(shù)排名(MRR)是一種通過考慮第一個相關(guān)文檔的排名位置來評估檢索系統(tǒng)有效性的度量。當(dāng)只對第一個相關(guān)文件感興趣時,它特別有用。倒數(shù)排名是第一個相關(guān)文檔被找到的排名的倒數(shù)。MRR是在多個查詢中這些相互排名的平均值。MRR的公式為:
圖7 MRR公式
其中Q是查詢的數(shù)量,是第Q個查詢的第一個相關(guān)文檔的排名位置。
MRR評估的是,“平均而言,響應(yīng)用戶查詢檢索第一個相關(guān)文檔的速度有多快?”
例如,在基于RAG的問答系統(tǒng)中,MRR至關(guān)重要,因為它反映了系統(tǒng)向用戶呈現(xiàn)正確答案的速度。如果正確答案出現(xiàn)在列表頂部的頻率越高,則MRR值越高,表明檢索系統(tǒng)更有效。
平均精度(MAP)
平均精度(MAP)是一個衡量多個查詢檢索精度的指標(biāo)。它同時考慮了檢索的精度和檢索文檔的順序。MAP被定義為一組查詢的平均精度得分的平均值。為了計算單個查詢的平均精度,在檢索到的文檔排名列表中的每個位置計算精度,僅考慮前K個檢索到的文件,其中每個精度都根據(jù)文件是否相關(guān)進(jìn)行加權(quán)。跨多個查詢的MAP公式為:
圖8 MAP公式
其中(Q)為查詢數(shù)量,是查詢(Q)的平均精度。
MAP評估的是,“平均而言,系統(tǒng)在多個查詢中檢索到的排名靠前的文檔有多精確?”
例如,在基于RAG的搜索引擎中,MAP至關(guān)重要,因為它考慮了不同級別的檢索精度,確保相關(guān)文檔在搜索結(jié)果中出現(xiàn)在更高的位置,從而通過首先呈現(xiàn)最相關(guān)的信息來增強用戶體驗。
檢索評估綜述
- 精確率:檢索結(jié)果的質(zhì)量
- 召回率:檢索結(jié)果的完整性
- MRR:檢索第一個相關(guān)文檔的速度
- MAP:結(jié)合相關(guān)文件的精度和排名的綜合評估
三、響應(yīng)評估
響應(yīng)評估應(yīng)用于系統(tǒng)的生成組件。這些評估衡量系統(tǒng)基于檢索文檔提供的場景生成響應(yīng)的效率。將響應(yīng)評估分為兩類:
- 忠誠度(具有依據(jù))
- 答案相關(guān)性
忠誠度(具有依據(jù))
忠誠度評估生成的響應(yīng)是否準(zhǔn)確、是否基于檢索到的文檔,它確保反應(yīng)不包含幻覺或不正確的信息。這個指標(biāo)是至關(guān)重要的,因為它將生成的響應(yīng)追溯到其來源,確保信息基于可驗證的基本事實。忠誠度有助于防止“幻覺”,即系統(tǒng)產(chǎn)生聽起來似乎合理但實際上不正確的反應(yīng)。
為了衡量忠誠度,常用的方法有以下幾種:
- 人工評估:專家人工評估生成的響應(yīng)是否準(zhǔn)確,是否正確地引用了檢索到的文檔。該過程包括對照源文件檢查每個回復(fù),以確保所有聲明都得到證實。
- 自動事實檢查工具:這些工具將生成的響應(yīng)與經(jīng)過驗證的事實數(shù)據(jù)庫進(jìn)行比較,以識別不準(zhǔn)確之處。它們提供了一種無需人工干預(yù)即可自動檢查信息有效性的方法。
- 一致性檢查:這些檢查評估模型是否在不同查詢中一致地提供相同的事實信息。這確保了模型的可靠性,并且不會產(chǎn)生相互矛盾的信息。
答案相關(guān)性
答案相關(guān)性衡量生成的響應(yīng)在多大程度上解決了用戶的查詢并提供了有用的信息。
(1)BLEU(雙語評估替補)
BLEU衡量生成的響應(yīng)和一組參考響應(yīng)之間的重疊,重點關(guān)注n元語法(n-gram)的精度。它是通過衡量生成的響應(yīng)和參考響應(yīng)之間的n-gram(n個單詞的連續(xù)序列)的重疊來計算的。BLEU評分公式為:
圖9 BLEU公式
其中(BP)是簡短性懲罰,用于懲罰過短的回答,(P_n)是n-gram的精度,(w_n)是每個n-gram級別的權(quán)重。BLEU從數(shù)量上衡量生成的響應(yīng)與參考響應(yīng)的匹配程度。
(2)ROUGE(基于召回的Gisting評估研究)
ROUGE衡量生成響應(yīng)和參考響應(yīng)之間n-gram、單詞序列和單詞對的重疊,同時考慮召回率和精確率。最常見的變體ROUGE-N衡量生成響應(yīng)和參考響應(yīng)之間n-grams的重疊。ROUGE-N的公式為:
圖10 MAP公式
ROUGE評估精確度和召回率,提供一個平衡的衡量標(biāo)準(zhǔn),衡量生成的響應(yīng)中引用的相關(guān)內(nèi)容有多少。
(3)METEOR(帶有顯式排序的翻譯評價度量)
METEOR考慮同義詞、詞干和詞序來評估生成的響應(yīng)和參考響應(yīng)之間的相似性。METEOR分?jǐn)?shù)的公式為:
圖11 METEOR公式
其中$F_{\text{mean}}$是精確率和召回率的調(diào)和均值,是對不正確的詞序和其他錯誤的懲罰。METEOR通過考慮同義詞和詞干,提供了比BLEU或ROUGE更細(xì)致的評估。
(4)基于嵌入的評估
該方法使用詞的向量表示(嵌入)來衡量生成響應(yīng)和參考響應(yīng)之間的語義相似度。余弦相似度等技術(shù)用于比較嵌入,根據(jù)單詞的含義而不是它們的精確匹配提供評估。
四、優(yōu)化RAG系統(tǒng)的提示和技巧
可以使用一些基本提示和技巧來優(yōu)化RAG系統(tǒng):
使用重新排序技術(shù)
重新排序是優(yōu)化任何RAG系統(tǒng)性能的最廣泛使用的技術(shù)。它獲取最初的檢索文檔集,并根據(jù)它們的相似性進(jìn)一步對最相關(guān)的文檔進(jìn)行排序??梢允褂媒徊婢幋a器和基于BERT的重新排序器等技術(shù)更準(zhǔn)確地評估文檔相關(guān)性。這確保提供給生成器的文檔場景豐富且高度相關(guān),從而得到更好的響應(yīng)。
調(diào)整超參數(shù)
定期調(diào)整塊大小、重疊和頂級檢索文檔的數(shù)量等超參數(shù)可以優(yōu)化檢索組件的性能。嘗試不同的設(shè)置并評估它們對檢索質(zhì)量的影響可以提高RAG系統(tǒng)的整體性能。
嵌入模型
選擇合適的嵌入模型對于優(yōu)化RAG系統(tǒng)的檢索組件至關(guān)重要。正確的模型,無論是通用的還是特定領(lǐng)域的,都可以顯著增強系統(tǒng)準(zhǔn)確表示和檢索相關(guān)信息的能力。通過選擇與特定用例相一致的模型,可以提高相似性搜索的精度和RAG系統(tǒng)的整體性能。在做出選擇時,考慮模型的訓(xùn)練數(shù)據(jù)、維度和性能指標(biāo)等因素。
分塊策略
通過為LLM捕獲更多相關(guān)信息,定制塊大小和重疊可以顯著地提高RAG系統(tǒng)的性能。例如,LangChain的語義分塊基于語義拆分文檔,確保每個塊在場景上是一致的。根據(jù)文檔類型(例如PDF、表格和圖像)而變化的自適應(yīng)分塊策略可以幫助保留更適合場景的信息。
向量數(shù)據(jù)庫在RAG系統(tǒng)中的作用
向量數(shù)據(jù)庫是RAG系統(tǒng)性能的主要組成部分。當(dāng)用戶提交查詢時,RAG系統(tǒng)的檢索器組件利用向量數(shù)據(jù)庫根據(jù)向量相似性找到最相關(guān)的文檔。這個過程對于為語言模型提供正確的場景以生成準(zhǔn)確和相關(guān)的響應(yīng)至關(guān)重要。強大的向量數(shù)據(jù)庫可確??焖贉?zhǔn)確的檢索,直接影響RAG系統(tǒng)的整體有效性和響應(yīng)性。
結(jié)論
開發(fā)RAG系統(tǒng)本身并不困難,但評估RAG系統(tǒng)對于衡量性能、實現(xiàn)持續(xù)改進(jìn)、與業(yè)務(wù)目標(biāo)保持一致、平衡成本、確??煽啃院瓦m應(yīng)新方法至關(guān)重要。這種全面的評估過程有助于構(gòu)建健壯、高效和以用戶為中心的RAG系統(tǒng)。
通過解決這些關(guān)鍵方面的問題,向量數(shù)據(jù)庫成為高性能RAG系統(tǒng)的基礎(chǔ),使它們能夠在有效管理大規(guī)模復(fù)雜數(shù)據(jù)的同時提供準(zhǔn)確、相關(guān)和及時的響應(yīng)。
原文標(biāo)題:??The Ultimate Guide To Evaluate RAG System Components: What You Need To Know??,作者:Usama Jamil
