譯者 | 李睿
審校 | 重樓
RAG系統(tǒng)包含兩個(gè)核心組件:檢索器和生成器,本文將介紹如何評(píng)估這兩個(gè)組件。
檢索增強(qiáng)型生成(RAG)系統(tǒng)被設(shè)計(jì)用來(lái)提升大型語(yǔ)言模型(LLM)的響應(yīng)質(zhì)量。當(dāng)用戶提交查詢時(shí),RAG系統(tǒng)從向量數(shù)據(jù)庫(kù)中提取相關(guān)信息,并將其作為場(chǎng)景傳遞給LLM。然后,LLM使用這個(gè)場(chǎng)景為用戶生成響應(yīng)。這一過(guò)程顯著提高了LLM反應(yīng)的質(zhì)量,減少了“幻覺(jué)”。
圖1 RAG系統(tǒng)工作流程
在圖1的工作流程中,RAG系統(tǒng)中有兩個(gè)主要組件:
- 檢索器:它利用相似度搜索的能力從向量數(shù)據(jù)庫(kù)中識(shí)別出與用戶查詢最相關(guān)的信息。這一階段是任何RAG系統(tǒng)中最關(guān)鍵的部分,因?yàn)樗鼮樽罱K輸出的質(zhì)量奠定了基礎(chǔ)。檢索器會(huì)在向量數(shù)據(jù)庫(kù)中搜索與用戶查詢相關(guān)的文檔。這包括將查詢和文檔編碼為向量,并使用相似性度量來(lái)查找最接近的匹配。
- 響應(yīng)生成器:一旦檢索到相關(guān)文檔,用戶查詢和檢索到的文檔將被傳遞給LLM模型,以生成連貫的、相關(guān)的和信息豐富的響應(yīng)。生成器(LLM)使用檢索器提供的場(chǎng)景和原始查詢來(lái)生成準(zhǔn)確的響應(yīng)。
任何RAG系統(tǒng)的有效性和性能在很大程度上取決于這兩個(gè)核心組件:檢索器和生成器。檢索器必須有效地識(shí)別和檢索最相關(guān)的文檔,而生成器應(yīng)該使用檢索到的信息生成連貫、相關(guān)和準(zhǔn)確的響應(yīng)。在部署之前,對(duì)這些組件進(jìn)行嚴(yán)格的評(píng)估對(duì)于確保RAG模型的最佳性能和可靠性至關(guān)重要。
一、評(píng)估RAG
為了評(píng)估RAG系統(tǒng),通常使用兩種評(píng)估方法:
- 檢索評(píng)估
- 響應(yīng)評(píng)估
與傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)不同,RAG系統(tǒng)的評(píng)估更為復(fù)雜,具有明確的定量指標(biāo)(例如基尼系數(shù)、R平方、AIC、BIC、混淆矩陣等)。出現(xiàn)這種復(fù)雜性是因?yàn)镽AG系統(tǒng)生成的響應(yīng)是非結(jié)構(gòu)化文本,需要定性和定量指標(biāo)的結(jié)合來(lái)準(zhǔn)確評(píng)估它們的性能。
TRIAD框架
為了有效地評(píng)估RAG系統(tǒng),通常遵循TRIAD框架。該框架由三個(gè)主要部分組成:
- 場(chǎng)景相關(guān)性:該組件評(píng)估RAG系統(tǒng)的檢索部分。它評(píng)估從大型數(shù)據(jù)集檢索文檔的準(zhǔn)確性。這里使用精確率、召回率、MRR和MAP等指標(biāo)。
- 忠誠(chéng)度(具有依據(jù)):該部分屬于響應(yīng)評(píng)估范疇。它檢查生成的響應(yīng)是否真實(shí)準(zhǔn)確,是否以檢索到的文檔為依據(jù)。評(píng)估忠誠(chéng)度可以采用人工評(píng)估、自動(dòng)化事實(shí)核查工具和一致性檢查等方法。
- 答案相關(guān)性:這也是響應(yīng)評(píng)估的一部分。它衡量生成的響應(yīng)如何處理用戶的查詢并提供有用的信息。使用了BLEU、ROUGE、METEOR和基于嵌入的評(píng)估等指標(biāo)。
圖2 RAG TRIAD
二、檢索評(píng)估
檢索評(píng)估應(yīng)用于RAG系統(tǒng)的檢索組件,該系統(tǒng)通常使用向量數(shù)據(jù)庫(kù)。這些評(píng)估衡量檢索器在響應(yīng)用戶查詢時(shí)識(shí)別相關(guān)文檔并對(duì)其進(jìn)行排序的有效性。檢索評(píng)估的主要目標(biāo)是評(píng)估場(chǎng)景相關(guān)性,即檢索到的文檔與用戶查詢的一致程度。它確保提供給生成組件的場(chǎng)景是相關(guān)的和準(zhǔn)確的。
圖3 場(chǎng)景相關(guān)性
每個(gè)指標(biāo)都對(duì)檢索到的文檔的質(zhì)量提供了獨(dú)特的視角,并有助于對(duì)場(chǎng)景相關(guān)性的全面理解。
精確率
精確率衡量檢索到的文檔的準(zhǔn)確性。它是檢索到的相關(guān)文檔的數(shù)量與檢索到的文檔總數(shù)的比率。其定義是:
圖4 精確率公式
這意味著精確率評(píng)估系統(tǒng)檢索的文檔中有多少實(shí)際上與用戶的查詢相關(guān)。例如,如果檢索器檢索10個(gè)文檔,其中7個(gè)是相關(guān)的,則精確率為0.7或70%。
精確率評(píng)估的是,“在系統(tǒng)檢索的所有文檔中,有多少是實(shí)際相關(guān)的?”
當(dāng)呈現(xiàn)不相關(guān)的信息可能產(chǎn)生負(fù)面后果時(shí),準(zhǔn)確性尤為重要。例如,醫(yī)療信息檢索系統(tǒng)的高精度是至關(guān)重要的,因?yàn)樘峁o(wú)關(guān)的醫(yī)療文件可能會(huì)導(dǎo)致錯(cuò)誤信息和潛在的有害結(jié)果。
召回率
召回率衡量檢索文檔的全面性。它是針對(duì)給定查詢檢索到的相關(guān)文檔的數(shù)量與數(shù)據(jù)庫(kù)中相關(guān)文檔的總數(shù)之比。其定義是:
圖5 召回率公式
這意味著召回率評(píng)估系統(tǒng)成功檢索到數(shù)據(jù)庫(kù)中存在的相關(guān)文檔的數(shù)量。
召回率評(píng)估的是,“在數(shù)據(jù)庫(kù)中存在的所有相關(guān)文檔中,系統(tǒng)設(shè)法檢索了多少個(gè)?”
在錯(cuò)過(guò)相關(guān)信息可能代價(jià)高昂的情況下,召回率至關(guān)重要。例如,在法律信息檢索系統(tǒng)中,召回率高至關(guān)重要,因?yàn)槲茨軝z索到相關(guān)法律文件可能會(huì)導(dǎo)致案例研究不完整,并可能影響法律訴訟的結(jié)果。
精確率和召回率之間的平衡
精確率和召回率的平衡通常是必要的,因?yàn)樘岣咂渲幸粋€(gè)有時(shí)會(huì)降低另一個(gè)指標(biāo)。目標(biāo)是找到適合應(yīng)用程序特定需求的最佳平衡。這種平衡有時(shí)用F1評(píng)分來(lái)量化,這是精確率和召回率的調(diào)和平均值:
圖6 F1評(píng)分公式
平均倒數(shù)排名(MRR)
平均倒數(shù)排名(MRR)是一種通過(guò)考慮第一個(gè)相關(guān)文檔的排名位置來(lái)評(píng)估檢索系統(tǒng)有效性的度量。當(dāng)只對(duì)第一個(gè)相關(guān)文件感興趣時(shí),它特別有用。倒數(shù)排名是第一個(gè)相關(guān)文檔被找到的排名的倒數(shù)。MRR是在多個(gè)查詢中這些相互排名的平均值。MRR的公式為:
圖7 MRR公式
其中Q是查詢的數(shù)量,是第Q個(gè)查詢的第一個(gè)相關(guān)文檔的排名位置。
MRR評(píng)估的是,“平均而言,響應(yīng)用戶查詢檢索第一個(gè)相關(guān)文檔的速度有多快?”
例如,在基于RAG的問(wèn)答系統(tǒng)中,MRR至關(guān)重要,因?yàn)樗从沉讼到y(tǒng)向用戶呈現(xiàn)正確答案的速度。如果正確答案出現(xiàn)在列表頂部的頻率越高,則MRR值越高,表明檢索系統(tǒng)更有效。
平均精度(MAP)
平均精度(MAP)是一個(gè)衡量多個(gè)查詢檢索精度的指標(biāo)。它同時(shí)考慮了檢索的精度和檢索文檔的順序。MAP被定義為一組查詢的平均精度得分的平均值。為了計(jì)算單個(gè)查詢的平均精度,在檢索到的文檔排名列表中的每個(gè)位置計(jì)算精度,僅考慮前K個(gè)檢索到的文件,其中每個(gè)精度都根據(jù)文件是否相關(guān)進(jìn)行加權(quán)??缍鄠€(gè)查詢的MAP公式為:
圖8 MAP公式
其中(Q)為查詢數(shù)量,是查詢(Q)的平均精度。
MAP評(píng)估的是,“平均而言,系統(tǒng)在多個(gè)查詢中檢索到的排名靠前的文檔有多精確?”
例如,在基于RAG的搜索引擎中,MAP至關(guān)重要,因?yàn)樗紤]了不同級(jí)別的檢索精度,確保相關(guān)文檔在搜索結(jié)果中出現(xiàn)在更高的位置,從而通過(guò)首先呈現(xiàn)最相關(guān)的信息來(lái)增強(qiáng)用戶體驗(yàn)。
檢索評(píng)估綜述
- 精確率:檢索結(jié)果的質(zhì)量
- 召回率:檢索結(jié)果的完整性
- MRR:檢索第一個(gè)相關(guān)文檔的速度
- MAP:結(jié)合相關(guān)文件的精度和排名的綜合評(píng)估
三、響應(yīng)評(píng)估
響應(yīng)評(píng)估應(yīng)用于系統(tǒng)的生成組件。這些評(píng)估衡量系統(tǒng)基于檢索文檔提供的場(chǎng)景生成響應(yīng)的效率。將響應(yīng)評(píng)估分為兩類:
- 忠誠(chéng)度(具有依據(jù))
- 答案相關(guān)性
忠誠(chéng)度(具有依據(jù))
忠誠(chéng)度評(píng)估生成的響應(yīng)是否準(zhǔn)確、是否基于檢索到的文檔,它確保反應(yīng)不包含幻覺(jué)或不正確的信息。這個(gè)指標(biāo)是至關(guān)重要的,因?yàn)樗鼘⑸傻捻憫?yīng)追溯到其來(lái)源,確保信息基于可驗(yàn)證的基本事實(shí)。忠誠(chéng)度有助于防止“幻覺(jué)”,即系統(tǒng)產(chǎn)生聽(tīng)起來(lái)似乎合理但實(shí)際上不正確的反應(yīng)。
為了衡量忠誠(chéng)度,常用的方法有以下幾種:
- 人工評(píng)估:專家人工評(píng)估生成的響應(yīng)是否準(zhǔn)確,是否正確地引用了檢索到的文檔。該過(guò)程包括對(duì)照源文件檢查每個(gè)回復(fù),以確保所有聲明都得到證實(shí)。
- 自動(dòng)事實(shí)檢查工具:這些工具將生成的響應(yīng)與經(jīng)過(guò)驗(yàn)證的事實(shí)數(shù)據(jù)庫(kù)進(jìn)行比較,以識(shí)別不準(zhǔn)確之處。它們提供了一種無(wú)需人工干預(yù)即可自動(dòng)檢查信息有效性的方法。
- 一致性檢查:這些檢查評(píng)估模型是否在不同查詢中一致地提供相同的事實(shí)信息。這確保了模型的可靠性,并且不會(huì)產(chǎn)生相互矛盾的信息。
答案相關(guān)性
答案相關(guān)性衡量生成的響應(yīng)在多大程度上解決了用戶的查詢并提供了有用的信息。
(1)BLEU(雙語(yǔ)評(píng)估替補(bǔ))
BLEU衡量生成的響應(yīng)和一組參考響應(yīng)之間的重疊,重點(diǎn)關(guān)注n元語(yǔ)法(n-gram)的精度。它是通過(guò)衡量生成的響應(yīng)和參考響應(yīng)之間的n-gram(n個(gè)單詞的連續(xù)序列)的重疊來(lái)計(jì)算的。BLEU評(píng)分公式為:
圖9 BLEU公式
其中(BP)是簡(jiǎn)短性懲罰,用于懲罰過(guò)短的回答,(P_n)是n-gram的精度,(w_n)是每個(gè)n-gram級(jí)別的權(quán)重。BLEU從數(shù)量上衡量生成的響應(yīng)與參考響應(yīng)的匹配程度。
(2)ROUGE(基于召回的Gisting評(píng)估研究)
ROUGE衡量生成響應(yīng)和參考響應(yīng)之間n-gram、單詞序列和單詞對(duì)的重疊,同時(shí)考慮召回率和精確率。最常見(jiàn)的變體ROUGE-N衡量生成響應(yīng)和參考響應(yīng)之間n-grams的重疊。ROUGE-N的公式為:
圖10 MAP公式
ROUGE評(píng)估精確度和召回率,提供一個(gè)平衡的衡量標(biāo)準(zhǔn),衡量生成的響應(yīng)中引用的相關(guān)內(nèi)容有多少。
(3)METEOR(帶有顯式排序的翻譯評(píng)價(jià)度量)
METEOR考慮同義詞、詞干和詞序來(lái)評(píng)估生成的響應(yīng)和參考響應(yīng)之間的相似性。METEOR分?jǐn)?shù)的公式為:
圖11 METEOR公式
其中$F_{\text{mean}}$是精確率和召回率的調(diào)和均值,是對(duì)不正確的詞序和其他錯(cuò)誤的懲罰。METEOR通過(guò)考慮同義詞和詞干,提供了比BLEU或ROUGE更細(xì)致的評(píng)估。
(4)基于嵌入的評(píng)估
該方法使用詞的向量表示(嵌入)來(lái)衡量生成響應(yīng)和參考響應(yīng)之間的語(yǔ)義相似度。余弦相似度等技術(shù)用于比較嵌入,根據(jù)單詞的含義而不是它們的精確匹配提供評(píng)估。
四、優(yōu)化RAG系統(tǒng)的提示和技巧
可以使用一些基本提示和技巧來(lái)優(yōu)化RAG系統(tǒng):
使用重新排序技術(shù)
重新排序是優(yōu)化任何RAG系統(tǒng)性能的最廣泛使用的技術(shù)。它獲取最初的檢索文檔集,并根據(jù)它們的相似性進(jìn)一步對(duì)最相關(guān)的文檔進(jìn)行排序??梢允褂媒徊婢幋a器和基于BERT的重新排序器等技術(shù)更準(zhǔn)確地評(píng)估文檔相關(guān)性。這確保提供給生成器的文檔場(chǎng)景豐富且高度相關(guān),從而得到更好的響應(yīng)。
調(diào)整超參數(shù)
定期調(diào)整塊大小、重疊和頂級(jí)檢索文檔的數(shù)量等超參數(shù)可以優(yōu)化檢索組件的性能。嘗試不同的設(shè)置并評(píng)估它們對(duì)檢索質(zhì)量的影響可以提高RAG系統(tǒng)的整體性能。
嵌入模型
選擇合適的嵌入模型對(duì)于優(yōu)化RAG系統(tǒng)的檢索組件至關(guān)重要。正確的模型,無(wú)論是通用的還是特定領(lǐng)域的,都可以顯著增強(qiáng)系統(tǒng)準(zhǔn)確表示和檢索相關(guān)信息的能力。通過(guò)選擇與特定用例相一致的模型,可以提高相似性搜索的精度和RAG系統(tǒng)的整體性能。在做出選擇時(shí),考慮模型的訓(xùn)練數(shù)據(jù)、維度和性能指標(biāo)等因素。
分塊策略
通過(guò)為L(zhǎng)LM捕獲更多相關(guān)信息,定制塊大小和重疊可以顯著地提高RAG系統(tǒng)的性能。例如,LangChain的語(yǔ)義分塊基于語(yǔ)義拆分文檔,確保每個(gè)塊在場(chǎng)景上是一致的。根據(jù)文檔類型(例如PDF、表格和圖像)而變化的自適應(yīng)分塊策略可以幫助保留更適合場(chǎng)景的信息。
向量數(shù)據(jù)庫(kù)在RAG系統(tǒng)中的作用
向量數(shù)據(jù)庫(kù)是RAG系統(tǒng)性能的主要組成部分。當(dāng)用戶提交查詢時(shí),RAG系統(tǒng)的檢索器組件利用向量數(shù)據(jù)庫(kù)根據(jù)向量相似性找到最相關(guān)的文檔。這個(gè)過(guò)程對(duì)于為語(yǔ)言模型提供正確的場(chǎng)景以生成準(zhǔn)確和相關(guān)的響應(yīng)至關(guān)重要。強(qiáng)大的向量數(shù)據(jù)庫(kù)可確保快速準(zhǔn)確的檢索,直接影響RAG系統(tǒng)的整體有效性和響應(yīng)性。
結(jié)論
開(kāi)發(fā)RAG系統(tǒng)本身并不困難,但評(píng)估RAG系統(tǒng)對(duì)于衡量性能、實(shí)現(xiàn)持續(xù)改進(jìn)、與業(yè)務(wù)目標(biāo)保持一致、平衡成本、確??煽啃院瓦m應(yīng)新方法至關(guān)重要。這種全面的評(píng)估過(guò)程有助于構(gòu)建健壯、高效和以用戶為中心的RAG系統(tǒng)。
通過(guò)解決這些關(guān)鍵方面的問(wèn)題,向量數(shù)據(jù)庫(kù)成為高性能RAG系統(tǒng)的基礎(chǔ),使它們能夠在有效管理大規(guī)模復(fù)雜數(shù)據(jù)的同時(shí)提供準(zhǔn)確、相關(guān)和及時(shí)的響應(yīng)。
原文標(biāo)題:The Ultimate Guide To Evaluate RAG System Components: What You Need To Know,作者:Usama Jamil