【LLM】CRAG - 綜合性RAG基準(zhǔn)測(cè)試
一、結(jié)論寫在前面
論文來自Meta Reality Labs、FAR、Meta、HKUST、HKUST (GZ)
論文標(biāo)題:CRAG -- Comprehensive RAG Benchmark
論文鏈接:??https://arxiv.org/pdf/2406.04744???
檢索增強(qiáng)生成(Retrieval-Augmented Generation ,RAG)最近作為一種有前景的解決方案出現(xiàn),以緩解大型語(yǔ)言模型(LLM)在知識(shí)缺乏方面的不足。然而,現(xiàn)有的RAG數(shù)據(jù)集并未充分代表真實(shí)世界問答(QA)任務(wù)的多樣性和動(dòng)態(tài)性。
為了彌合這一差距,論文引入了綜合性RAG基準(zhǔn)測(cè)試(CRAG),這是一個(gè)包含4,409個(gè)問答對(duì)的事實(shí)問答基準(zhǔn),并模擬了網(wǎng)絡(luò)和知識(shí)圖譜(KG)搜索的API。這包括每個(gè)問題最多可從現(xiàn)實(shí)世界的搜索引擎——Brave Search API [4]返回的50個(gè)完整HTML頁(yè)面,以及包含260萬(wàn)個(gè)實(shí)體的模擬知識(shí)圖譜(KGs)。對(duì)于模擬的KGs,論文設(shè)置了詳細(xì)的實(shí)體和關(guān)系以模擬真實(shí)情況。
CRAG包含來自五個(gè)領(lǐng)域(金融、體育、音樂、電影和開放領(lǐng)域)的4,409個(gè)問答對(duì)。除了簡(jiǎn)單事實(shí)問題(詢問實(shí)體的屬性),CRAG還包含七種類型的復(fù)雜問題,以涵蓋真實(shí)的用戶查詢:帶有條件的問題、比較問題、聚合問題、多跳問題、集合查詢、后處理繁重的問題和錯(cuò)誤前提問題。CRAG反映了從流行到長(zhǎng)尾的實(shí)體多樣性和從秒到年的時(shí)間跨度,便于深入洞察。在論文生成問題時(shí),論文參考了智能助手的用例,確保問題現(xiàn)實(shí),通過改寫問題增加表達(dá)的多樣性,并手動(dòng)驗(yàn)證事實(shí)真相以確??煽啃?。
論文對(duì)這一基準(zhǔn)的評(píng)估突顯了完全可信賴的QA之間的差距。盡管大多數(shù)先進(jìn)的LLMs在CRAG上的準(zhǔn)確率低于34%,但簡(jiǎn)單地加入RAG僅將準(zhǔn)確率提升至44%。業(yè)界最先進(jìn)的RAG解決方案在不產(chǎn)生任何幻覺的情況下僅能回答63%的問題。CRAG還揭示了在回答涉及更高動(dòng)態(tài)性、較低流行度或更高復(fù)雜度事實(shí)的問題時(shí)準(zhǔn)確率顯著降低,這為未來的研究方向提供了建議。CRAG基準(zhǔn)為2024年KDD Cup挑戰(zhàn)賽奠定了基礎(chǔ),吸引了數(shù)千名參賽者并在比賽的前50天內(nèi)提交了作品。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)最近被視為緩解大型語(yǔ)言模型缺乏知識(shí)這一缺陷的有前景解決方案,吸引了來自學(xué)術(shù)界和工業(yè)界的大量關(guān)注。給定一個(gè)問題,RAG系統(tǒng)會(huì)搜索外部資源以檢索相關(guān)信息,然后提供有根據(jù)的答復(fù)。盡管具有潛力,RAG仍然面臨諸多挑戰(zhàn),例如選擇最相關(guān)的信息、減少問答延遲以及綜合信息來回答復(fù)雜問題。
圖1:使用LLMs進(jìn)行QA(a)無(wú)RAG與(b)有RAG的對(duì)比
目前,為了推動(dòng)這一領(lǐng)域的持續(xù)研究,一個(gè)全面的基準(zhǔn)尚未建立。傳統(tǒng)的QA基準(zhǔn),如Natural Questions 、TriviaQA和MS MARCO,在過去十年中推動(dòng)了QA的發(fā)展,但并未充分代表RAG面臨的多樣化和動(dòng)態(tài)挑戰(zhàn)。專注于LLM或RAG的新基準(zhǔn),如FreshQA 和RGB ,通常針對(duì)LLM的某些能力,并且只包含幾百個(gè)查詢。論文工作的目標(biāo)是建立一個(gè)全面的基準(zhǔn),以推動(dòng)該領(lǐng)域的發(fā)展。
表1:CRAG與現(xiàn)有事實(shí)問答基準(zhǔn)的比較
論文的第三個(gè)貢獻(xiàn)是對(duì)直接的RAG解決方案和行業(yè)內(nèi)最先進(jìn)的RAG解決方案進(jìn)行了全面的評(píng)估(第5節(jié))。盡管大多數(shù)先進(jìn)的LLMs在CRAG上達(dá)到34%的準(zhǔn)確率,但以直接方式添加RAG僅將準(zhǔn)確率提升至44%。行業(yè)內(nèi)最先進(jìn)的RAG解決方案在回答問題時(shí)僅有63%的準(zhǔn)確率,且在處理動(dòng)態(tài)性更高、流行度更低或復(fù)雜度更高的事實(shí)相關(guān)問題時(shí),準(zhǔn)確率仍然較低。這些評(píng)估具有雙重作用:首先,它們證明了CRAG具有適當(dāng)?shù)碾y度水平,并允許從基準(zhǔn)所包含的不同維度的多樣性中得出見解;其次,它們突出了實(shí)現(xiàn)完全可信賴的QA系統(tǒng)的差距和研究方向。
CRAG基準(zhǔn)為KD Cup 2024挑戰(zhàn)奠定了基礎(chǔ),吸引了數(shù)千名參與者并在比賽的前50天內(nèi)提交了大量作品。論文承諾將持續(xù)維護(hù)CRAG,以服務(wù)于研究社區(qū),推動(dòng)RAG解決方案和通用QA解決方案的發(fā)展。
與現(xiàn)有基準(zhǔn)的比較。表1將CRAG與現(xiàn)有的事實(shí)問答基準(zhǔn)進(jìn)行了比較,展示了CRAG基準(zhǔn)的幾個(gè)優(yōu)勢(shì):全面覆蓋、真實(shí)測(cè)試與模擬API、動(dòng)態(tài)問題處理、多樣的事實(shí)流行度以及廣泛超越維基百科。
這些特點(diǎn)使得CRAG成為一個(gè)強(qiáng)大且多功能的基準(zhǔn),用于測(cè)試RAG系統(tǒng)和廣泛的QA系統(tǒng),為評(píng)估這些系統(tǒng)如何處理現(xiàn)實(shí)世界、動(dòng)態(tài)和多樣化的信息檢索與合成挑戰(zhàn)提供了共享測(cè)試平臺(tái),以實(shí)現(xiàn)基于可靠LLM的問答。
2.2 問題描述
一個(gè)RAG QA系統(tǒng)接收一個(gè)問題Q作為輸入,并輸出一個(gè)答案A;答案由LLMs根據(jù)從外部來源檢索的信息或直接從模型內(nèi)化的知識(shí)生成。答案應(yīng)提供有用的信息以回答問題,而不添加任何幻覺。
論文設(shè)計(jì)了三個(gè)任務(wù)。它們共享相同的一組(問題,答案)對(duì),但在用于增強(qiáng)QA的可檢索外部數(shù)據(jù)方面有所不同。在此,論文提供可在QA中利用的內(nèi)容,以確保公平比較。論文將在第3節(jié)中描述數(shù)據(jù)生成的方式。
任務(wù)1:檢索摘要。在任務(wù)1中,論文為每個(gè)問題提供最多五個(gè)網(wǎng)頁(yè)。這些網(wǎng)頁(yè)可能與問題相關(guān),但不保證一定相關(guān)。此任務(wù)旨在測(cè)試RAG系統(tǒng)的答案生成能力。
任務(wù)2:知識(shí)圖譜和網(wǎng)絡(luò)檢索增強(qiáng)。在任務(wù)2中,論文還額外提供了模擬API以訪問底層模擬知識(shí)圖譜中的信息。模擬知識(shí)圖譜存儲(chǔ)與問題相關(guān)的結(jié)構(gòu)化數(shù)據(jù);問題的答案可能存在于也可能不存在于模擬知識(shí)圖譜中。模擬API接受輸入?yún)?shù),通常是從問題解析得到的,并從模擬的知識(shí)圖譜中提供結(jié)構(gòu)化數(shù)據(jù)以支持答案生成。此任務(wù)測(cè)試RAG系統(tǒng)如何有效地查詢結(jié)構(gòu)化數(shù)據(jù)源以及如何綜合不同來源的信息。
表2:CRAG問題類型的定義
任務(wù)3:端到端RAG。與任務(wù)2類似,任務(wù)3也同時(shí)提供網(wǎng)絡(luò)搜索結(jié)果和模擬API作為檢索候選,但提供50個(gè)網(wǎng)頁(yè)作為候選,而不是5個(gè)。更大數(shù)量的網(wǎng)頁(yè)更可能提供回答問題所需的必要信息,但同時(shí)更可能包含噪音。因此,任務(wù)3還測(cè)試RAG系統(tǒng)如何對(duì)更大數(shù)量的檢索結(jié)果進(jìn)行排序。
2.3 數(shù)據(jù)集描述
CRAG包含兩部分?jǐn)?shù)據(jù):?jiǎn)柎饘?duì)和用于檢索的內(nèi)容。論文現(xiàn)在描述每一部分的數(shù)據(jù)。
2.3.1 問答對(duì)
CRAG涵蓋五個(gè)領(lǐng)域:金融、體育、音樂、電影和開放領(lǐng)域,以及八種類型的英語(yǔ)問題。問題類型列于表2中。論文構(gòu)建的問答對(duì)既來自底層知識(shí)圖譜(KGs)也來自網(wǎng)頁(yè)內(nèi)容。
來自KGs的問答對(duì)。論文通過收集一組基于公開可用數(shù)據(jù)的實(shí)體,并根據(jù)選定的實(shí)體類型和關(guān)系創(chuàng)建了600多個(gè)問題模板。接下來,論文按照[2l]從KGs中抽取不同流行度(頭部、軀干和尾部)的實(shí)體來填充模板,并生成完整的問題和答案。
來自網(wǎng)頁(yè)內(nèi)容的問答對(duì)。論文要求標(biāo)注者寫下用戶可能提出的問題(例如,“2023年最受歡迎的動(dòng)作電影”),并從相應(yīng)的網(wǎng)頁(yè)搜索結(jié)果中創(chuàng)建問答對(duì)。
使用上述方法,論文收集了2,425個(gè)Web問題和1,984個(gè)KG問題,其中661個(gè)、658個(gè)和665個(gè)KG問題分別包含頭部、軀干和尾部實(shí)體。表3和表4總結(jié)了問題在不同維度上的分布情況。每個(gè)維度切片的大小(例如,快速變化的事實(shí))使論文能夠在大多數(shù)情況下獲得小于5%的誤差范圍(置信度為95%)的指標(biāo)。動(dòng)態(tài)分布大致反映了領(lǐng)域的性質(zhì)(例如,金融領(lǐng)域的實(shí)時(shí)問題比其他領(lǐng)域多得多)。
表3:每個(gè)動(dòng)態(tài)類別的問題數(shù)量和百分比(括號(hào)內(nèi)為百分比),手動(dòng)確定。金融和體育領(lǐng)域擁有最多的實(shí)時(shí)和快速變化的問題
表4:每個(gè)問題類型的問題數(shù)量和百分比(括號(hào)內(nèi)為百分比),手動(dòng)確定。簡(jiǎn)單和帶有條件的問題構(gòu)成所有問題的43%
2.3.2 檢索內(nèi)容
為了模擬RAG的實(shí)際應(yīng)用場(chǎng)景,論文包含了兩種類型的檢索內(nèi)容:網(wǎng)頁(yè)搜索和知識(shí)圖譜(KG)搜索。
網(wǎng)頁(yè)搜索結(jié)果。對(duì)于每個(gè)問題,論文使用問題文本作為搜索查詢,并從Brave搜索API [4] 中存儲(chǔ)最多50個(gè)HTML頁(yè)面。論文采用基于啟發(fā)式的方法估算網(wǎng)頁(yè)搜索的召回率(50個(gè)網(wǎng)頁(yè)):首先檢查50個(gè)頁(yè)面中是否包含標(biāo)準(zhǔn)答案URL;如果不包含,則搜索頁(yè)面摘要或內(nèi)容中是否包含標(biāo)準(zhǔn)答案中的事實(shí)。估算的召回率在Web Questions中為84%,在KG Questions中為63%(見附錄A.1.5中的表9),這與論文的直覺一致,即KG問題中的主體和尾部實(shí)體可能未包含在返回的50個(gè)頁(yè)面中。
模擬知識(shí)圖譜(Mock KGs)。論文創(chuàng)建了包含公開可用KG數(shù)據(jù)、隨機(jī)選擇的同類型實(shí)體以及具有相似名稱的“硬負(fù)例”實(shí)體(例如,“phantom”對(duì)應(yīng)“phantom of the opera”)的模擬KG。
模擬API。論文創(chuàng)建了具有預(yù)定義參數(shù)的模擬API,以支持在模擬KG中的結(jié)構(gòu)化搜索。例如,對(duì)于詢問股票價(jià)格的查詢,一個(gè)模擬API的示例形式為get-price history(ticker)。
2.4 評(píng)價(jià)指標(biāo)與評(píng)估
2.4.1評(píng)價(jià)指標(biāo)
論文采用一種評(píng)分方法來評(píng)估RAG系統(tǒng)的性能。對(duì)于評(píng)估集中的每個(gè)問題,論文首先根據(jù)以下標(biāo)準(zhǔn)將答案標(biāo)記為完美、可接受、缺失或不正確。
完美。該響應(yīng)正確回答了用戶的問題,并且沒有包含幻覺內(nèi)容。
可接受。該響應(yīng)為用戶的問題提供了一個(gè)有用的答案,但可能包含一些不影響答案有用性的輕微錯(cuò)誤。
缺失。該響應(yīng)為“不知道?!薄皩?duì)不起,找不到。”,或者是空白響應(yīng),或者是系統(tǒng)請(qǐng)求澄清原始問題。
不正確。該響應(yīng)提供了錯(cuò)誤的或與回答用戶問題無(wú)關(guān)的信息。
然后,論文使用一種評(píng)分方法Score,對(duì)于完美、可接受、缺失和不正確的答案分別給予1分、0.5分、0分和-1分,其中論文懲罰幻覺答案,并更傾向于缺失答案而不是不正確的答案。對(duì)于給定的RAG系統(tǒng),論文計(jì)算評(píng)估集中所有示例的平均分?jǐn)?shù)作為最終分?jǐn)?shù)。
2.4.2 評(píng)估
與先前的工作[26]類似,論文采用了人類評(píng)估(human-eval)和模型自動(dòng)評(píng)估(auto-eval)兩種方法。在前者中,論文使用人工評(píng)分來判斷每個(gè)答案是完美、可接受、缺失還是不正確。在后者中,論文將完美和可接受合并,稱之為準(zhǔn)確,并使用三向評(píng)分Scorea,對(duì)于準(zhǔn)確、不正確和缺失的答案分別給予1分、-1分和0分。
論文設(shè)計(jì)了一種兩步法來自動(dòng)評(píng)估:如果答案完全匹配標(biāo)準(zhǔn)答案,則視為準(zhǔn)確;否則,使用大型語(yǔ)言模型(LLMs)來判斷響應(yīng)是準(zhǔn)確、錯(cuò)誤還是缺失。為避免自我偏好問題,論文采用兩個(gè)LLM評(píng)估器:ChatGPT(gpt-3.5-turbo)和Llama 3(1lama-3-70B-instruct),并對(duì)每個(gè)RAG系統(tǒng)報(bào)告這兩個(gè)模型的平均準(zhǔn)確率、幻覺率、缺失率和得分。論文的離線實(shí)驗(yàn)顯示,這種兩步法相較于人工評(píng)估,ChatGPT的平均F1分?jǐn)?shù)為94.7%,Llama 3為98.9%。
測(cè)試數(shù)據(jù)分割。論文將數(shù)據(jù)隨機(jī)分為驗(yàn)證集、公開測(cè)試集和私有測(cè)試集,比例為30%、30%和40%,并發(fā)布了驗(yàn)證集和公開測(cè)試集供KDD Cup挑戰(zhàn)使用。
2.5 基準(zhǔn)測(cè)試
,論文將展示LLMs和RAG系統(tǒng)在CRAG上的性能,證明CRAG具有合理的難度水平,并能幫助在開發(fā)RAG技術(shù)時(shí)提供洞察和方向。
2.5.1 直接的RAG解決方案
實(shí)驗(yàn)設(shè)置:論文首先在CRAG公開測(cè)試集上運(yùn)行僅LLM的解決方案,該測(cè)試集包含1,335個(gè)問題,使用簡(jiǎn)單的提示鼓勵(lì)簡(jiǎn)短答案,并在信心不足時(shí)給出“我不知道”的答案。論文采用了Llama 2 Chat(llama-2-7b-chat和llama-2-70b-chat)、Llama 3 Instruct(llama-3-8B-instruct和llama-3-70B-instruct)和GPT-4 Turbo 。論文評(píng)估的僅基于網(wǎng)頁(yè)的RAG解決方案(任務(wù)1)使用固定長(zhǎng)度的網(wǎng)頁(yè)上下文窗口(Llama 2 Chat為2K token,Llama 3 Instruct和GPT-4 Turbo為4Ktoken);論文按照數(shù)據(jù)中的原始順序連接網(wǎng)頁(yè)片段作為參考文本,直至填滿窗口。
論文的基于知識(shí)圖譜(KG)的解決方案(任務(wù)2、3)還額外使用固定長(zhǎng)度的KG上下文窗口(Llama 2 Chat為1Ktoken,Llama 3 Instruct和GPT-4 Turbo為2Ktoken)以包含Mock API的結(jié)果;論文使用llama-3-8B-instruct進(jìn)行上下文學(xué)習(xí)來提取相關(guān)查詢實(shí)體,并連接所有適用的Mock API返回的結(jié)果(基于提取的實(shí)體),直至填滿窗口。本節(jié)論文討論Llama 3 70B Instruct和GPT-4 Turbo的結(jié)果。
表5:直接RAG解決方案的性能。所有數(shù)字均為百分比。僅LLM解決方案的準(zhǔn)確率最高可達(dá)34%,直接RAG解決方案的準(zhǔn)確率最高可達(dá)44%
圖2展示了僅使用LLM和任務(wù)3解決方案在不同領(lǐng)域、動(dòng)態(tài)性、流行度和問題類型下的自動(dòng)評(píng)估得分(以百分比表示)
表5顯示了來自兩個(gè)自動(dòng)評(píng)估器(ChatGPT和Llama 3)的平均評(píng)估得分,并說明CRAG基準(zhǔn)并非易事:
?首先,最佳的LLM-only解決方案(GPT-4 Turbo)僅達(dá)到349%的準(zhǔn)確率,得分僅為20%,顯示出巨大的改進(jìn)空間。
?其次,直接的RAG解決方案最高可達(dá)44%%的準(zhǔn)確率,表明額外的信息確實(shí)有助于更可靠地回答更多問題。有趣的是,沒有任何RAG解決方案的得分超過20%%;這是因?yàn)樗蠷AG解決方案都引入了更多由無(wú)關(guān)檢索結(jié)果產(chǎn)生的幻覺,顯示出RAG中的一個(gè)重大挑戰(zhàn)——如何審慎地使用檢索結(jié)果而不被檢索噪音干擾?
?第三,論文發(fā)現(xiàn)任務(wù)2的得分高于任務(wù)1,表明KG知識(shí)有助于提高準(zhǔn)確率,且幻覺率相似甚至更低,因?yàn)镵G知識(shí)通常簡(jiǎn)潔而精確。遺憾的是,這種改進(jìn)并不顯著,顯示出RAG中的第二個(gè)挑戰(zhàn)——如何最大限度地利用KG數(shù)據(jù)的力量?最后,任務(wù)3的得分也高于任務(wù)2,這是由于更好的搜索排名(回想任務(wù)1和2提供的是從前10搜索結(jié)果中隨機(jī)選擇的五頁(yè))和更好的搜索召回。這表明搜索排名在RAG中的重要性。
圖2展示了在領(lǐng)域、動(dòng)態(tài)性、流行度和問題類型維度上的自動(dòng)評(píng)估分?jǐn)?shù)。結(jié)果揭示了許多有趣的觀察,并表明CRAG基準(zhǔn)允許更深入的結(jié)論。
?首先,它展示了基準(zhǔn)中哪些部分更難。例如,論文發(fā)現(xiàn)在金融和體育領(lǐng)域,對(duì)于實(shí)時(shí)和快速變化的事實(shí),對(duì)于尾部實(shí)體,以及對(duì)于需要集合答案、后處理和具有錯(cuò)誤前提的復(fù)雜問題的RAG分?jǐn)?shù)顯著較低。
?其次,它顯示了在哪些方面更難利用檢索結(jié)果。以流行度切片為例,論文觀察到GPT-4 Turbo的分?jǐn)?shù)從頭部(21%)下降到表6:使用行業(yè)最先進(jìn)的RAG系統(tǒng)對(duì)CRAG問題進(jìn)行基準(zhǔn)測(cè)試。完美、可接受(Acc.)、幻覺(IHall.)、缺失(Miss.)率和分?jǐn)?shù)n,以百分比表示。最佳系統(tǒng)達(dá)到51%的分?jǐn)?shù),并為高達(dá)63%的問題提供完美答案。
圖3:SOTA系統(tǒng)在不同維度上的人類評(píng)估得分(百分比)
2.5.2 工業(yè)界最先進(jìn)的解決方案
接下來,論文在CRAG公共測(cè)試集上評(píng)估了工業(yè)界最先進(jìn)(SOTA)的RAG解決方案。論文選擇了四個(gè)基于SOTA LLMs和搜索引擎構(gòu)建的RAG系統(tǒng),使用CRAG問題查詢它們,收集了響應(yīng),并應(yīng)用了手動(dòng)評(píng)分。
此外,論文為問題應(yīng)用了流量權(quán)重,以理解實(shí)際使用場(chǎng)景中的解決方案。流量權(quán)重來自一個(gè)真實(shí)的QA用例,并按如下方式生成。在每個(gè)領(lǐng)域內(nèi),論文首先將問題聚類到子領(lǐng)域(例如,當(dāng)前游戲積分、體育隊(duì)伍),然后從反映用戶交互的聚合數(shù)據(jù)中導(dǎo)出子領(lǐng)域權(quán)重。論文將子領(lǐng)域權(quán)重應(yīng)用于每個(gè)CRAG問題,以將結(jié)果與用戶體驗(yàn)相對(duì)應(yīng),并在表6中報(bào)告了所有領(lǐng)域的宏觀平均得分(即,給予所有領(lǐng)域相同的權(quán)重)。
表6和圖3展示了SOTA系統(tǒng)的整體性能及其在不同維度上的表現(xiàn)。評(píng)估結(jié)果證實(shí)了論文的觀點(diǎn),即CRAG基準(zhǔn)揭示了有趣的見解,并為現(xiàn)有的RAG解決方案提供了改進(jìn)空間。
?首先,SOTA解決方案的得分遠(yuǎn)高于直接解決方案(最高達(dá)51%)。然而,加權(quán)幻覺率在17%至25%之間,因此答案仍不可靠。需要注意的是,SOTA解決方案與直接解決方案之間的得分不完全可比,因?yàn)樗鼈冊(cè)L問檢索內(nèi)容的方式不同,前者使用自動(dòng)評(píng)估,而后者使用人工評(píng)估;但趨勢(shì)是有效的。
?其次,在直接解決方案中觀察到的多數(shù)難點(diǎn)對(duì)于SOTA解決方案仍然具有挑戰(zhàn)性:實(shí)時(shí)快速變化的查詢,以及涉及軀干和實(shí)體的問題,表明系統(tǒng)在依賴檢索結(jié)果回答問題時(shí)處理檢索噪聲方面需要改進(jìn);另一個(gè)例子是,對(duì)于需要多跳推理或后處理的查詢,得分較低,顯示了問答中推理能力的提升空間
?第三,第三SOTA系統(tǒng)的加權(quán)準(zhǔn)確率(完美+可接受)略高于第二系統(tǒng)(73%和70%),但幻覺率顯著更高(25.19%和16.6%),表明構(gòu)建RAG系統(tǒng)時(shí),在無(wú)法找到確信答案的情況下明智地回答“我不知道”的必要性。
?最后,在集合和錯(cuò)誤前提問題上的得分,SOTA解決方案相比直接解決方案有了顯著提升,展示了RAG系統(tǒng)在提供準(zhǔn)確完整集合答案和檢測(cè)錯(cuò)誤前提方面的進(jìn)步。
最后,論文觀察到非常不同的延遲,范圍從2.5秒到11.6秒,這反映了在延遲和質(zhì)量之間權(quán)衡的不同設(shè)計(jì)選擇。需要注意的是,延遲結(jié)果來自于與Perplexity.ai的API以及與其他系統(tǒng)的網(wǎng)頁(yè)界面的交互。
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺
