QOQA:利用TopK文檔進(jìn)行查詢改寫,平均提升RAG 1.6% 準(zhǔn)確率
1. 背景
大型語言模型(LLMs)在眾多語言任務(wù)中展現(xiàn)出非常不錯(cuò)的效果,然而,LLMs中的幻覺現(xiàn)象正極大地削弱它們的可信度和實(shí)用性。一種解決大語言模型幻覺的方法是檢索增強(qiáng)生成(RAG),通過檢索文檔來提供基于檢索到文檔中的事實(shí)信息的更準(zhǔn)確的用戶查詢答復(fù)。
大語言模型幻覺(Hallucination)是指大語言模型產(chǎn)生錯(cuò)誤或者誤導(dǎo)性的信息。
然而,RAG并未完全根除幻覺,這樣因此激發(fā)大量研究來提高RAG的準(zhǔn)確性。一個(gè)不完善的RAG系統(tǒng),常常因?yàn)槟:磺宓牟樵兌l(fā)誤導(dǎo),導(dǎo)致沒能準(zhǔn)確捕捉到用戶的真實(shí)意圖。
最新有研究表明,使用LLMs對(duì)用戶查詢進(jìn)行擴(kuò)展可以提升相關(guān)文檔的檢索效果。查詢擴(kuò)展是指在原始查詢中加入更多相關(guān)術(shù)語,使得用戶的查詢更易與相關(guān)文檔相連。查詢擴(kuò)展主要分為兩大類:
? 基于檢索器的方法通過利用檢索結(jié)果來拓展查詢
? 基于生成的方法則是借助大型語言模型(LLMs)等外部數(shù)據(jù)來豐富查詢內(nèi)容
其中:
? 偽相關(guān)反饋(Pseudo Relevance Feedback,PRF)通過自動(dòng)根據(jù)排名靠前的文檔調(diào)整初始查詢,進(jìn)一步優(yōu)化搜索結(jié)果,無需用戶明確輸入。PRF通過假定頂部結(jié)果的相關(guān)性,增強(qiáng)了查詢,從而提升了后續(xù)檢索的精確度。
? Query2Doc 研究顯示,將LLM生成的內(nèi)容融合到查詢中,其效果明顯優(yōu)于傳統(tǒng)的檢索技術(shù)。但這種方法也存在風(fēng)險(xiǎn),可能會(huì)引入不準(zhǔn)確信息,與目標(biāo)文檔的匹配度不高,并且容易受到LLM幻覺的影響。
? 基于檢索的方法則通過引入相關(guān)術(shù)語或短語,增強(qiáng)了搜索查詢的實(shí)效性,使查詢更加豐富和精準(zhǔn)。
? CSQE利用LLM從檢索到的文檔中提取關(guān)鍵句子進(jìn)行查詢擴(kuò)展,生成適應(yīng)任務(wù)的查詢,盡管這有時(shí)會(huì)使得查詢變得過長(zhǎng)。當(dāng)將CSQE擴(kuò)展的查詢與BM25評(píng)估的結(jié)果以及通過交叉編碼器從BEIR重新排名的結(jié)果進(jìn)行比較時(shí),發(fā)現(xiàn)性能提升并不顯著。
為了解決以上問題,本文作者提出了一種精確查詢優(yōu)化方法(Query Optimization using Query expAnsion,QOQA),利用前k個(gè)平均查詢-文檔對(duì)齊得分,借助LLMs來精煉查詢。這種方法既計(jì)算效率高,又能提升文檔檢索的精確性,減少誤導(dǎo)。在實(shí)驗(yàn)中,這種方法能夠以平均1.6%的提升率,準(zhǔn)確提取所需文檔。
2. 什么是 QOQA?
2.1 借助大型語言模型(LLM)優(yōu)化查詢
為了提升查詢質(zhì)量,采用大型語言模型(LLM)根據(jù)得分對(duì)查詢進(jìn)行改寫擴(kuò)展。
圖片
首先,輸入原始查詢,并通過檢索器獲取相關(guān)文檔。然后,將原始查詢與檢索到的頂級(jí)文檔合并,形成擴(kuò)展查詢,并提交給LLM以產(chǎn)生一系列重新表述的查詢。
經(jīng)過改寫的查詢將根據(jù)其與檢索文檔的契合度進(jìn)行評(píng)估,相應(yīng)的查詢-文檔對(duì)齊得分及其查詢文本將被存入查詢池。
圖片
上圖展示了提示詞模板,將提示模板更新為包含原始查詢、檢索文檔以及排名靠前的查詢改寫。為確保性能超越原始查詢,始終在模板中融入原始查詢信息。在后續(xù)的優(yōu)化環(huán)節(jié),會(huì)根據(jù)得分生成一個(gè)經(jīng)過優(yōu)化的查詢,并將其加入到查詢池中。
上圖中,黑色文字是對(duì)任務(wù)描述的提示詞。藍(lán)色文字是原始查詢以及與之相關(guān)的頂級(jí)檢索文檔。紫色文字是由LLM優(yōu)化器生成的改寫后查詢及其評(píng)分。
2.2 查詢-文檔對(duì)齊得分計(jì)算
2.1 中提到了一個(gè)查詢-文檔對(duì)齊得分,該得分涉及三個(gè)得分:
? 基于稀疏檢索的BM25分?jǐn)?shù)
? 基于密集檢索的密集分?jǐn)?shù)
? 融合了稀疏與密集檢索的混合分?jǐn)?shù)
混合分?jǐn)?shù)如下圖公式:
圖片
文章看上去沒有介紹這個(gè) α參數(shù) 如何設(shè)置。
3. 效果對(duì)比
圖片
上表比較了不同文檔檢索模型在SciFact、Trec-Covid和FiQA數(shù)據(jù)集上的表現(xiàn)。在密集檢索方面,增強(qiáng)模型(QOQA變體)顯示出優(yōu)越的性能。
特別地,QOQA(基于BM25評(píng)分)在SciFact數(shù)據(jù)集上以75.4分的優(yōu)異成績(jī)領(lǐng)先,在Trec-Covid數(shù)據(jù)集上以79.2分的混合評(píng)分證明了其強(qiáng)大的性能。QOQA在多個(gè)數(shù)據(jù)集上一致的性能提升,凸顯了其在提升檢索效率方面的顯著效果。
圖片
如上表,由QOQA生成的改寫查詢相較于原始查詢,在精確度和具體性上更勝一籌。
QOQA方法產(chǎn)生的查詢能夠精準(zhǔn)地包含“納米”或“分子證據(jù)”等關(guān)鍵詞匯,從而有效抓取最為貼切的文檔。這種對(duì)關(guān)鍵詞的精準(zhǔn)把控確保了改寫查詢與答案文檔在詞匯上的更高重合度。因此,借助QOQA優(yōu)化的查詢?cè)跈z索包含正確答案的文檔時(shí)顯示出了顯著的效果。
圖片
上表中可以看出,優(yōu)化步驟對(duì)于搜索更佳的改寫查詢起到了促進(jìn)作用。
缺少了擴(kuò)展部分,整體性能尤其以BM25分?jǐn)?shù)為標(biāo)準(zhǔn),會(huì)有顯著的下降。
證明擴(kuò)展部分在塑造高品質(zhì)改寫查詢和提升文檔檢索效率方面發(fā)揮了不可或缺的作用。
本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAG
