增強(qiáng)問答文本檢索的排序(RAG)模型,你學(xué)會(huì)了嗎?
引言:文本檢索在信息檢索系統(tǒng)中的重要性
文本檢索是信息檢索系統(tǒng)的核心組成部分,它在搜索引擎、問答系統(tǒng)和推薦系統(tǒng)等多種應(yīng)用中發(fā)揮著至關(guān)重要的作用。隨著技術(shù)的發(fā)展,文本檢索已經(jīng)從簡單的關(guān)鍵詞匹配演變?yōu)槔脧?fù)雜的算法理解和匹配文本的語義。特別是在問答系統(tǒng)中,文本檢索技術(shù)能夠從大量數(shù)據(jù)中找到與用戶查詢最相關(guān)的信息,這對于提高系統(tǒng)的準(zhǔn)確性和用戶滿意度至關(guān)重要。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的排名模型在文本檢索中的應(yīng)用越來越廣泛。這些模型通過學(xué)習(xí)文本之間深層的語義關(guān)系,能夠更準(zhǔn)確地評估和排序搜索結(jié)果,從而顯著提高檢索的準(zhǔn)確性。此外,多階段文本檢索系統(tǒng)的出現(xiàn),通過先進(jìn)行粗篩選再精細(xì)排序的方式,進(jìn)一步提高了檢索效率和準(zhǔn)確性。
本文將詳細(xì)介紹文本檢索技術(shù)的最新進(jìn)展,特別是在問答系統(tǒng)中的應(yīng)用,并通過實(shí)驗(yàn)比較不同排名模型的性能,為文本檢索技術(shù)的發(fā)展和應(yīng)用提供參考。
論文標(biāo)題: Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG
機(jī)構(gòu): NVIDIA
論文鏈接:??https://arxiv.org/pdf/2409.07691.pdf??
文本檢索與排名模型的基本概念
1. 文本檢索的核心作用
文本檢索是許多信息檢索應(yīng)用的核心組成部分,如搜索、問答(Q&A)和推薦系統(tǒng)。近年來,文本檢索通過檢索增強(qiáng)生成(RAG)系統(tǒng)被賦予了新的使命,即為大型語言模型(LLM)提供外部和最新的上下文信息。
2. 文本嵌入模型
文本嵌入模型將變長文本表示為固定維度的向量,這對于有效的文本檢索至關(guān)重要,因?yàn)樗鼈兡軌蛘Z義匹配文本內(nèi)容。這些模型基于Transformer架構(gòu),如Sentence-BERT、DPR等,通常通過對比學(xué)習(xí)作為雙編碼器或后組合模型進(jìn)行訓(xùn)練,優(yōu)化模型以最大化查詢和相關(guān)(正向)段落之間的相似性,同時(shí)最小化查詢和非相關(guān)(負(fù)向)段落之間的相似性。
3. 排名模型
排名模型在文本檢索系統(tǒng)中發(fā)揮著至關(guān)重要的作用,它們通常作為交叉編碼器,輸入查詢和段落對,使用自注意力機(jī)制深入模擬查詢和段落對的語義關(guān)系。排名模型僅為檢索模型檢索到的頂部候選段落提供相關(guān)性預(yù)測,可以通過使用較小的嵌入模型來提高檢索準(zhǔn)確性,從而顯著減少索引時(shí)間和成本。
NV-RerankQA-Mistral-4B-v3模型的介紹與優(yōu)勢
1. 模型概述
NV-RerankQA-Mistral-4B-v3是一種先進(jìn)的排名模型,它在文本檢索準(zhǔn)確性上實(shí)現(xiàn)了顯著提升。該模型是從Mistral 7B模型修剪而來,只保留了底部的16層,以減少推理計(jì)算和內(nèi)存需求。此外,它的自注意力機(jī)制從單向(因果)修改為雙向,以改進(jìn)Mistral基于嵌入模型的準(zhǔn)確性。
2. 訓(xùn)練與優(yōu)化
NV-RerankQA-Mistral-4B-v3采用對比學(xué)習(xí)和InfoNCE損失函數(shù)進(jìn)行訓(xùn)練,這種列表式對比學(xué)習(xí)損失函數(shù)旨在最大化問題和正向段落對的相關(guān)性得分,同時(shí)最小化問題和負(fù)向段落對的得分。在數(shù)據(jù)預(yù)處理階段,通過使用教師嵌入模型從語料庫中挖掘負(fù)樣本,以確保高質(zhì)量的訓(xùn)練數(shù)據(jù)。
實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集
1. 數(shù)據(jù)集選擇與處理
在本研究中,我們使用了BEIR數(shù)據(jù)集的三個(gè)問答子集:Natural Questions (NQ)、HotpotQA 和 FiQA。這些數(shù)據(jù)集已經(jīng)被預(yù)處理,分割成不超過512個(gè)詞元的小段落。這種處理方式是為了適應(yīng)模型輸入的限制,并確保數(shù)據(jù)的一致性和可管理性。
2. 實(shí)驗(yàn)流程
實(shí)驗(yàn)的設(shè)置模仿了典型的文本檢索索引和查詢流程。首先進(jìn)行索引流程,將文本語料庫分割成更小的段落,并使用嵌入模型將這些段落轉(zhuǎn)換成向量后存儲在向量數(shù)據(jù)庫中。查詢流程隨后進(jìn)行,對于每個(gè)查詢,系統(tǒng)都會(huì)返回一個(gè)按相關(guān)性排序的段落列表,用于計(jì)算檢索指標(biāo)(如NDCG@10)。
在具體實(shí)現(xiàn)中,查詢問題被嵌入后,通過向量搜索(例如使用精確或近似最近鄰算法)在向量索引中找到最相關(guān)的top-k段落。然后,這些top-k段落通過排名模型進(jìn)行重新排序,以生成最終的有序列表。
實(shí)驗(yàn)結(jié)果與分析
1. 基準(zhǔn)結(jié)果
我們在不同的嵌入模型和排名模型組合下,對文本檢索流程進(jìn)行了基準(zhǔn)測試。測試結(jié)果顯示在不同的問答數(shù)據(jù)集上的NDCG@10評分如下:
- 對于較小的嵌入模型(如snowflake-arctic-embed-l和NV-EmbedQA-e5-v5),大多數(shù)交叉編碼器(除了小型的ms-marco-MiniLM-L-12-v2)都顯著提高了排名準(zhǔn)確性。
- 對于較大的嵌入模型(如NV-EmbedQA-Mistral7B-v2),只有大型的NV-RerankQA-Mistral-4B-v3排名模型能夠提高其準(zhǔn)確性。
特別是,NV-RerankQA-Mistral-4B-v3排名模型在所有數(shù)據(jù)集上都提供了最高的排名準(zhǔn)確性,較第二好的排名模型(bge-reranker-v2-m3)高出14%。
模型訓(xùn)練的權(quán)衡考慮
在部署文本檢索系統(tǒng)時(shí),尤其是涉及到排名模型的多階段文本檢索系統(tǒng),我們必須在模型大小、排名準(zhǔn)確性和系統(tǒng)需求(如索引和服務(wù)的延遲/吞吐量)之間進(jìn)行權(quán)衡。這些權(quán)衡考慮對于實(shí)現(xiàn)高效且成本效益高的系統(tǒng)至關(guān)重要。
1. 模型大小與系統(tǒng)性能的權(quán)衡
模型的大小直接影響到系統(tǒng)的性能。大型模型雖然能夠提高檢索的準(zhǔn)確性,但同時(shí)也會(huì)增加索引的時(shí)間和成本。例如,使用大型嵌入模型(如NV-EmbedQA-Mistral7B-v2)進(jìn)行文本索引,會(huì)顯著增加處理時(shí)間,這對于需要頻繁更新索引的應(yīng)用場景是不可接受的。因此,可能需要通過使用較小的嵌入模型和排名模型的組合來優(yōu)化性能和成本。
2. 排名準(zhǔn)確性與索引吞吐量的權(quán)衡
排名模型可以顯著提高檢索的準(zhǔn)確性,特別是在頂級候選文檔的再排名中。然而,這種準(zhǔn)確性的提高可能以犧牲索引吞吐量和服務(wù)延遲為代價(jià)。例如,NV-RerankQA-Mistral-4B-v3雖然在排名準(zhǔn)確性上表現(xiàn)優(yōu)異,但其復(fù)雜性和計(jì)算需求較高,可能不適合需要快速響應(yīng)的應(yīng)用。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:柏企
