o1推理擴展的風吹到了RAG,性能飆升58.9%!
以往的研究主要集中在通過增加檢索文檔的數量或長度來擴展檢索增強生成(RAG)中檢索到的知識。然而,僅增加知識量而不提供進一步的指導存在一定的局限性。
為此,Google DeepMind研究了RAG在推理計算擴展(Inference Scaling)情況下的性能,特別是當上下文很長時。通過應用最優(yōu)配置,在長上下文LLMs上擴展推理計算可以實現高達58.9%的性能提升。
用于RAG的推理擴展策略
為了衡量推理計算,定義了有效上下文長度,即在LLM生成最終答案之前所有迭代中的輸入token總數。對于大多數只調用LLM一次的方法,有效上下文長度等同于提示中的輸入token數量,并受到LLM的上下文窗口限制。對于迭代調用LLM的方法,有效上下文長度可以通過策略無限擴展。
目標是理解RAG性能如何隨著推理計算的擴展而變化。為此,引入了兩種擴展策略:示范基礎RAG(DRAG)和迭代示范基礎RAG(IterDRAG)。
DRAG與IterDRAG的對比。IterDRAG將輸入查詢分解為子查詢并回答它們,以提高最終答案的準確性。在測試時,IterDRAG通過多個推理步驟來擴展計算,分解復雜查詢并檢索文檔。
- 示范基礎RAG(DRAG):DRAG利用上下文學習,通過直接從擴展的輸入上下文中生成答案來利用LLMs的長上下文能力。DRAG在輸入提示中整合了文檔和上下文示例,使得模型能夠在單次推理請求中生成對輸入查詢的答案。
- 迭代示范基礎RAG(IterDRAG):為了處理復雜的多跳查詢,IterDRAG通過將查詢分解為更簡單的子查詢來處理。對于每個子查詢,執(zhí)行檢索以收集額外的上下文信息,然后用于生成中間答案。在所有子查詢解決后,檢索到的上下文、子查詢及其答案被組合以合成最終答案。
RAG性能和推理計算擴摸
接下來重點研究揭示RAG性能與推理計算規(guī)模之間的關系,并嘗試預測在不同計算約束下達到最佳性能的推理參數配置。
固定預算下的最佳性能:
對于固定的有效上下文長度預算,通過枚舉不同的推理參數配置(如檢索文檔的數量、上下文示例的數量、生成迭代的次數)來找到最優(yōu)平均指標。
最優(yōu)配置的具體示例:
- 在某個特定的最大有效上下文長度限制下,選擇一個特定的文檔數量,比如100篇文檔。Lmax
- 確定在輸入提示中使用多少個上下文示例,例如20個示例。
- 對于IterDRAG,可能決定在最終生成答案之前進行最多5次的迭代。
RAG性能隨文檔數量和上下文示例的變化而變化。(a)報告了跨數據集的平均指標值,而在(b)和(c)中,每條線代表在逐漸增加文檔/示例的一致配置下的標準化性能。?
整體性能:
通過擴展最大有效上下文長度,DRAG和IterDRAG的性能一致地提升,表明增加計算預算對RAG性能是有益的。
特別地,IterDRAG在更長的有效上下文長度下(例如超過128k tokens)展現了比DRAG更有效的擴展。
不同方法在不同最大有效上下文長度 LmaxLmax(即所有迭代中的輸入token總數)下的最佳性能。ZS QA和MS QA分別指one shot QA和many shot QA。對于不隨 LmaxLmax 增加而進一步擴展的方法。將每個 LmaxLmax 的最佳結果加粗顯示。
RAG的推理擴展法則:
通過分析不同有效上下文長度下的性能變化,提出了RAG性能隨著推理計算規(guī)模的增加而近乎線性提升的觀察結果,這被稱為RAG的推理擴展法則。
- 線性關系:
- IterDRAG的擴展性:
- 性能增益遞減:
跨數據集的標準化性能與有效上下文長度的對比。每條線代表一個固定的配置,通過改變文檔數量來進行縮放。紅點表示最優(yōu)配置,虛線顯示擬合結果。觀察到的最優(yōu)性能可以通過與有效上下文長度的線性關系來近似。?
MuSiQue上標準化性能與有效上下文長度的對比。每條線代表一個固定的配置,通過調整文檔數量來進行縮放。紅點和虛線代表最優(yōu)配置及其擬合結果。標準RAG在104104個token時早早達到平穩(wěn)狀態(tài),相比之下,DRAG和IterDRAG隨著有效上下文長度的增長顯示出近乎線性的提升。
使用不同方法評估Gemini 1.5 Flash的準確率:零-shot QA、多-shot QA、RAG(帶有最佳數量的文檔)、DRAG和IterDRAG在基準QA數據集上的表現。通過擴展推理計算(最多5M個token),DRAG持續(xù)優(yōu)于基線,而IterDRAG通過交錯檢索和迭代生成改進了DRAG。
https://arxiv.org/pdf/2410.04343
Inference Scaling for Long-Context Retrieval Augmented Generation
Google DeepMind
本文轉載自??PaperAgent??
