自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

少即是多:為什么文檔檢索量低反而會提高答案質(zhì)量

譯文 精選
人工智能
直觀上,人們往往認為AI檢索的文檔越多,答案就越準確。然而最新研究表明,在向AI提供信息時,有時"少即是多"反而才是正解。

譯者 | 核子可樂

審校 | 重樓

檢索增強生成(RAG)是一種將語言模型與外部知識源結合的AI系統(tǒng)構建方法。簡單來說,AI會先搜索與用戶查詢相關的文檔(如文章或網(wǎng)頁),然后利用這些文檔生成更準確的答案。這種方法因能幫助大語言模型(LLM)扎根真實數(shù)據(jù)、減少虛構信息而受到推崇。

直觀上,人們往往認為AI檢索的文檔越多,答案就越準確。然而最新研究表明,在向AI提供信息時,有時"少即是多"反而才是正解。

更少文檔,更優(yōu)答案

耶路撒冷希伯來大學的研究團隊探索了文檔數(shù)量對RAG系統(tǒng)性能的影響。關鍵實驗設計在于保持總文本量恒定——當減少文檔數(shù)量時,研究者會擴展剩余文檔的篇幅,使總長度與多文檔方案保持一致。這種設計確保性能差異僅歸因于文檔數(shù)量,而非輸入長度。

研究人員使用包含常識問題的MuSiQue數(shù)據(jù)集,每個問題原本配有20段維基百科文本(其中僅少數(shù)包含答案,其余為干擾項)。通過從20段精簡到僅保留2-4段核心相關文檔,并補充額外上下文保持總長度一致,他們創(chuàng)造了AI需要處理的文檔更少但總閱讀量相同的場景。

實驗結果令人驚訝:在多數(shù)情況下,當AI僅獲得少量文檔時,答案準確性反而更高。某些情況下,使用少數(shù)支持文檔的系統(tǒng)準確率(F1得分)比使用全量文檔提升多達10%。這種反直覺的改進在多個開源語言模型(包括Meta的Llama變體等)中均有體現(xiàn),表明該現(xiàn)象并非特定于某個模型。

例外情況出現(xiàn)在Qwen-2模型上,它在處理多文檔時未出現(xiàn)性能下降,但幾乎所有被測模型在文檔減少后整體表現(xiàn)更優(yōu)。換言之,在核心相關文檔之外增加更多參考資料,更多時候會損害而非提升性能。

為什么結果與直覺感受相反?傳統(tǒng)上,RAG系統(tǒng)默認信息越多則AI得出的答案越準確——畢竟若前幾份文檔未包含答案,添加更多文檔應該會有所幫助。

但此項研究反轉(zhuǎn)了這一假設。哪怕是在文本總長度保持不變的前提下,文檔數(shù)量越多則會令AI越是疲于應對。似乎在超過某個臨界點后,每個額外文檔引入的信號更多、導致模型混亂,并最終削弱了它提取正確答案的能力。

為何RAG中“少即是多”?

這種"少即是多"的結果可通過AI語言模型的信息處理方式解釋。當AI僅獲得最相關文檔時,其處理的上下文更聚焦且無干擾,類似于學生只拿到關鍵學習材料。

研究中,模型在僅保留支持文檔(移除無關材料)時表現(xiàn)顯著提升。剩余內(nèi)容不僅更簡短且更純凈——僅包含直接指向答案的事實。需要處理的文檔減少后,模型能更專注地分析關鍵信息,降低分心或混淆的可能性。

相反,當檢索大量文檔時,AI需要篩選相關與無關的雜糅內(nèi)容。這些額外文檔往往是"相似但無關"——可能與查詢擁有相同的主題或關鍵詞,但實際不包含答案。此類內(nèi)容可能誤導模型:AI可能徒勞地在無關文檔間建立聯(lián)系,或更糟的是錯誤融合多源信息,增加生成虛構信息的風險——即答案看似合理卻無事實依據(jù)。

本質(zhì)上,向模型輸入過多文檔會稀釋有效信息并引入矛盾細節(jié),使AI更難判斷事實。

有趣的是,研究人員發(fā)現(xiàn)如果額外文檔明顯無關(如隨機無關文本),模型更善于忽略它們。真正的問題源于看似相關的干擾信息:當所有檢索文本主題相似時,AI會假設都需要使用,卻難以辨別重要細節(jié)。這與研究中觀察到的現(xiàn)象一致——隨機干擾項造成的混淆小于真實干擾項。AI能過濾明顯謬誤,但微妙偏離主題的信息更具迷惑性——它們以相關性為偽裝,導致答案偏離。通過僅保留必要文檔,可從源頭避免這類陷阱。

這一發(fā)現(xiàn)還擁有實際效益:檢索和處理更少文檔能降低RAG系統(tǒng)的計算開銷。每份文檔都需要分析(嵌入、閱讀和注意力分配),消耗時間和計算資源。減少冗余文檔可提升系統(tǒng)效率——更快且更低成本地找到答案。

重新審視RAG:未來方向

這項關于"質(zhì)勝于量"的新證據(jù),對依賴外部知識的AI系統(tǒng)未來具有重要影響。這表明RAG系統(tǒng)設計者應優(yōu)先進行智能過濾和文檔排序,而非追求數(shù)量。與其檢索100段可能包含答案的文本,不如僅獲取少數(shù)高度相關的文檔。

研究團隊強調(diào),檢索方法需要"在信息供給的相關性與多樣性之間取得平衡"。即需覆蓋足夠主題以回答問題,但避免核心事實被無關文本淹沒。

未來,研究人員可能探索幫助AI模型更優(yōu)雅處理多文檔的技術。一個方向是開發(fā)更優(yōu)質(zhì)的檢索系統(tǒng)或重排器,識別真正有價值的文檔并剔除沖突源。另一個角度是改進語言模型本身:既然Qwen-2模型能在多文檔中保持準確性,分析其訓練或結構特點,可為提升其他模型健壯性提供線索。未來的大型語言模型或許能內(nèi)置機制,識別不同來源的信息一致性或矛盾性,并據(jù)此調(diào)整關注重點,最終在利用豐富信息源的同時避免混淆——實現(xiàn)信息廣度與焦點清晰的兼顧。

換句話說,隨著AI系統(tǒng)上下文窗口擴大(即單次讀取更多文本的能力),簡單填充更多數(shù)據(jù)并非萬能解藥。更大的上下文不等于更好的理解。本研究表明,即使AI能讀取50頁文本,輸入50頁混雜信息也可能效果不佳。模型仍受益于精選相關內(nèi)容,而非無差別信息堆砌。事實上,在巨型上下文窗口時代,智能檢索可能愈發(fā)關鍵——確保額外容量用于吸收有價值的知識,而非噪音。

《更多文檔,相同長度(More Documents, Same Length)》論文的發(fā)現(xiàn),促使我們重新審視AI研究中的假設。有時,向AI提供全部數(shù)據(jù)的效果并不如預期。通過聚焦最相關信息,我們不僅能提升AI答案的準確性,還能讓系統(tǒng)更高效、更值得信賴。這個反直覺的結論具有令人興奮的啟示:未來的RAG系統(tǒng)可能通過精心選擇更少但更優(yōu)的文檔,變得更加智能且精簡。

原文標題:Less Is More: Why Retrieving Fewer Documents Can Improve AI Answers,作者:Alex McFarland

責任編輯:姜華 來源: 51CTO
相關推薦

2023-08-24 21:41:49

生成式AI人工智能

2012-02-21 09:11:41

UI設計三大趨勢Clear

2024-07-04 15:32:13

2015-01-12 11:09:49

互聯(lián)網(wǎng)安全量子旋轉(zhuǎn)信息傳輸

2012-12-18 10:34:19

Active Powe創(chuàng)新高密度

2019-07-23 10:40:58

云計算微服務IT

2017-12-15 17:55:41

車牌識別

2022-11-08 17:53:28

2023-11-07 08:45:25

Go透明文件夾語言

2023-12-27 08:12:04

切片Go語言

2019-04-01 08:15:21

Java線程池多核處理器

2024-10-11 09:04:55

2022-12-01 11:14:40

低代碼工具產(chǎn)品

2024-10-10 10:07:07

2020-03-30 08:09:23

網(wǎng)絡安全薪資漏洞

2023-03-28 08:53:18

操作符數(shù)字字符串

2021-10-11 14:30:50

人工智能數(shù)據(jù)技術

2009-08-12 09:02:52

Linux未來LinuxWindows

2024-01-08 13:28:00

5G低延遲

2020-07-06 08:15:59

SQLSELECT優(yōu)化
點贊
收藏

51CTO技術棧公眾號