自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Salesforce 新方法讓RAG效果飆升

發(fā)布于 2025-2-17 07:18
瀏覽
0收藏

Diversity Enhances an LLM's Performance in RAG and Long-context Task大型語言模型(LLMs)的快速發(fā)展凸顯了上下文窗口限制的挑戰(zhàn),這主要是由于自注意力機制的二次時間復(fù)雜度((O(N^2)),其中 (N) 表示上下文窗口長度)。這一限制影響了問答(Q&A)中的檢索增強生成(RAG)和長上下文摘要等任務(wù)。一種常見的方法是選擇與查詢最相似的內(nèi)容;然而,這通常會導(dǎo)致冗余,并排除多樣化的相關(guān)信息。基于最大邊緣相關(guān)性(MMR)和最遠點采樣(FPS)的原則,我們在內(nèi)容選擇過程中引入了多樣性。我們的研究發(fā)現(xiàn),在基于 LLM 的問答和摘要之前,將多樣性融入內(nèi)容選擇,可以顯著提高相關(guān)句子或塊的召回率。這些結(jié)果強調(diào)了在未來的 LLM 應(yīng)用中保持多樣性的重要性,以進一步提升摘要和問答的效果。??https://arxiv.org/abs/2502.09017??

為什么大模型需要學(xué)會"挑食"?

在開發(fā)大語言模型應(yīng)用時,我們常常遇到這樣的困境:面對海量文本數(shù)據(jù),模型就像面對滿漢全席的新手食客,既想品嘗所有美味,又受限于"胃容量"(上下文窗口)。這種限制主要源自 Transformer 架構(gòu)的自注意力機制——每增加一個 token,計算量就會呈平方級增長。就像用 1000 塊拼圖拼一幅畫,每增加一塊新拼圖,都需要和之前所有 999 塊比對位置。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

盡管 GPT-4 已經(jīng)能將"胃容量"擴展到 12.8 萬 token,但現(xiàn)實應(yīng)用中的挑戰(zhàn)依然嚴峻。想象你要開發(fā)一個法律咨詢系統(tǒng),需要同時處理上百份判例文書;或者開發(fā)醫(yī)療診斷助手,要分析患者長達十年的就診記錄。傳統(tǒng)解決方案就像讓食客只挑看起來最誘人的菜肴,但往往導(dǎo)致營養(yǎng)失衡——過度選擇相似內(nèi)容,漏掉關(guān)鍵信息。

多樣性篩選:大模型的營養(yǎng)師

這時候就需要引入"營養(yǎng)師"角色——多樣性篩選算法。它們的核心思想就像米其林餐廳的品鑒流程:既要保證食材品質(zhì)(相關(guān)性),又要講究菜品搭配(多樣性)。目前主流的兩種"營養(yǎng)搭配法"是:

1. 最大邊際相關(guān)(MMR):精準的膳食平衡

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

MMR 算法的工作方式就像米其林大廚選食材。假設(shè)要為貴賓準備 8 道菜的套餐,主廚會:

  1. 1. 先選最符合客人偏好的主菜(比如龍蝦)
  2. 2. 接著選與主菜搭配又能帶來新味覺體驗的輔菜(比如用松露而非普通蘑菇)
  3. 3. 持續(xù)平衡"客人喜好"和"菜單多樣性"

數(shù)學(xué)公式中的 α 參數(shù)就像口味調(diào)節(jié)旋鈕:α=0.7 時更注重菜品質(zhì)量,α=0.3 時強調(diào)菜品多樣性。在實際開發(fā)中,我們通過實驗發(fā)現(xiàn)將 α 設(shè)置在 0.6-0.7 之間,能在問答任務(wù)中取得最佳效果。

2. 最遠點采樣(FPS):聰明的空間布局

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

FPS 算法源自 3D 點云處理,其原理就像城市規(guī)劃師選址:

  1. 1. 隨機選擇第一個消防站位置
  2. 2. 第二個選址離第一個最遠
  3. 3. 第三個選址離前兩個最遠的位置
  4. 4. 以此類推確保全面覆蓋

當應(yīng)用于文本選擇時,這種策略能有效避免信息扎堆。比如處理醫(yī)療報告時,傳統(tǒng)方法可能會重復(fù)選擇"血壓升高"的相關(guān)描述,而 FPS 能同時保留"心電圖異常"、"腎功能指標"等不同維度的關(guān)鍵信息。

為什么多樣性篩選能創(chuàng)造奇跡?

在我們的實驗中,采用多樣性篩選帶來了三大突破性提升:

1. 召回率提升

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

在長文本問答(Q&A)任務(wù)中,傳統(tǒng)方法傾向于選擇與查詢相似度最高的內(nèi)容,但這種方式容易導(dǎo)致信息冗余或遺漏關(guān)鍵細節(jié)。

通過引入最大邊際相關(guān)(MMR)和最遠點采樣(FPS) 兩種多樣性篩選策略,顯著提升了候選內(nèi)容的召回率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

實驗顯示,在單文檔問答任務(wù)中,MMR和FPS相比基準方法(SB)的召回率提升了2%-5%;

在多文檔問答任務(wù)中,MMR結(jié)合E5模型后,答案在檢索文檔中的召回率提升超過10%。

這種改進源于多樣性篩選能覆蓋更廣泛的語義空間,減少重復(fù)內(nèi)容的干擾,確保關(guān)鍵信息不被遺漏。

2. 推理延遲降低 40%

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

盡管MMR和FPS均能提升召回率,但兩者的計算效率差異顯著。實驗發(fā)現(xiàn),MMR的延遲遠低于FPS,尤其是在處理長上下文時。例如,在自然問題(Natural Question)數(shù)據(jù)集上,當壓縮比為0.2時,MMR的延遲僅為FPS的1/3。這一優(yōu)勢源于MMR采用余弦相似度計算,而FPS依賴歐氏距離,后者計算復(fù)雜度更高。此外,MMR支持動態(tài)調(diào)整超參數(shù)(如窗口大小和權(quán)重),進一步優(yōu)化了實時性能。因此,MMR更適合實際應(yīng)用場景,尤其是需要快速響應(yīng)的工業(yè)級系統(tǒng)。

3. 內(nèi)容順序的隱藏價值

內(nèi)容的排列順序?qū)LM的理解能力影響深遠。研究發(fā)現(xiàn),保持句子在原文中的順序(index sort) 能顯著提升問答準確率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

例如,在單文檔問答任務(wù)中,保持原始順序的MMR方法(SB+MMR index sort)相比亂序版本的性能高出3%-5%(如上圖)。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

而對于分塊(chunk)內(nèi)容,將關(guān)鍵塊置于提示的開頭或結(jié)尾可進一步提升LLM的注意力(如上圖),這與“Lost in the Middle”現(xiàn)象一致——模型容易忽略中間位置的信息。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

此外,分塊大小也影響效果:512詞塊的表現(xiàn)優(yōu)于256詞塊和句子級分割(表7),說明適度的上下文連貫性對模型推理至關(guān)重要。

實踐指南

在實際應(yīng)用中,總結(jié)了三大黃金法則:

1. 參數(shù)調(diào)優(yōu)四步法

? 第一步:確定基線 α=0.5

? 第二步:以 0.1 為步長進行網(wǎng)格搜索

? 第三步:驗證集上評估召回率和生成質(zhì)量

? 第四步:根據(jù)任務(wù)類型微調(diào)(問答任務(wù)建議 α=0.6,摘要任務(wù) α=0.55)

2. 混合策略配置

對于超長文本處理,可以采用分級篩選:

? 第一級用 FPS 快速粗選(窗口大小 100)

? 第二級用 MMR 精準篩選(窗口大小 10)

? 最終按原文順序+相關(guān)性分數(shù)排序

3. 避免的五個陷阱

? 盲目追求最大多樣性(α<0.4 會導(dǎo)致信息偏離)

? 忽視 embedding 模型的質(zhì)量(建議使用 bge-large-v1.5)

? 混合不同來源文檔時未做歸一化處理

? 固定窗口大小不調(diào)整(建議動態(tài)設(shè)置:窗口大小=總 token 數(shù)/50)

? 忽略內(nèi)容順序的影響(特別是時序性文檔)

未來演進方向

三個重要趨勢:

? 動態(tài)多樣性調(diào)節(jié):根據(jù)上下文復(fù)雜度自動調(diào)整 α 參數(shù)

? 多模態(tài)擴展:將圖像特征納入多樣性考量

? 自監(jiān)督微調(diào):讓模型自主生成多樣性評估信號

站在開發(fā)者的角度,理解這些原理不僅能夠優(yōu)化現(xiàn)有系統(tǒng),更能為設(shè)計新一代語言模型提供啟發(fā)。就像優(yōu)秀的廚師懂得食材搭配的藝術(shù),聰明的開發(fā)者需要掌握信息篩選的平衡之道。將人類的信息處理智慧編碼進算法,大模型才能真正成為稱職的"信息美食家"。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦