自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG真能提升LLM推理能力?人大最新研究:數(shù)據(jù)有噪聲,RAG性能不升反降

人工智能
RAG通過納入外部文檔可以輔助LLM進(jìn)行更復(fù)雜的推理,降低問題求解所需的推理深度,但由于文檔噪聲的存在,其提升效果可能會受限。中國人民大學(xué)的研究表明,盡管RAG可以提升LLM的推理能力,但這種提升作用并不是無限的,并且會受到文檔中噪聲信息的影響。通過DPrompt tuning的方法,可以在一定程度上提升LLM在面對噪聲時的性能。

近年來,大語言模型已經(jīng)在多種任務(wù)上表現(xiàn)出來出色的能力,然而,由于缺乏事實性信息,當(dāng)前的LLM經(jīng)常出現(xiàn)嚴(yán)重的幻覺現(xiàn)象;此外,LLM中的知識是通過其參數(shù)進(jìn)行編碼記憶,這意味著要融入新知識需要進(jìn)一步的微調(diào),消耗大量的時間與計算資源。因此,通過結(jié)合外部檢索器來增強LLM的性能,已經(jīng)成為了主流的方案。

盡管RAG在現(xiàn)代LLM中被廣泛采用,但對于RAG如何輔助推理的深入理解仍然是一個未解的問題。目前,大多數(shù)研究人員主要將RAG視為提供領(lǐng)域特定知識的方法,并常常試圖通過RAG使LLM適應(yīng)特定子領(lǐng)域。然而,RAG在增強推理能力方面的影響尚未得到深入研究。

近日,來自中國人民大學(xué)的學(xué)者指出,RAG可以幫助LLM提升其推理能力,但其提升有限,并且由于retriever中的噪聲,RAG甚至可能造成推理能力的下降。

圖片圖片

論文地址:https://export.arxiv.org/abs/2410.02338

背景與動機

我們可以將LLM視為計算 ??(??∣??),其中q 代表問題query,??是相應(yīng)的答案。

在這種情況下,檢索增強生成(RAG)可以表示為 ??(??∣??,??1,??2,…,????),其中 ???? 是基于query ??檢索到的第 ?? 個文檔。

此外,眾所周知的prompt方法「思維鏈」(CoT)顯著增強了LLMs的推理能力,它可以表示為 ??(??∣??,??1,??2,…,????),其中 ???? 表示逐步推理的結(jié)果。CoT和RAG都旨在將額外的信息融入到輸入中,以獲得更好的性能。理論上和實驗上都已證明,CoT能夠有效提升LLMs的推理能力。那么問題是:RAG是否也能增強LLMs的推理能力?

由于LLM的層數(shù)有限,其推理能力局限于固定深度。當(dāng)將推理路徑概念化為一棵樹時,其最大深度保持不變。思維鏈(Chain of Thought, CoT)通過逐步推理或解釋來生成答案,而不是直接提供答案,其形式化表達(dá)為 ??1=??(??), ??2=??(??,??1),…,??=??(??,??1,…,????)。

這一過程允許CoT通過多次執(zhí)行??來有效擴展推理深度,隨著CoT步驟的增加,潛在地達(dá)到無限深度。

相比之下,檢索增強生成(RAG)并不支持多次推理;它檢索現(xiàn)有的相關(guān)信息來生成答案,因此無法堆疊transformer層數(shù)。

雖然RAG不能通過堆疊LLM層數(shù)來增強推理能力,但檢索到的文檔可能包含中間推理結(jié)果,從而減少了推理所需的層數(shù),使LLM能夠處理更復(fù)雜的問題,進(jìn)而幫助提升其推理能力。

樹形推理結(jié)構(gòu)

對于一個具有 ??層的推理樹 ??,令第 ?? 層的節(jié)點數(shù)量為 ????,并將第 ?? 層的第 ?? 個節(jié)點表示為 ????,??。檢索到的文檔 ?? 包含的相關(guān)信息可以用來替換某些推理節(jié)點的內(nèi)容。

例如,考慮query「Who is the actor playing Jason on General Hospital?」。

在這種情況下,可能存在一個節(jié)點 ????,??,它表示關(guān)于「what is General Hospital?」的信息。如果我們提供一個包含「General Hospital」詳細(xì)信息的文檔,那么 ????,?? 的計算就可以通過從該文檔中提取相關(guān)信息來有效替代。

該文檔不僅簡化了 ????,?? 的計算,還消除了所有僅與 ????,?? 相連的節(jié)點。這些節(jié)點只對 ????,?? 的推理有貢獻(xiàn),既然 ????,?? 的信息可以直接從文檔中得出,那么它們的推理就變得不必要了。因此,檢索到與節(jié)點 ????,?? 相關(guān)的單個文檔可能會減少多個下層節(jié)點的存在。這一過程類似于核武器中的裂變反應(yīng),減少一個節(jié)點會觸發(fā)其他多個節(jié)點的減少。

因此,如果某一層 ??′ 的所有節(jié)點都通過檢索增強生成(RAG)方法被簡化,任何 ??≤??′ 的層都可以被消除,從而有效降低整體的推理深度。

圖片圖片

如上圖所示,推理樹由4層組成,我們檢索到了3個文檔 ??1, ??2, ??3,分別為節(jié)點 ??2,0、??1,1 和 ??2,2 提供了信息。

通過文檔 ??1,節(jié)點 ??1,0 也可以被移除,因為它只對 ??2,0 有貢獻(xiàn);通過文檔 ??2,??0,1 也不再需要;由于文檔 ??3,節(jié)點 ??1,2 和 ??1,3也可以唄移除。

因此,第一層的所有4個節(jié)點都可以通過文檔信息消除,這意味著第一層和第零層的所有節(jié)點都是不必要的。這樣,推理深度從4層減少到了2層。因此,借助相關(guān)文檔,RAG可以有效降低問題的推理復(fù)雜度,使LLM能夠解決更復(fù)雜的問題。

我們可以觀察到,消除單個節(jié)點會顯著影響較淺層中的許多節(jié)點,類似于裂變反應(yīng)。如果這種裂變過程能夠無限擴展,RAG可能會大大增強LLMs的推理能力。

然而,如果裂變反應(yīng)在某個閾值處停止,其效果可能會受到限制。因此,為了評估RAG能夠減少多少層,關(guān)鍵在于確定這一類似裂變的過程是否會終止。理解這一動態(tài)對于評估RAG如何提升推理能力以及LLMs在復(fù)雜問題求解中的整體效率至關(guān)重要。

顯然,針對第??層,該層節(jié)點被erase的概率由兩個部分組成,一是由于上層節(jié)點的推理不再需要,二是某個文檔中包含該節(jié)點的信息,假設(shè)某個文檔中包含該節(jié)點的信息的概率為一個常數(shù)??

p,并且在第??+1層中有????+1%被消除,那么第??層節(jié)點被消除的概率可以是????=??(????+1)=??(??).

令 ??(??)=??(??)???,表示第 ?? 層的增長,可以考慮在 (0,1) 區(qū)間內(nèi)存在一個點 ??^,使得 ??(??^)=0。

如果在 ??>??^時,??(??)<0,表明被消除的節(jié)點數(shù)預(yù)期會比前一層更少,意味著裂變反應(yīng)不會無限傳播,而是會達(dá)到一個臨界閾值。超過這一點后,下一層被消除的節(jié)點數(shù)預(yù)計會比當(dāng)前層減少,從而限制裂變反應(yīng)的擴展。

圖片圖片

由上圖可見,當(dāng) ??^存在時,節(jié)點被erase的概率會逐漸收斂到 ??^,無法無限擴張下去,同時 ??^的位置取決于層與層之間連接的系數(shù)程度和某個文檔中包含節(jié)點的信息的概率。當(dāng)層與層之間連接十分稀疏時或者retriever的性能很強,那么就可以使 ??^>1,那么節(jié)點被erase的概率就會收斂到1,即可erase一整個layer從而降低問題所需的推理深度,使LLM可以解決更復(fù)雜的問題。

文檔噪聲

然而,在實際的RAG場景中,從文檔中檢索到的信息并不總是可以直接使用,通常需要進(jìn)一步處理,因為文檔可能包含噪聲信息,而且有些文檔甚至可能包含錯誤的答案。這些噪聲和干擾文檔會對性能產(chǎn)生負(fù)面影響。

雖然一些研究嘗試微調(diào)模型以過濾噪聲和干擾文檔,但該方法使LLM先完成過濾再進(jìn)行推理,降低了推理能力。此外,一些研究訓(xùn)練另一個過濾模型,但這種方法會導(dǎo)致額外的推理成本,并且無法消除文檔中內(nèi)涵的固有噪聲。

因此,出現(xiàn)了一個關(guān)鍵問題:過濾無關(guān)文檔是否困難,我們能否在有限的層數(shù)內(nèi)有效解決它? 如果過濾噪聲所需的成本甚至超過了RAG帶來的幫助,那么RAG將無法提升推理能力。

令 ?? 表示標(biāo)記的相關(guān)性,????=0 表示標(biāo)記 第 ??個token ????是噪聲,否則該token是相關(guān)的。

圖片表示LLM的原始注意力層。我們假設(shè)期望的自注意力函數(shù)為:

圖片圖片

對模型的微調(diào)可以表示為

圖片圖片

其中圖片,ΔW 表示其余項。

在這種情況下,如果我們需要圖片, 我們需要對于所有的相關(guān)的token ????,有

圖片

因此,需要對于所有的相關(guān)token,有圖片為一個常數(shù),才可以使得圖片

Triple-Wise Problem

對于輸入序列圖片, ?? 表示每個token的相關(guān)性。

具體來說,對于每個token ????,相關(guān)性得分 ????=0 表示該標(biāo)記與查詢無關(guān)。

需要注意的是,計算 ????不僅僅依賴于該token ????和query;相反,它可能需要涉及三個或更多token。

例如,假設(shè)輸入為「Alice is exhausted, but Bob is still very excited, showing no signs of fatigue. How does Bob feel?」,單詞「exhausted」是一個噪聲token,應(yīng)在推理過程中排除。

然而,確定該token的相關(guān)性需要考慮query中的「Bob」以及「exhausted」的主語「Alice」。因此,識別一個標(biāo)記的相關(guān)性需要來自多個token的信息,而自注意力機制僅在成對之間計算關(guān)系,這使得在單個transformer層內(nèi)解決此問題變得困難。

在檢索增強生成(RAG)場景中,我們可以簡化這個triple wise problem。通過預(yù)先計算文檔中的信息,并將這些匯總信息表示為一個或幾個額外的token(virtual token),我們可以僅使用來自token本身、query和virtual token的信息來評估標(biāo)記的相關(guān)性。在這種情況下,使triple wise problem變?yōu)榱藀air-wise problem。

在判斷token ????是否相關(guān)時,不再需要遍歷所有的輸入token ????以尋找和query的沖突,僅需遍歷所有的virtual token即可。

我們微調(diào)一個bert模型以獲取文檔的表征,并通過MLP將其映射到合適的維度,將其作為virtual token插入到模型的輸入prompt中進(jìn)行微調(diào),實驗結(jié)果如下

圖片圖片

其中g(shù)old代表document中只包含一個文檔,該文檔直接包含了query的答案,但該文檔中仍然存在一定的噪聲;gold dis代表文檔中包含gold文檔以及distracting文檔,distracting文檔中包含錯誤的答案。由上圖可見,DPrompt tuning有效提升了LLM在面對噪聲時的性能。

參考資料:

https://arxiv.org/html/2410.02338v2

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-01-15 08:13:47

緩存數(shù)據(jù)庫性能優(yōu)化

2024-10-07 08:49:25

2025-03-06 10:41:32

2014-11-24 09:23:22

華為數(shù)據(jù)中心

2024-12-23 07:20:00

LLM逆向思維語言模型

2024-02-01 15:01:26

AI訓(xùn)練

2025-04-21 06:25:00

2024-03-22 16:13:42

LLMRAGXGBoost

2024-04-30 09:48:33

LLMRAG人工智能

2023-12-26 12:03:52

AI模型

2025-04-21 08:11:09

2025-02-06 13:50:06

2024-01-11 16:24:12

人工智能RAG

2024-10-24 08:07:25

大語言模型LLMRAG模型

2024-01-03 14:41:30

iOS 17蘋果

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-03-26 00:00:07

2024-06-05 13:48:04

2024-11-06 08:13:28

點贊
收藏

51CTO技術(shù)棧公眾號