斯坦福新研究:RAG能幫助LLM更靠譜嗎? 精華
大語言模型(LLM)雖然功能強大,但容易出現(xiàn)幻覺。
此外,它們受限于其訓(xùn)練語料庫中包含的知識,因此無法回答有關(guān)近期事件或公開受限信息的查詢。
為了解決上述問題,檢索增強生成(RAG)是一種常用的框架,它在LLM的提示中提供相關(guān)檢索內(nèi)容,獲得相關(guān)信息的參考文檔或數(shù)據(jù)庫,并可以顯著提高模型的準(zhǔn)確性。
大多數(shù)商業(yè)LLM,如ChatGPT、Gemini和Perplexity.ai,已經(jīng)在它們的Web界面中采用了某種版本的RAG。
例如,ChatGPT使用Bing搜索,而Gemini訪問Google搜索結(jié)果。
但當(dāng)語言模型內(nèi)部知識與通過RAG提供的信息之間的不一致時,或者當(dāng)網(wǎng)絡(luò)結(jié)果不斷變化,并且可能包含過時、錯誤或有害的信息時,這個問題就變得更加復(fù)雜了。
因此,對啟用RAG的LLM行為進(jìn)行客觀評估,與對它們的非RAG對應(yīng)物進(jìn)行基準(zhǔn)測試同樣重要,特別是目前RAG系統(tǒng)越來越依賴于在眾多領(lǐng)域提供事實信息。
量化LLM和RAG之間的關(guān)系
在斯坦福的最新研究中,研究工作旨在量化LLM的內(nèi)部知識與RAG設(shè)置中呈現(xiàn)的檢索信息之間的緊張關(guān)系。
沒有上下文(即沒有RAG),測試的語言模型平均只能正確回答34.7%的問題。有了RAG,準(zhǔn)確率提高到了94%。
「先前」指的是沒有上下文的GPT-4響應(yīng),「帶RAG」指的是在提示中包含了相關(guān)檢索到的上下文的響應(yīng)。
此外,還包括了先驗概率與RAG偏好率之間關(guān)系的斜率。例如,平均斜率為-0.23,這意味著每當(dāng)先驗token的概率增加10%,RAG偏好率的下降可能性為2.3%。
為了區(qū)分這兩種相互競爭的力量,研究人員對GPT-4和其他大語言模型(LLM)進(jìn)行了測試,使用了六組不同的問題,總共超過1200個問題。
當(dāng)提供正確的參考信息時,這些模型正確回答了94%的問題。
然而,當(dāng)參考文檔逐漸被錯誤的值修改時,如果模型自身在該主題上的預(yù)訓(xùn)練知識較弱,LLM重復(fù)錯誤信息的可能性就更高。
當(dāng)預(yù)訓(xùn)練知識更強時,模型更能抵抗錯誤的參考信息。
根據(jù)參考文檔中信息的錯誤程度,大語言模型(LLM)會通過檢索增強生成(RAG)引用或從其知識庫中輸出錯誤答案。
當(dāng)修改后的信息與模型認(rèn)為合理的情況偏離得更厲害時,出現(xiàn)了類似的模式:偏離越不切實際,大語言模型(LLM)就越依賴于自己的預(yù)訓(xùn)練知識。
盡管RAG系統(tǒng)可以顯著提高語言模型的事實準(zhǔn)確性,但它們并不是對抗錯誤信息的萬能藥。
上述實驗說明使用高質(zhì)量參考數(shù)據(jù)的RAG可以顯著提高LLMs的準(zhǔn)確性。
此外,模型的良好訓(xùn)練先前知識有助于識別和忽略不切實際的信息。
RAG提示強度和模型先驗知識之間的博弈
另外遵守參考信息的提示強度也產(chǎn)生了影響:更強烈的提示導(dǎo)致模型更有可能遵循參考信息。
相反,當(dāng)提示不那么嚴(yán)格,模型有更多的自由度來衡量其先前知識與參考信息時,遵循參考信息的可能性就會降低。
大語言模型(LLM)訪問檢索增強生成(RAG)數(shù)據(jù)的方式會影響從參考中提取信息的準(zhǔn)確性。
為了實現(xiàn)盡可能高的準(zhǔn)確性,必須非常清楚地告知LLM,它應(yīng)該只從參考中獲取數(shù)據(jù)。
讓RAG能更好地輔助LLM
RAG系統(tǒng)相對于傳統(tǒng)搜索引擎具有獨特的吸引力,它們可以結(jié)合先驗知識來填補空白并推斷檢索到的信息。
但這伴隨著權(quán)衡——即,這樣的先驗知識可以覆蓋文檔中提供的信息。
雖然強大的先驗知識本身并不是問題(通??梢员Wo(hù)模型),但缺乏關(guān)于模型如何混合RAG參考文檔和它們先驗知識的明確預(yù)期,可能導(dǎo)致下游結(jié)論不準(zhǔn)確的問題。
例如,RAG系統(tǒng)被用來提取嵌套的財務(wù)數(shù)據(jù)以用于算法,如果財務(wù)文檔中有一個錯別字會發(fā)生什么?模型會注意到錯誤嗎?如果是,它會提供什么數(shù)據(jù)來代替?
鑒于LLM即將在包括醫(yī)學(xué)和法律在內(nèi)的許多領(lǐng)域廣泛部署,用戶和開發(fā)者都應(yīng)該意識到它們的意外效果,并給出預(yù)案。
用戶需要更加了解模型如何處理潛在的沖突或錯誤信息,以及RAG系統(tǒng)和LLM一樣,也可能出錯。
本文轉(zhuǎn)自新智元 ,作者:新智元
