自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG(四)Adaptive Retrieval --語言模型的信任邊界,參數(shù)與非參數(shù)記憶的有效性研究

人工智能
這篇論文深入探討了在什么情況下為大型語言模型(LLM)應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案,幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù),讓語言模型在更多場景下發(fā)揮出更好的性能。

大語言模型(LMs)在許多自然語言處理任務(wù)上表現(xiàn)優(yōu)異,但它們在記憶和回憶不太常見或不流行的事實(shí)知識(shí)方面存在明顯的局限性。并且,當(dāng)涉及到長尾實(shí)體(即那些在網(wǎng)絡(luò)上討論較少、出現(xiàn)頻率較低的實(shí)體)的問題時(shí),LMs 的性能顯著下降,并且增加模型規(guī)模并不能有效地解決這一問題。

此外,LMs 對于自身知識(shí)邊界的認(rèn)識(shí)有限,有時(shí)會(huì)產(chǎn)生幻覺,即生成看似合理但實(shí)際上錯(cuò)誤的信息。這種不確定性以及對模型輸出的信任問題,在實(shí)際應(yīng)用中部署 LMs 時(shí)顯得尤為重要。

因此,何時(shí)應(yīng)該依賴LMs的參數(shù)知識(shí)(即存儲(chǔ)在其參數(shù)中的知識(shí))?何時(shí)不應(yīng)該信任其輸出?以及如何通過非參數(shù)記憶(例如檢索增強(qiáng)技術(shù))來彌補(bǔ)參數(shù)記憶的不足?來自艾倫人工智能研究院發(fā)表在2023年ACL的一篇論文《When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories》深入探究了這些問題,并提出了極具啟發(fā)性的解決方案。

圖片


1、大模型的“記憶困境”:何時(shí)不該信任它們?

為了評估LMs在記憶事實(shí)知識(shí)的能力,通過閉卷問答(QA)任務(wù)來評估,并使用少量樣本進(jìn)行測試。簡單來看下作者的評估思路:

研究重點(diǎn)和任務(wù)

研究重點(diǎn):事實(shí)知識(shí)。這項(xiàng)工作關(guān)注于實(shí)體的具體細(xì)節(jié)知識(shí),將事實(shí)知識(shí)定義為一個(gè)三元組(主體、關(guān)系、對象)。如圖2左圖

任務(wù)格式開放域問答(QA)。將任務(wù)構(gòu)建為開放域QA,即給定一個(gè)問題,模型需要在沒有任何預(yù)給定段落的情況下預(yù)測答案。

評估指標(biāo)準(zhǔn)確率。如果預(yù)測的任何子串與任何金標(biāo)準(zhǔn)答案完全匹配,則將預(yù)測標(biāo)記為正確。

分析維度

作者們假設(shè)在Web上討論較少的事實(shí)知識(shí)可能不會(huì)被LMs很好地記憶。先前的研究通常使用預(yù)訓(xùn)練語料庫中對象實(shí)體的詞頻來理解記憶能力。相反,本文通過研究是否可以根據(jù)輸入問題中的信息預(yù)測記憶,并據(jù)此改進(jìn)模型。因此,本文工作集中在事實(shí)知識(shí)三元組中的另外兩個(gè)變量:主體實(shí)體和關(guān)系類型。

主體實(shí)體流行度:使用Wikipedia月度頁面瀏覽量作為實(shí)體流行度的衡量標(biāo)準(zhǔn),以此來代理實(shí)體在網(wǎng)絡(luò)上被討論的頻率。

關(guān)系類型:也考慮了關(guān)系類型作為事實(shí)知識(shí)記憶的關(guān)鍵因素。

基準(zhǔn)數(shù)據(jù)集

PopQA:現(xiàn)有的常見開放領(lǐng)域 QA 數(shù)據(jù)集(如Natural Questions,NQ)通常由高流行度的主體實(shí)體主導(dǎo),并且由于問題表面形式的多樣性,通常很難識(shí)別關(guān)系類型。為了能夠基于上述分析維度對記憶能力進(jìn)行細(xì)粒度分析,構(gòu)建了一個(gè)新的大規(guī)模實(shí)體中心開放域QA數(shù)據(jù)集,包含14k個(gè)問題,覆蓋了可能在流行QA數(shù)據(jù)集中被遺漏的長尾實(shí)體的事實(shí)信息。

PopQA構(gòu)建流程如下:使用了維基百科頁面的瀏覽量作為衡量實(shí)體受歡迎程度的標(biāo)準(zhǔn),從 Wikidata 中隨機(jī)抽取了 16 種不同關(guān)系類型的知識(shí)三元組,并使用自然語言模板將其轉(zhuǎn)換為自然語言問題。

問題的可接受答案集是滿足知識(shí)圖譜中存在(S,R,E) 的實(shí)體集E。

圖片

EntityQuestions:這是另一個(gè)廣泛使用的開放領(lǐng)域問答數(shù)據(jù)集,它也具有長尾分布的特點(diǎn),即大部分問題是關(guān)于不太流行的實(shí)體。

圖片

EntityQuestions:另一個(gè)流行的開放域QA數(shù)據(jù)集,也涵蓋了長尾實(shí)體分布。

結(jié)果

整體模型性能:圖 4 的左上角展示了模型在 PopQA 上的整體表現(xiàn),結(jié)果顯示,即使沒有使用上下文示例,較大的LMs也能展現(xiàn)出合理的性能

主體實(shí)體流行度預(yù)測記憶:圖 4(底部)顯示,幾乎所有關(guān)系類型的主體實(shí)體流行度與模型準(zhǔn)確率之間都存在正相關(guān)關(guān)系??傮w而言,主體實(shí)體流行度與準(zhǔn)確率之間的相關(guān)性在較大的 LMs 中更強(qiáng);GPT-3 003 顯示出最高的正相關(guān)性(約為 0.4),而 GPT-Neo-1.3B 的相關(guān)性相對較弱(約為 0.1)。

關(guān)系類型影響記憶:在圖 4 中可以看到,模型對某些關(guān)系類型的平均性能高于其他類型。這表明某些關(guān)系類型的事實(shí)知識(shí)比其他類型更容易記憶。同時(shí),對于某些關(guān)系類型的問題,模型可能不需要記憶知識(shí)三元組就能通過利用表面線索來猜測答案。例如,某些關(guān)系類型(如國籍)允許模型利用主體實(shí)體名稱中的表面線索。此外,模型通常對答案實(shí)體數(shù)量較少的問題輸出最主導(dǎo)的答案實(shí)體(例如,對于顏色關(guān)系類型的問題,答案是“紅色”)。

擴(kuò)展可能不會(huì)幫助尾部知識(shí):如圖 4 左側(cè)所示,隨著模型規(guī)模的擴(kuò)大,PopQA 數(shù)據(jù)集上的整體表現(xiàn)有所提升。然而,圖 5 顯示,在 PopQA 和 EntityQuestions 上,模型規(guī)模的增加對于流行度較低的問題的性能改善相對較小。

圖片

圖片

關(guān)系類型結(jié)果分解:圖 6 更詳細(xì)地展示了流行度、準(zhǔn)確率和關(guān)系類型之間的關(guān)系,顯示了不同模型在導(dǎo)演和國家關(guān)系類型上的準(zhǔn)確性與流行度分布。對于前兩種類型,可以看到流行度與準(zhǔn)確性之間存在明顯的正趨勢,并且隨著模型規(guī)模的增大,LMs記憶的知識(shí)也更多。另一方面,在“國家”關(guān)系類型中,沒有模型顯示出趨勢,而整體準(zhǔn)確性較高,表明LMs經(jīng)常利用線索來回答不太流行的問題。

圖片


2、檢索增強(qiáng):為大模型“補(bǔ)課”

前面分析表明,即使是當(dāng)前最先進(jìn)的 LMs 在處理不太受歡迎的主體或某些關(guān)系類型時(shí)也存在困難,并且增加模型規(guī)模并不會(huì)帶來進(jìn)一步的性能提升。因此下面探索研究了檢索增強(qiáng) LMs的有效性,這些模型利用非參數(shù)記憶(即檢索到的文本)來提高性能。

實(shí)驗(yàn)設(shè)置:采用了簡單直接的方式將檢索到的上下文與原始問題連接起來。從維基百科中獲取相關(guān)段落來作為附加的上下文信息,使用BM25和神經(jīng)密集檢索器作為檢索模型。BM25是一種基于統(tǒng)計(jì)信息檢索的算法,而神經(jīng)密集檢索器則利用深度學(xué)習(xí)技術(shù)來計(jì)算文檔與查詢之間的相似度。

結(jié)果

圖7顯示,檢索顯著提升了性能,一個(gè)較小的 LM(例如,GPT-Neo 2.7B)通過 Contriever 檢索增強(qiáng)后,表現(xiàn)優(yōu)于普通的 GPT-3。

圖片

對不流行實(shí)體的幫助

對于主體實(shí)體不太受歡迎的問題,非參數(shù)記憶顯著提升了所有測試模型的表現(xiàn)。例如,在PopQA數(shù)據(jù)集中最不受歡迎的4000個(gè)問題上,基于神經(jīng)密集檢索器增強(qiáng)的GPT-neo 2.7B模型甚至超過了強(qiáng)大的GPT-3 davinci-003模型。

圖片

對流行實(shí)體可能造成的誤導(dǎo)

然而,對于關(guān)于流行實(shí)體的問題,檢索增強(qiáng)可能會(huì)導(dǎo)致大型LMs表現(xiàn)下降。這是因?yàn)闄z索到的上下文有時(shí)會(huì)誤導(dǎo)這些已經(jīng)能夠很好地記住相關(guān)信息的模型。對于 10% 的問題,檢索增強(qiáng)導(dǎo)致 LM 錯(cuò)誤地回答了它本可以正確回答的問題。

圖片


3、Adaptive Retrieval:自適應(yīng)檢索

雖然引入非參數(shù)記憶有助于處理長尾分布,但強(qiáng)大的 LMs 已經(jīng)記憶了流行實(shí)體的事實(shí)知識(shí),檢索增強(qiáng)可能會(huì)帶來負(fù)面影響。于是本文探索了一種兩全其美的方法,即自適應(yīng)檢索(Adaptive Retrieval),該方法僅根據(jù)輸入查詢信息決定何時(shí)檢索段落,并在必要時(shí)使用檢索到的非參數(shù)記憶增強(qiáng)輸入。

自適應(yīng)檢索基于這樣的發(fā)現(xiàn):當(dāng)前最佳的LMs已經(jīng)記憶了更受歡迎的知識(shí),因此只有在它們沒有記憶事實(shí)知識(shí)并且需要找到外部非參數(shù)知識(shí)時(shí)才使用檢索。

使用PopQA 數(shù)據(jù)集來選擇一個(gè)基于輸入查詢信息的流行度閾值,并且僅在低于該閾值的情況下才進(jìn)行檢索。對于更受歡迎的實(shí)體,則不使用檢索。閾值是獨(dú)立為每種關(guān)系類型確定的。

流行度閾值確定

采用暴力搜索(Brute Force Search)的方法來選擇閾值。具體步驟如下:

1. 定義自適應(yīng)準(zhǔn)確率:自適應(yīng)準(zhǔn)確率是指在給定的流行度閾值下,模型的綜合表現(xiàn)。具體來說:

  • 對于流行度低于閾值的問題,模型使用檢索增強(qiáng)(非參數(shù)記憶)的結(jié)果。
  • 對于流行度高于或等于閾值的問題,模型使用自身的參數(shù)記憶(即不進(jìn)行檢索)的結(jié)果。

2. 搜索最優(yōu)閾值:通過暴力搜索的方式,嘗試不同的流行度閾值,并計(jì)算每個(gè)閾值下的自適應(yīng)準(zhǔn)確率。最終選擇使自適應(yīng)準(zhǔn)確率達(dá)到最高的那個(gè)閾值。

性能提升結(jié)果

圖9顯示了基于每種關(guān)系類型的閾值自適應(yīng)檢索非參數(shù)記憶的結(jié)果??梢钥闯?,對于較大的模型,自適應(yīng)檢索非參數(shù)記憶是有效的。在POPQA上的最佳性能是使用GPT-3 davinci-003自適應(yīng)地與GenRead和Contriever結(jié)合,準(zhǔn)確率達(dá)到了46.5%,比任何非自適應(yīng)方法高出5.3%。

圖片

閾值隨模型規(guī)模變化

盡管自適應(yīng)檢索對較大模型顯示出性能提升,但較小模型并沒有實(shí)現(xiàn)相同的性能提升。圖10顯示,較小的LMs幾乎總是需要檢索,表明對于小LMs,參數(shù)記憶并不比非參數(shù)記憶更可靠。相比之下,大型模型通常檢索得少得多。例如,GPT-3 davinci-003僅對40%的問題進(jìn)行檢索,而較小的GPT-NeoX 20B也不在超過20%的問題上檢索文檔。

圖片

推理成本降低

自適應(yīng)檢索還提高了效率;如果我們知道不需要檢索文檔,我們可以跳過檢索組件,并且輸入長度變得更短,這在檢索和語言模型組件中都提高了延遲。圖11顯示了GPT-J 6B和GPT-NeoX 20B的推理延遲,以及GPT-3的API成本。特別是對于較大的LMs,連接檢索上下文會(huì)導(dǎo)致顯著增加的延遲(例如,對于GPT-J 6B,推理時(shí)間延遲幾乎翻倍)。自適應(yīng)檢索能夠?qū)⑼评頃r(shí)間降低高達(dá)9%,從標(biāo)準(zhǔn)檢索中節(jié)省成本。圖12顯示了EntityQuestions的準(zhǔn)確率和成本節(jié)省。盡管EntityQuestions缺乏流行實(shí)體,但自適應(yīng)檢索能夠減少API成本15%,同時(shí)保持與僅檢索相當(dāng)?shù)男阅堋?/span>

圖片


4、總結(jié)

這篇論文深入探討了在什么情況下為大型語言模型(LLM)應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案,幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù),讓語言模型在更多場景下發(fā)揮出更好的性能。

但是對于自適應(yīng)的方式,采用暴力搜索的方式選取自適應(yīng)閾值,尤其是在效率和可擴(kuò)展性方面存在明顯的局限性。這種基于暴力搜索的策略需要對大量可能的閾值進(jìn)行遍歷,計(jì)算成本較高,且難以適應(yīng)動(dòng)態(tài)變化的數(shù)據(jù)分布或大規(guī)模應(yīng)用場景。因此,探索更高效、更智能的閾值選擇方法值得研究。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2021-10-04 14:56:09

機(jī)器學(xué)習(xí)函數(shù)參數(shù)

2023-12-08 16:32:35

GenAI人工智能AI

2021-03-08 10:48:04

AI

2022-09-28 08:18:01

I/ONIO2API

2023-09-05 07:17:23

2024-10-23 08:16:58

RAG智能進(jìn)化

2024-06-19 08:14:51

大型語言模型LLMRAG

2010-07-19 15:07:23

SQL Server評

2024-07-09 07:54:26

2023-07-03 09:49:49

2016-07-26 11:21:53

2015-03-24 11:04:58

2022-12-27 13:36:09

2009-07-14 15:53:21

光纖參數(shù)測試

2021-09-07 06:40:26

狀態(tài)機(jī)識(shí)別地址

2010-07-28 16:40:38

2024-01-22 15:36:54

大語言模型人工智能

2024-07-09 18:36:12

2024-07-09 00:00:06

RAG參數(shù)模型

2024-06-12 08:30:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)