自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="ipsrl"><track id="ipsrl"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

RAG（四）Adaptive Retrieval --語言模型的信任邊界，參數(shù)與非參數(shù)記憶的有效性研究

作者：Goldma 2025-03-17 12:52:44

這篇論文深入探討了在什么情況下為大型語言模型（LLM）應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案，幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù)，讓語言模型在更多場景下發(fā)揮出更好的性能。

大語言模型（LMs）在許多自然語言處理任務(wù)上表現(xiàn)優(yōu)異，但它們在記憶和回憶不太常見或不流行的事實(shí)知識(shí)方面存在明顯的局限性。并且，當(dāng)涉及到長尾實(shí)體（即那些在網(wǎng)絡(luò)上討論較少、出現(xiàn)頻率較低的實(shí)體）的問題時(shí)，LMs 的性能顯著下降，并且增加模型規(guī)模并不能有效地解決這一問題。

此外，LMs 對于自身知識(shí)邊界的認(rèn)識(shí)有限，有時(shí)會(huì)產(chǎn)生幻覺，即生成看似合理但實(shí)際上錯(cuò)誤的信息。這種不確定性以及對模型輸出的信任問題，在實(shí)際應(yīng)用中部署 LMs 時(shí)顯得尤為重要。

因此，何時(shí)應(yīng)該依賴LMs的參數(shù)知識(shí)（即存儲(chǔ)在其參數(shù)中的知識(shí)）？何時(shí)不應(yīng)該信任其輸出？以及如何通過非參數(shù)記憶（例如檢索增強(qiáng)技術(shù)）來彌補(bǔ)參數(shù)記憶的不足？來自艾倫人工智能研究院發(fā)表在2023年ACL的一篇論文《When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories》深入探究了這些問題，并提出了極具啟發(fā)性的解決方案。

1、大模型的“記憶困境”：何時(shí)不該信任它們？

為了評估LMs在記憶事實(shí)知識(shí)的能力，通過閉卷問答（QA）任務(wù)來評估，并使用少量樣本進(jìn)行測試。簡單來看下作者的評估思路：

研究重點(diǎn)和任務(wù)

研究重點(diǎn)：事實(shí)知識(shí)。這項(xiàng)工作關(guān)注于實(shí)體的具體細(xì)節(jié)知識(shí)，將事實(shí)知識(shí)定義為一個(gè)三元組（主體、關(guān)系、對象）。如圖2左圖

任務(wù)格式：開放域問答（QA）。將任務(wù)構(gòu)建為開放域QA，即給定一個(gè)問題，模型需要在沒有任何預(yù)給定段落的情況下預(yù)測答案。

評估指標(biāo)：準(zhǔn)確率。如果預(yù)測的任何子串與任何金標(biāo)準(zhǔn)答案完全匹配，則將預(yù)測標(biāo)記為正確。

分析維度

作者們假設(shè)在Web上討論較少的事實(shí)知識(shí)可能不會(huì)被LMs很好地記憶。先前的研究通常使用預(yù)訓(xùn)練語料庫中對象實(shí)體的詞頻來理解記憶能力。相反，本文通過研究是否可以根據(jù)輸入問題中的信息預(yù)測記憶，并據(jù)此改進(jìn)模型。因此，本文工作集中在事實(shí)知識(shí)三元組中的另外兩個(gè)變量：主體實(shí)體和關(guān)系類型。

主體實(shí)體流行度：使用Wikipedia月度頁面瀏覽量作為實(shí)體流行度的衡量標(biāo)準(zhǔn)，以此來代理實(shí)體在網(wǎng)絡(luò)上被討論的頻率。

關(guān)系類型：也考慮了關(guān)系類型作為事實(shí)知識(shí)記憶的關(guān)鍵因素。

基準(zhǔn)數(shù)據(jù)集

PopQA：現(xiàn)有的常見開放領(lǐng)域 QA 數(shù)據(jù)集（如Natural Questions，NQ）通常由高流行度的主體實(shí)體主導(dǎo)，并且由于問題表面形式的多樣性，通常很難識(shí)別關(guān)系類型。為了能夠基于上述分析維度對記憶能力進(jìn)行細(xì)粒度分析，構(gòu)建了一個(gè)新的大規(guī)模實(shí)體中心開放域QA數(shù)據(jù)集，包含14k個(gè)問題，覆蓋了可能在流行QA數(shù)據(jù)集中被遺漏的長尾實(shí)體的事實(shí)信息。

PopQA構(gòu)建流程如下：使用了維基百科頁面的瀏覽量作為衡量實(shí)體受歡迎程度的標(biāo)準(zhǔn)，從 Wikidata 中隨機(jī)抽取了 16 種不同關(guān)系類型的知識(shí)三元組，并使用自然語言模板將其轉(zhuǎn)換為自然語言問題。

問題的可接受答案集是滿足知識(shí)圖譜中存在(S,R,E) 的實(shí)體集E。

EntityQuestions：這是另一個(gè)廣泛使用的開放領(lǐng)域問答數(shù)據(jù)集，它也具有長尾分布的特點(diǎn)，即大部分問題是關(guān)于不太流行的實(shí)體。

EntityQuestions：另一個(gè)流行的開放域QA數(shù)據(jù)集，也涵蓋了長尾實(shí)體分布。

結(jié)果

整體模型性能：圖 4 的左上角展示了模型在 PopQA 上的整體表現(xiàn)，結(jié)果顯示，即使沒有使用上下文示例，較大的LMs也能展現(xiàn)出合理的性能。

主體實(shí)體流行度預(yù)測記憶：圖 4（底部）顯示，幾乎所有關(guān)系類型的主體實(shí)體流行度與模型準(zhǔn)確率之間都存在正相關(guān)關(guān)系?？傮w而言，主體實(shí)體流行度與準(zhǔn)確率之間的相關(guān)性在較大的 LMs 中更強(qiáng)；GPT-3 003 顯示出最高的正相關(guān)性（約為 0.4），而 GPT-Neo-1.3B 的相關(guān)性相對較弱（約為 0.1）。

關(guān)系類型影響記憶：在圖 4 中可以看到，模型對某些關(guān)系類型的平均性能高于其他類型。這表明某些關(guān)系類型的事實(shí)知識(shí)比其他類型更容易記憶。同時(shí)，對于某些關(guān)系類型的問題，模型可能不需要記憶知識(shí)三元組就能通過利用表面線索來猜測答案。例如，某些關(guān)系類型（如國籍）允許模型利用主體實(shí)體名稱中的表面線索。此外，模型通常對答案實(shí)體數(shù)量較少的問題輸出最主導(dǎo)的答案實(shí)體（例如，對于顏色關(guān)系類型的問題，答案是“紅色”）。

擴(kuò)展可能不會(huì)幫助尾部知識(shí)：如圖 4 左側(cè)所示，隨著模型規(guī)模的擴(kuò)大，PopQA 數(shù)據(jù)集上的整體表現(xiàn)有所提升。然而，圖 5 顯示，在 PopQA 和 EntityQuestions 上，模型規(guī)模的增加對于流行度較低的問題的性能改善相對較小。

關(guān)系類型結(jié)果分解：圖 6 更詳細(xì)地展示了流行度、準(zhǔn)確率和關(guān)系類型之間的關(guān)系，顯示了不同模型在導(dǎo)演和國家關(guān)系類型上的準(zhǔn)確性與流行度分布。對于前兩種類型，可以看到流行度與準(zhǔn)確性之間存在明顯的正趨勢，并且隨著模型規(guī)模的增大，LMs記憶的知識(shí)也更多。另一方面，在“國家”關(guān)系類型中，沒有模型顯示出趨勢，而整體準(zhǔn)確性較高，表明LMs經(jīng)常利用線索來回答不太流行的問題。

2、檢索增強(qiáng)：為大模型“補(bǔ)課”

前面分析表明，即使是當(dāng)前最先進(jìn)的 LMs 在處理不太受歡迎的主體或某些關(guān)系類型時(shí)也存在困難，并且增加模型規(guī)模并不會(huì)帶來進(jìn)一步的性能提升。因此下面探索研究了檢索增強(qiáng) LMs的有效性，這些模型利用非參數(shù)記憶（即檢索到的文本）來提高性能。

實(shí)驗(yàn)設(shè)置：采用了簡單直接的方式將檢索到的上下文與原始問題連接起來。從維基百科中獲取相關(guān)段落來作為附加的上下文信息，使用BM25和神經(jīng)密集檢索器作為檢索模型。BM25是一種基于統(tǒng)計(jì)信息檢索的算法，而神經(jīng)密集檢索器則利用深度學(xué)習(xí)技術(shù)來計(jì)算文檔與查詢之間的相似度。

結(jié)果

圖7顯示，檢索顯著提升了性能，一個(gè)較小的 LM（例如，GPT-Neo 2.7B）通過 Contriever 檢索增強(qiáng)后，表現(xiàn)優(yōu)于普通的 GPT-3。

對不流行實(shí)體的幫助

對于主體實(shí)體不太受歡迎的問題，非參數(shù)記憶顯著提升了所有測試模型的表現(xiàn)。例如，在PopQA數(shù)據(jù)集中最不受歡迎的4000個(gè)問題上，基于神經(jīng)密集檢索器增強(qiáng)的GPT-neo 2.7B模型甚至超過了強(qiáng)大的GPT-3 davinci-003模型。

對流行實(shí)體可能造成的誤導(dǎo)

然而，對于關(guān)于流行實(shí)體的問題，檢索增強(qiáng)可能會(huì)導(dǎo)致大型LMs表現(xiàn)下降。這是因?yàn)闄z索到的上下文有時(shí)會(huì)誤導(dǎo)這些已經(jīng)能夠很好地記住相關(guān)信息的模型。對于 10% 的問題，檢索增強(qiáng)導(dǎo)致 LM 錯(cuò)誤地回答了它本可以正確回答的問題。

3、Adaptive Retrieval：自適應(yīng)檢索

雖然引入非參數(shù)記憶有助于處理長尾分布，但強(qiáng)大的 LMs 已經(jīng)記憶了流行實(shí)體的事實(shí)知識(shí)，檢索增強(qiáng)可能會(huì)帶來負(fù)面影響。于是本文探索了一種兩全其美的方法，即自適應(yīng)檢索（Adaptive Retrieval），該方法僅根據(jù)輸入查詢信息決定何時(shí)檢索段落，并在必要時(shí)使用檢索到的非參數(shù)記憶增強(qiáng)輸入。

自適應(yīng)檢索基于這樣的發(fā)現(xiàn)：當(dāng)前最佳的LMs已經(jīng)記憶了更受歡迎的知識(shí)，因此只有在它們沒有記憶事實(shí)知識(shí)并且需要找到外部非參數(shù)知識(shí)時(shí)才使用檢索。

使用PopQA 數(shù)據(jù)集來選擇一個(gè)基于輸入查詢信息的流行度閾值，并且僅在低于該閾值的情況下才進(jìn)行檢索。對于更受歡迎的實(shí)體，則不使用檢索。閾值是獨(dú)立為每種關(guān)系類型確定的。

流行度閾值確定

采用暴力搜索（Brute Force Search）的方法來選擇閾值。具體步驟如下：

1. 定義自適應(yīng)準(zhǔn)確率：自適應(yīng)準(zhǔn)確率是指在給定的流行度閾值下，模型的綜合表現(xiàn)。具體來說：

對于流行度低于閾值的問題，模型使用檢索增強(qiáng)（非參數(shù)記憶）的結(jié)果。
對于流行度高于或等于閾值的問題，模型使用自身的參數(shù)記憶（即不進(jìn)行檢索）的結(jié)果。

2. 搜索最優(yōu)閾值：通過暴力搜索的方式，嘗試不同的流行度閾值，并計(jì)算每個(gè)閾值下的自適應(yīng)準(zhǔn)確率。最終選擇使自適應(yīng)準(zhǔn)確率達(dá)到最高的那個(gè)閾值。

性能提升結(jié)果

圖9顯示了基于每種關(guān)系類型的閾值自適應(yīng)檢索非參數(shù)記憶的結(jié)果?？梢钥闯?，對于較大的模型，自適應(yīng)檢索非參數(shù)記憶是有效的。在POPQA上的最佳性能是使用GPT-3 davinci-003自適應(yīng)地與GenRead和Contriever結(jié)合，準(zhǔn)確率達(dá)到了46.5%，比任何非自適應(yīng)方法高出5.3%。

閾值隨模型規(guī)模變化

盡管自適應(yīng)檢索對較大模型顯示出性能提升，但較小模型并沒有實(shí)現(xiàn)相同的性能提升。圖10顯示，較小的LMs幾乎總是需要檢索，表明對于小LMs，參數(shù)記憶并不比非參數(shù)記憶更可靠。相比之下，大型模型通常檢索得少得多。例如，GPT-3 davinci-003僅對40%的問題進(jìn)行檢索，而較小的GPT-NeoX 20B也不在超過20%的問題上檢索文檔。

推理成本降低

自適應(yīng)檢索還提高了效率；如果我們知道不需要檢索文檔，我們可以跳過檢索組件，并且輸入長度變得更短，這在檢索和語言模型組件中都提高了延遲。圖11顯示了GPT-J 6B和GPT-NeoX 20B的推理延遲，以及GPT-3的API成本。特別是對于較大的LMs，連接檢索上下文會(huì)導(dǎo)致顯著增加的延遲（例如，對于GPT-J 6B，推理時(shí)間延遲幾乎翻倍）。自適應(yīng)檢索能夠?qū)⑼评頃r(shí)間降低高達(dá)9%，從標(biāo)準(zhǔn)檢索中節(jié)省成本。圖12顯示了EntityQuestions的準(zhǔn)確率和成本節(jié)省。盡管EntityQuestions缺乏流行實(shí)體，但自適應(yīng)檢索能夠減少API成本15%，同時(shí)保持與僅檢索相當(dāng)?shù)男阅堋?/span>

4、總結(jié)

這篇論文深入探討了在什么情況下為大型語言模型（LLM）應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案，幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù)，讓語言模型在更多場景下發(fā)揮出更好的性能。

但是對于自適應(yīng)的方式，采用暴力搜索的方式選取自適應(yīng)閾值，尤其是在效率和可擴(kuò)展性方面存在明顯的局限性。這種基于暴力搜索的策略需要對大量可能的閾值進(jìn)行遍歷，計(jì)算成本較高，且難以適應(yīng)動(dòng)態(tài)變化的數(shù)據(jù)分布或大規(guī)模應(yīng)用場景。因此，探索更高效、更智能的閾值選擇方法值得研究。

責(zé)任編輯：龐桂玉來源：小白學(xué)AI算法

RAG 大語言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="8mieh"><p id="8mieh"></p></sub>