自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG(七)Chain-of-Note:筆記鏈讓檢索增強(qiáng)型語言模型更強(qiáng)大!

人工智能
Chain-of-Note 技術(shù)通過構(gòu)建詳細(xì)的閱讀筆記數(shù)據(jù)集,模擬人類的思考總結(jié)過程,增強(qiáng)了模型的推理能力。它在提高模型對噪聲數(shù)據(jù)的容忍度、增強(qiáng)未知穩(wěn)健性以及保持推理效率等方面表現(xiàn)出色,為檢索增強(qiáng)型語言模型的發(fā)展提供了新的思路和方法。

現(xiàn)有的檢索增強(qiáng)型語言模型(Retrieval-Augmented Language Models, RALMs)在處理外部知識時(shí)存在一定的局限性。這些模型有時(shí)會(huì)因?yàn)闄z索到不相關(guān)或不可靠的信息而產(chǎn)生誤導(dǎo)性的回答,或者在面對檢索信息和模型內(nèi)在知識的干擾時(shí),無法正確選擇使用哪一種知識。此外,在檢索信息不足或完全不存在的情況下,標(biāo)準(zhǔn)的RALMs可能會(huì)嘗試生成一個(gè)答案,即使它們并不具備足夠的信息來準(zhǔn)確作答。因此,來自Tecent AI Lab的一篇工作,提出CHAIN-OF-NOTE(CON),旨在通過生成一系列閱讀筆記來增強(qiáng)RALMs的魯棒性。

1、方法介紹

CHAIN-OF-NOTE的核心思想是通過創(chuàng)建順序閱讀筆記來對每個(gè)檢索文檔進(jìn)行評估。這種方法不僅評估了每個(gè)文檔與查詢的相關(guān)性,還確定了這些文檔中最關(guān)鍵和可靠的信息。這個(gè)過程有助于過濾掉不相關(guān)或可信度較低的內(nèi)容,從而導(dǎo)致更準(zhǔn)確和上下文相關(guān)的響應(yīng)。

給定一個(gè)輸入問題x和k個(gè)檢索到的文檔圖片,模型的目標(biāo)是生成包含多個(gè)段落的文本輸出圖片。其中,圖片表示第i個(gè)段落的標(biāo)記,代表相應(yīng)文檔圖片的閱讀筆記,如圖2所示。在生成各個(gè)閱讀筆記后,模型綜合這些信息以生成最終的響應(yīng)y。Chain-of-Note (CoN)的實(shí)現(xiàn)包括三個(gè)關(guān)鍵步驟:(1) 設(shè)計(jì)筆記圖片,(2) 收集數(shù)據(jù),(3) 訓(xùn)練模型。

圖片

筆記設(shè)計(jì)

CON 主要構(gòu)建三種類型的閱讀筆記,基于檢索文檔與輸入問題的相關(guān)性:

  • 直接回答型筆記:當(dāng)一個(gè)文檔直接回答了查詢時(shí),模型基于此相關(guān)信息制定最終響應(yīng)。(圖2a)
  • 間接推斷型筆記:如果檢索文檔沒有直接回答查詢但提供了有用的上下文,模型利用這些信息及其內(nèi)在知識推斷答案。(圖2b)
  • 未知型筆記:在檢索文檔無關(guān)且模型缺乏足夠知識的情況下,默認(rèn)回復(fù)“未知”。(圖2c)

這種細(xì)致的方法模擬了人類信息處理的方式,在直接檢索、推理以及承認(rèn)知識空白之間取得平衡。

數(shù)據(jù)收集

為了使模型能夠生成這樣的閱讀筆記,需要收集適當(dāng)?shù)挠?xùn)練數(shù)據(jù)。由于手動(dòng)注釋資源密集,研究團(tuán)隊(duì)使用 GPT-4 來生成筆記數(shù)據(jù)。具體步驟如下:

  • 問題選?。菏紫葟?NQ 數(shù)據(jù)集隨機(jī)抽取 10000 個(gè)問題。
  • 筆記生成:然后用特定指令和情境例子提示 GPT-4 生成不同類型的筆記,確保覆蓋所有三種類型。


圖片

  • 質(zhì)量評估:對小部分生成的數(shù)據(jù)進(jìn)行人工評估以保證質(zhì)量。

模型訓(xùn)練

使用這些數(shù)據(jù)訓(xùn)練LLaMa2 7B模型,將指令、問題和文檔連接起來作為提示,模型學(xué)習(xí)順序生成每個(gè)文檔的閱讀筆記,以評估它們與輸入查詢的相關(guān)性,并基于文檔的相關(guān)性生成回答。

另外,為了減少CON推理成本,使用了一種稱為混合訓(xùn)練的策略,將50%的訓(xùn)練時(shí)間分配給標(biāo)準(zhǔn)RALM(直接生成答案,不使用筆記),另外50%分配給使用CON的RALM。這種策略允許模型在訓(xùn)練期間內(nèi)化中間推理步驟。

在推理階段僅使用標(biāo)準(zhǔn) RALM 提示來指導(dǎo)模型輸出答案,而不依賴顯式的閱讀筆記。這使得模型可以在保持相同推理速度的同時(shí),只略微降低性能。

2、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集

為了全面評估 Chain-of-Note 的性能,除NQ外,還在三個(gè)額外的開放域數(shù)據(jù)集上測試了其性能,包括TriviaQA、WebQ和RealTimeQA,展示了其對域外(OOD)數(shù)據(jù)的泛化能力。

  • NQ (Natural Questions):一個(gè)大型的問答數(shù)據(jù)集,包含來自搜索引擎的真實(shí)用戶查詢。
  • TriviaQA:一個(gè)涵蓋多個(gè)領(lǐng)域的事實(shí)性問題數(shù)據(jù)集。
  • WebQ:一個(gè)基于網(wǎng)絡(luò)的問題回答數(shù)據(jù)集,主要涉及簡單的事實(shí)性問題。
  • Real-TimeQA:作為特殊情況用于評估“未知”穩(wěn)健性,該數(shù)據(jù)集包括了2023年5月之后收集的問題,這些問題超出了 LLaMa-2 的預(yù)訓(xùn)練知識范圍。

為了全面評估模型性能,實(shí)驗(yàn)分為兩個(gè)部分:

  • 全集評估:使用測試集中的所有問題來評估整體 QA 性能。文檔通過 DPR(Dense Passage Retrieval)檢索,并將 top-k 文檔輸入生成器。
  • 子集評估:為了評估模型的噪聲穩(wěn)健性和未知穩(wěn)健性,從上述測試集中提取包含相關(guān)文檔的子集。根據(jù)噪音比率 r 確定相關(guān)和無關(guān)文檔的數(shù)量。例如,當(dāng)噪音比率是 20% 且需要 top-5 文檔時(shí),則 4 個(gè)為相關(guān)文檔,1 個(gè)為無關(guān)文檔。

圖片

整體 QA 性能評估

表2展示了不同模型在 NQ、TriviaQA 和 WebQ 上的整體表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,裝備CON的RALM在所有三個(gè)數(shù)據(jù)集上的平均EM分?jǐn)?shù)提高了1.97%。

當(dāng)DPR檢索到相關(guān)文檔時(shí),平均改進(jìn)為+1.2,當(dāng)DPR未檢索到相關(guān)文檔時(shí),NQ數(shù)據(jù)集的平均改進(jìn)為+2.3。這一差異表明,CoN在檢索階段獲取更多噪聲文檔的情況下提高了RALM的性能。

圖片

噪聲穩(wěn)健性評估

實(shí)驗(yàn)結(jié)果顯示,CON 方法在引入噪聲文檔后仍能保持較好的性能。在不同噪聲比例下,CON始終優(yōu)于標(biāo)準(zhǔn)RALM,尤其是在完全噪聲文檔的情況下。表明 CON 可以有效過濾無關(guān)信息,提高模型對噪聲數(shù)據(jù)的容忍度。

圖片

未知穩(wěn)健性評估

針對 Real-TimeQA 數(shù)據(jù)集的評估表明,CON 方法在面對超出預(yù)訓(xùn)練知識范圍的問題時(shí)具有更好的“未知”穩(wěn)健性。具體表現(xiàn)為更高的拒絕率(RR),這意味著模型更傾向于承認(rèn)自己的知識局限,而不是嘗試猜測答案。這一特性對于實(shí)際應(yīng)用尤為重要,因?yàn)樗鼫p少了誤導(dǎo)性響應(yīng)的風(fēng)險(xiǎn)。

圖片

混合訓(xùn)練策略的效果

最后,混合訓(xùn)練策略的效果也得到了驗(yàn)證。實(shí)驗(yàn)表明,經(jīng)過混合訓(xùn)練的模型能夠在保持與純 CON 方法相似性能的同時(shí),實(shí)現(xiàn)與標(biāo)準(zhǔn) RALM 相同的推理時(shí)間。這意味著混合訓(xùn)練不僅有效地降低了推理成本,還保留了 CON 在處理復(fù)雜查詢方面的優(yōu)勢。

圖片

3、總結(jié)

Chain-of-Note 技術(shù)通過構(gòu)建詳細(xì)的閱讀筆記數(shù)據(jù)集,模擬人類的思考總結(jié)過程,增強(qiáng)了模型的推理能力。它在提高模型對噪聲數(shù)據(jù)的容忍度、增強(qiáng)未知穩(wěn)健性以及保持推理效率等方面表現(xiàn)出色,為檢索增強(qiáng)型語言模型的發(fā)展提供了新的思路和方法。然而,需要注意的是,微調(diào)可能會(huì)改變模型的參數(shù)分布,對于模型的通用能力的影響還有待進(jìn)一步評估。

未來的研究可以關(guān)注如何更好地平衡模型的推理能力和通用能力,以及如何進(jìn)一步優(yōu)化 Chain-of-Note 技術(shù),使其在更多領(lǐng)域和應(yīng)用場景中發(fā)揮更大的作用。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2020-09-30 10:56:13

Facebook 開發(fā)開源

2025-04-29 09:15:49

AI數(shù)據(jù)模型

2023-11-21 08:00:20

AI模型

2025-03-10 08:00:00

RAG檢索Reranker

2025-04-29 08:20:51

2020-08-23 08:59:35

number修飾鍵代碼

2023-10-14 17:46:17

RAG提示工程GPT-3

2025-03-28 08:00:00

RAG文本檢索大模型

2009-02-19 10:18:32

FCoE增強(qiáng)型以太網(wǎng)以太網(wǎng)光纖

2024-03-06 13:11:50

云計(jì)算

2025-04-01 09:25:09

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2024-11-19 13:05:40

2024-09-10 08:26:40

2012-12-06 10:34:36

戴爾

2024-07-31 14:07:00

RAGSQL技術(shù)

2025-04-29 08:09:39

2015-07-30 11:13:24

LinuxShell

2025-03-04 09:10:00

RAG大模型AI

2023-10-31 16:37:55

大型語言模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號