自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="kwpqe"></sub>^{<blockquote id="kwpqe"></blockquote>}

<samp id="kwpqe"></samp>

<p id="kwpqe"><li id="kwpqe"></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉浮？原創(chuàng) 精華

發(fā)布于 2024-10-16 10:45

瀏覽

0收藏

??【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】??

??http://www.scjtxx.cn/aigc/2223.html??

?

編者按：隨著大語言模型（LLMs）的上下文窗口不斷擴(kuò)大，您是否開始思考：我們還需要花費(fèi)大量時(shí)間和資源來構(gòu)建復(fù)雜的檢索增強(qiáng)生成（RAG）系統(tǒng)嗎？
本文深入探討了長上下文 LLMs 與 RAG 系統(tǒng)的優(yōu)劣勢(shì)，揭示了它們?cè)趯?shí)際應(yīng)用中的表現(xiàn)差異。通過對(duì)最新四篇學(xué)術(shù)研究的全面分析，作者闡明了長上下文 LLMs 在某些任務(wù)中的優(yōu)勢(shì)，同時(shí)也指出了 RAG 系統(tǒng)在某些專業(yè)領(lǐng)域任務(wù)和成本效益方面仍具有優(yōu)勢(shì)。
作者建議將 RAG 與長上下文 LLMs 結(jié)合使用，以發(fā)揮協(xié)同效應(yīng)，并呼吁建立更全面、更嚴(yán)格的評(píng)估體系，包括統(tǒng)一的評(píng)估數(shù)據(jù)集和評(píng)估指標(biāo)。未來，如何有效結(jié)合這兩種技術(shù)，應(yīng)當(dāng)是人工智能領(lǐng)域的一個(gè)重要研究方向。

作者 | Florian June

編譯 | 岳揚(yáng)

2023 年，大語言模型（LLMs）的上下文窗口通常在 4K 到 8K 左右。但到了 2024 年 7 月，上下文窗口超過 128K 的 LLMs 已經(jīng)變得很普遍了。

以 Claude 2[1] 為例，其上下文窗口可達(dá) 100K。Gemini 1.5[2] 則宣稱能夠處理 2M 的上下文信息，而 LongRoPE[3] 更是將 LLMs 的上下文窗口擴(kuò)展到了 200 萬個(gè) tokens 以上。Llama-3–8B-Instruct-Gradient-4194k[4] 的上下文窗口更是達(dá)到了 4194K 。在應(yīng)用大語言模型時(shí)，上下文窗口的大小似乎已經(jīng)不再是限制因素。

于是，有人提出了這樣的觀點(diǎn)：既然 LLMs 能夠一次性處理所有數(shù)據(jù)，那么還有必要建立檢索增強(qiáng)生成（RAG）[5]系統(tǒng)嗎？

因此，有一些研究人員宣稱“ RAG 已死”。但也有人認(rèn)為，即便有了長上下文窗口的 LLMs， RAG 系統(tǒng)也不會(huì)因此消亡，RAG 仍然可以煥發(fā)新的活力。

本文將重點(diǎn)討論這個(gè)有趣的話題：長上下文 LLMs 是否會(huì)導(dǎo)致檢索增強(qiáng)生成（RAG）系統(tǒng)[5]的淘汰？

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 1：RAG vs Long-Context LLMs. Image by author.

文章開頭，我們將從直觀的角度比較 RAG 與具備長上下文窗口的大語言模型（LLMs）。接著，我們將分析幾篇針對(duì)這一議題的最新學(xué)術(shù)論文。文章的最后，我將分享自己的一些思考和見解。

01 RAG 與長上下文 LLMs 的對(duì)比分析

圖 2 展示了 RAG 與具備長上下文窗口的 LLMs 在不同方面的直觀對(duì)比。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉浮？-AI.x社區(qū)

圖 2：RAG 與長上下文 LLMs 不同維度的對(duì)比分析。

02 學(xué)術(shù)界最新研究成果

以上內(nèi)容幫助我們建立一些直觀的認(rèn)識(shí)，并非對(duì)這些技術(shù)嚴(yán)謹(jǐn)?shù)谋容^。

長上下文 LLMs 的出現(xiàn)同樣引起了學(xué)術(shù)界的關(guān)注。以下是最新的四篇研究論文，我們將一探究竟。

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?[6]
RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension[7]
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach[8]
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities[9]

2.1 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

該論文[6]提出了 LOFT 基準(zhǔn)測(cè)試，這是一個(gè)模擬真實(shí)任務(wù)場(chǎng)景的測(cè)試環(huán)境，需要處理上百萬個(gè) tokens 的上下文，用以評(píng)估長上下文語言模型（LCLMs）在信息檢索和邏輯推理方面的能力。

LOFT 涵蓋了六個(gè)主要任務(wù)場(chǎng)景，如圖 3 上半部分所示，RAG 便是其中之一。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 3：An overview of the LOFT benchmark. Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]

圖 3 的左下角展示的是傳統(tǒng)的處理流程，其中包括多模態(tài)檢索工具或 RAG pipeline，需要多個(gè)專業(yè)系統(tǒng)的協(xié)同工作。

與此相對(duì)的是，圖 3 的右下角展示的是長上下文語言模型（LCLM）。 LCLM 能夠直接將包含文本、圖像和音頻等多種模態(tài)信息的整個(gè)語料庫作為模型輸入。通過采用 “Context in Corpus”（CiC）提示詞技術(shù)，模型能夠在統(tǒng)一的框架內(nèi)完成包括檢索、推理和答案生成在內(nèi)的多種任務(wù)。

評(píng)估結(jié)果表明，在 multi-hop datasets（譯者注：在閱讀理解等自然語言處理任務(wù)中，一個(gè)問題的答案可能需要從多個(gè)不同的段落或文檔中獲取信息。這種情況下，我們就說這個(gè)問題需要"多跳"（multi-hop）來回答。包含了這類問題的數(shù)據(jù)集就被稱作是 multi-hop datasets。）（如 HotpotQA 和 MusiQue）上，Gemini 1.5 Pro 在處理整個(gè)語料庫上下文時(shí)的表現(xiàn)優(yōu)于 RAG pipeline。這是因?yàn)?LCLM 能夠使用思維鏈 [10] 在上下文窗口內(nèi)跨多個(gè)段落進(jìn)行推理，而 RAG pipeline 通常不具備這種能力，除非它額外配備有規(guī)劃（planning）和推理（reasoning）模塊。

總體來看，在 LOFT 基準(zhǔn)測(cè)試中與 RAG 相關(guān)的任務(wù)中，Gemini 1.5 Pro（0.53）的表現(xiàn)略勝于 RAG pipeline（0.52）。而 GPT-4o（0.48）和 Claude 3 Opus（0.47）的表現(xiàn)則不如 RAG pipeline（0.52），這一結(jié)果在圖 4 中有詳細(xì)展示。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 4 ：在 LOFT 128k 上下文的基準(zhǔn)測(cè)試集上的主要實(shí)驗(yàn)結(jié)果。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?[6]

此外，圖 5 顯示，雖然 LCLM 在 128K 上下文窗口的性能與 RAG 表現(xiàn)相當(dāng)，但當(dāng)上下文擴(kuò)展到 1M 時(shí)，其性能相較于 RAG pipeline 有所下降。 這一趨勢(shì)與 LCLM 在文本檢索性能上的衰退是一致的。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 5：LCLM 與各垂直場(chǎng)景模型在語料庫大小從 32K 擴(kuò)充至 100 萬 tokens 時(shí)的性能對(duì)比。這些結(jié)果是在每個(gè)任務(wù)所包含的所有數(shù)據(jù)集上平均計(jì)算得出的。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]

2.2 RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

“RAG vs. Long Context”[7]研究評(píng)估了 RAG 和長上下文 LLMs 在那些需要專業(yè)領(lǐng)域知識(shí)的特定任務(wù)場(chǎng)景中的表現(xiàn)。

通過構(gòu)建 NEPAQuAD 1.0 基準(zhǔn)測(cè)試，本研究對(duì)三種先進(jìn)的 LLMs —— Claude Sonnet、Gemini 和 GPT-4 —— 在回答美國聯(lián)邦機(jī)構(gòu)（U.S. federal agencies）根據(jù)《National Environmental Policy Act》（NEPA）編寫的環(huán)境影響報(bào)告書（EIS）中相關(guān)問題的能力進(jìn)行了評(píng)估，具體請(qǐng)見圖 6。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 6：在比較中使用的不同環(huán)境影響報(bào)告書（EIS）上下文的示例，其中精選的 Gold passages 由領(lǐng)域?qū)＜姨暨x。Source: RAG vs. Long Context[7].

評(píng)估結(jié)果表明，不論選擇哪種前沿的 LLM，基于 RAG 的模型在答案準(zhǔn)確性方面都明顯優(yōu)于長上下文模型。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉浮？-AI.x社區(qū)

圖 7：在不同上下文配置下，LLMs 在 EIS 文檔上的答案正確性評(píng)估結(jié)果。其中，silver passages 是通過 RAG pipeline 篩選的，而 gold passages 則是由專家挑選的。Source: RAG vs. Long Context[7].

如圖 7 所示，當(dāng)向 LLMs 提供 RAG pipeline 篩選出的 silver passages 時(shí)，其表現(xiàn)顯著優(yōu)于不提供任何參考文獻(xiàn)或提供含有問題上下文的完整 PDF 文檔。其表現(xiàn)甚至接近于提供專家挑選的 gold passages。

圖 8 則展示了 LLMs 在不同類型問題上的性能表現(xiàn)。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 8：比較不同語言模型在四種不同上下文應(yīng)用場(chǎng)景下回答各類型問題的正確性得分。Source: RAG vs. Long Context[7].

總體而言，RAG 增強(qiáng)的 LLMs（silver passages）在答案準(zhǔn)確性上明顯優(yōu)于僅提供長上下文的模型。特別是在處理特定垂直領(lǐng)域的問題時(shí)，RAG 增強(qiáng)的 LLMs（silver passages）具有明顯優(yōu)勢(shì)，其表現(xiàn)優(yōu)于那些僅依靠零樣本知識(shí)（zero-shot knowledge）或完整 PDF 文檔作為上下文的模型。

另外，在回答封閉式問題時(shí)，帶有上下文（silver passages 和 gold passages）的 LLMs 表現(xiàn)最為出色；然而，在應(yīng)對(duì)發(fā)散性問題和解題型問題時(shí)，它們的表現(xiàn)則相對(duì)較差。

2.3 Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

本文[8]對(duì) RAG 與長上下文 LLMs 進(jìn)行了全面比較，目的是發(fā)現(xiàn)并利用兩者的長處。

研究方法包括使用三種最新的 LLMs，在多個(gè)公開數(shù)據(jù)集上對(duì) RAG 和長上下文 LLMs 進(jìn)行基準(zhǔn)測(cè)試。

研究發(fā)現(xiàn)，在資源充足的情況下，長上下文 LLMs 的平均性能始終優(yōu)于 RAG。不過，RAG 的成本明顯更低，這仍然是一個(gè)明顯的優(yōu)勢(shì)。

圖 9 展示了使用 GPT-4o，GPT-3.5-Turbo 和 Gemini-1.5-Pro 這三種最新 LLMs 的長上下文LLMs、RAG 以及本論文提出的 SELF-ROUTE 方法的比較結(jié)果。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉?。?AI.x社區(qū)

圖 9：盡管長上下文 LLMs（LC）在處理、理解長上下文方面勝過 RAG，但 RAG 在成本效益上具有明顯優(yōu)勢(shì)。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

SELF-ROUTE 是一種結(jié)合了 RAG 和長上下文 LLMs 的一種簡便而有效的方法，目的是在降低成本的同時(shí)，還能保持與長上下文 LLMs 相媲美的性能。該方法利用 LLMs 的自我反思能力來路由 queries ，并假定 LLMs 能夠準(zhǔn)確預(yù)測(cè)現(xiàn)有上下文是否足以回答 queries。

該方法分為兩個(gè)階段：首先是 RAG 及路由階段，然后是長上下文預(yù)測(cè)階段（long-context prediction step）。

在第一階段，我們向 LLMs 提供查詢和檢索到的文本塊，并引導(dǎo)它預(yù)測(cè)是否能夠回答 query 。如果可以，LLMs 就會(huì)生成答案。這一過程與標(biāo)準(zhǔn) RAG pipeline 類似，但有一個(gè)關(guān)鍵區(qū)別：LLMs 有權(quán)選擇不回答，并在提示詞中注明“如果基于現(xiàn)有文本無法回答 query，請(qǐng)寫‘無法回答’”。

對(duì)于那些判斷為可以回答的 query ，我們直接采用 RAG 的預(yù)測(cè)結(jié)果作為最終答案。對(duì)于那些判斷為不可以回答的 query ，我們則進(jìn)入第二階段，將完整的上下文提供給長上下文 LLMs 以獲得最終的預(yù)測(cè)結(jié)果。相關(guān)的提示詞內(nèi)容展示在圖 10 中。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉浮？-AI.x社區(qū)

圖 10：為每個(gè)數(shù)據(jù)集提供有相應(yīng)的提示詞。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

此外，該論文還進(jìn)行了幾項(xiàng)有趣的分析。

首先，本論文探討了在使用 top-k 方法檢索到的文本塊中 k 值如何影響檢索結(jié)果。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 11：隨著 k 的增加，模型性能和實(shí)際使用的 token 百分比的變化曲線（a）和（b）。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

圖 11 展示了隨著 k 的增加，模型性能和實(shí)際使用的 token 百分比的變化曲線（a）和（b）。

在性能方面，對(duì)于 RAG 和 SELF-ROUTE，k 值越大，性能越好。隨著 k 的增加，更多文本塊被輸入到 LLMs 中，性能逐漸提升，逐漸接近長上下文。

從變化曲線中可以看出，在 k 值較小時(shí)，SELF-ROUTE 的性能優(yōu)勢(shì)最為明顯，而當(dāng) k 超過 50 時(shí)，三種方法的性能表現(xiàn)趨于相同。

最優(yōu)的 k 值可能因數(shù)據(jù)集而異。例如，平均而言，k=5 在曲線上顯示的成本最低，但在某些數(shù)據(jù)集上，尤其是那些不需要 multi-hop 推理的提取式問題數(shù)據(jù)集（如 NarrativeQA 和 QMSum ），k=1 的成本最低。這表明，最優(yōu)的 k 值取決于任務(wù)的性質(zhì)和性能要求。

該論文還通過手動(dòng)檢查 RAG-and-Route 步驟預(yù)測(cè)為“無法回答（unanswerable）”的示例，分析了 RAG 系統(tǒng)失敗的原因。它總結(jié)了四種典型的失敗原因，如圖 12 從 A 到 E 所示。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 12：Prompt for the failure case analysis. Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

接下來，使用 Gemini-1.5-Pro 對(duì)提示詞進(jìn)行處理，以識(shí)別所有無法回答的示例。

圖 13 展示了 LongBench 中七個(gè)數(shù)據(jù)集中失敗原因的分布情況。每個(gè)數(shù)據(jù)集可能包含不同數(shù)量的 RAG 失敗案例，因此條形圖的高度也會(huì)有所不同。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 13：典型的 RAG 失敗原因分布。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

我們觀察到各技術(shù)在不同數(shù)據(jù)集下的性能表現(xiàn)：

基于維基百科的三個(gè) multi-hop 推理數(shù)據(jù)集（HotpotQA、2WikiMQA、MuSiQue）因?yàn)樗鼈冃枰M(jìn)行多步檢索，對(duì) RAG 而言具有挑戰(zhàn)性，如圖中藍(lán)色部分所示。
對(duì)于 NarrativeQA，其擁有包含大量對(duì)話的長故事，大多數(shù)失敗原因是由于需要理解整個(gè)上下文中的 implicit queries（譯者注：指的是那些沒有直接在文本中表達(dá)的 query，可能隱藏在上下文中，需要通過上下文理解、推理和推斷來確定。），如圖中綠色部分所示。
QMSum 是一個(gè)包含開放式問題的摘要數(shù)據(jù)集，主要失敗原因是通用的 queries，如圖中紅色部分所示。
被分類為“其他（other）”的示例大多是多步問題（multi-step questions），這些問題由于具有模糊性而難以回答。

2.4 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

本研究提出了一種名為 ChatQA 2 的新模型，該模型基于 Llama3，目的是縮小開源大語言模型與頂級(jí)閉源大語言模型（如GPT-4-Turbo）在長上下文理解和 RAG 能力方面的差距。

此外，該研究還使用最先進(jìn)的長上下文 LLM 對(duì) RAG 和長上下文解決方案進(jìn)行了全面比較。

如圖 14 所示，對(duì)于序列長度（sequence length）為 32K 的下游任務(wù)，長上下文解決方案在性能上優(yōu)于 RAG。雖然使用 RAG 可以節(jié)省成本，但可能會(huì)略微降低準(zhǔn)確率。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉浮？-AI.x社區(qū)

圖 14：在最大輸入為 32K tokens 的基準(zhǔn)測(cè)試上，對(duì) RAG 與長上下文進(jìn)行評(píng)估比較。Source: ChatQA 2[9]

如圖 15 所示，當(dāng)上下文長度超過 100K 時(shí)，RAG 的性能優(yōu)于長上下文解決方案。

#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？-AI.x社區(qū)

圖 15：在最大輸入超過 100K tokens 的任務(wù)上，對(duì) RAG 與長上下文進(jìn)行評(píng)估。Source: ChatQA 2[9]

這表明，即使是最先進(jìn)的長上下文 LLM ，也可能難以有效地理解和推理，在現(xiàn)實(shí)世界的 128K 任務(wù)中，其表現(xiàn)可能不及 RAG 方法。因此，在這種情況下，可以考慮使用 RAG 來提高準(zhǔn)確率和降低推理成本。

03 My Thoughts and Insights

以下是我的一些思考和見解。

3.1 長上下文 LLMs 不會(huì)使 RAG 過時(shí)

從研究論文中我們可以看到，長上下文 LLMs 在許多方面都超過了 RAG，但在需要專業(yè)知識(shí)的細(xì)分領(lǐng)域和成本方面，RAG 仍具有明顯優(yōu)勢(shì)。

RAG 可能會(huì)持續(xù)存在。超長 LLMs 上下文窗口很有幫助，但處理每個(gè)請(qǐng)求 200k 或 1M 個(gè) tokens 的成本非常高，可能高達(dá) 20 美元[11]。

目前，我能想到的唯一一種 RAG 可能會(huì)被長上下文 LLM 取代的情況是：如果企業(yè)的應(yīng)用場(chǎng)景相對(duì)簡單，而建立 RAG 系統(tǒng)的人力成本??和時(shí)間成本??很高，RAG 可能會(huì)被長上下文 LLM 所取代。

3.2 將 RAG 與長上下文 LLMs 相結(jié)合

RAG 和長上下文 LLM 可以相互補(bǔ)充。RAG 能夠從數(shù)百萬甚至數(shù)十億個(gè) tokens 中高效地檢索與任務(wù)相關(guān)的上下文，這是長上下文 LLM 所不能及的。同時(shí)，長上下文 LLM 擅長總結(jié)整個(gè)文檔，而 RAG 可能在這方面有所欠缺。

與其二選一，不如將 RAG 與長上下文 LLM 相結(jié)合，這樣可以高效地檢索和處理大規(guī)模信息，從而構(gòu)建一個(gè)強(qiáng)大的系統(tǒng)。

如果將 RAG 與長上下文 LLM 整合起來，它將深刻改變當(dāng)前的 RAG 范式。例如，在未來的應(yīng)用中，可能不再需要進(jìn)行分塊處理（chunking process），也不再需要在檢索過程中實(shí)現(xiàn)精確的塊級(jí)召回（chunk-level recall）。

3.3 期待更全面、更嚴(yán)格的評(píng)估

上述論文對(duì) RAG 和長上下文 LLM 進(jìn)行了多項(xiàng)評(píng)估，但它們所使用的數(shù)據(jù)集、評(píng)估方法和評(píng)估指標(biāo)各不相同。該領(lǐng)域缺乏統(tǒng)一的評(píng)估數(shù)據(jù)集和評(píng)估指標(biāo)。

此外，LLM 在推理過程中利用 KV 緩存[12]來檢索相關(guān) tokens ，這有助于降低推理成本。不過，KV 緩存和 RAG 之間的成本比較尚未見報(bào)道。

04 Conclusion

本文首先直觀地比較 RAG 與長上下文 LLM，然后根據(jù)最新論文研究、分析了它們的特點(diǎn)，最后分享了個(gè)人思考和見解。

總的來說，長上下文 LLM 在應(yīng)用中具有更大的靈活性，但期望它們解決所有問題是不切實(shí)際的。關(guān)鍵在于探索和實(shí)施將長上下文 LLM 和 RAG 解決方案的優(yōu)勢(shì)相結(jié)合的方法，以實(shí)現(xiàn)協(xié)同效應(yīng)（synergistic effect）。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

Florian June

AI researcher, focusing on LLMs, RAG, Agent, Document AI.

Newest articles: ??florianjune.substack.com??.

END

本期互動(dòng)內(nèi)容 ??

?您認(rèn)為哪些具體的應(yīng)用場(chǎng)景適合使用RAG技術(shù)，哪些場(chǎng)景可能長上下文LLMs更適合？

??文中鏈接??

[1]??https://www.anthropic.com/news/claude-2??

[2]??https://ai.google.dev/gemini-api/docs/long-context??

[3]??https://arxiv.org/pdf/2402.13753??

[4]??https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-4194k??

[5]??https://medium.com/ai-in-plain-english/a-brief-introduction-to-retrieval-augmented-generation-rag-b7eb70982891??

[6]??https://arxiv.org/pdf/2406.13121??

[7]??https://arxiv.org/pdf/2407.07321??

[8]??https://arxiv.org/pdf/2407.16833??

[9]??https://arxiv.org/pdf/2407.14482??

[10]??https://arxiv.org/pdf/2201.11903??

[11]??https://www.anthropic.com/news/claude-3-family??

[12]??https://medium.com/@florian_algo/main-stages-of-auto-regressive-decoding-for-llm-inference-915d6e0a4418??

原文鏈接：

??https://ai.gopubby.com/will-long-context-llms-cause-the-extinction-of-rag-de41ca5ddfc6??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2138瀏覽 ? 0回復(fù)
在長上下文LLM的時(shí)代，RAG是否仍然必要？

sbf_2000 ? 2266瀏覽 ? 0回復(fù)
【活動(dòng)結(jié)果公布】AIGC創(chuàng)新先鋒者征文大賽懸賞召集?

AI.x社區(qū)官方賬號(hào) ? 6206瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#企業(yè)級(jí)智能知識(shí)庫搜索問答技術(shù)與應(yīng)用

瀾舟科技 ? 2031瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#加速AI應(yīng)用落地，大模型與智能體何以成為“雙驕”

58AILab ? 2205瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？

九章云極 ? 2098瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#快手 B 端商業(yè)化技術(shù)探索：基于 LLM 構(gòu)建智能 RAG 與 Agent 平臺(tái)

快手技術(shù) ? 2473瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#去哪兒國際酒店AI生成視頻實(shí)踐

去哪兒旅行 ? 2011瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#百度內(nèi)容生態(tài)視頻AIGC新探索

姬冰燕 ? 2023瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 部署 LLMs 前如何計(jì)算與優(yōu)化 GPU 內(nèi)存需求？

Baihai_IDP ? 2107瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#PyTorch深度學(xué)習(xí)基礎(chǔ)環(huán)境搭建

MinionPy ? 1755瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 我與AIGC的緣分

萬里悲秋長做客 ? 1986瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#人工智能在醫(yī)療領(lǐng)域的全面應(yīng)用與未來展望

mb671227aaa63a2 ? 2243瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 50億美元虧損背后：解析生成式 AI 的商業(yè)模式之爭(zhēng)

Baihai_IDP ? 1997瀏覽 ? 0回復(fù)
智能決策進(jìn)化之路：從長上下文LLM到自主RAG系統(tǒng)

Halo咯咯 ? 2988瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#【文心智能體】探索AI的無限可能：帶你定制自己的優(yōu)質(zhì)智能體助手

I_am_Alex ? 1834瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 告訴你一個(gè)小秘密！樹莓派跑LLM難上手？為什么不試試Intel

wx6726b53ddec5c ? 2188瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# AIGC算法：自回歸神經(jīng)網(wǎng)絡(luò) (Autoregressive Networks)

魚弦CTO ? 1820瀏覽 ? 0回復(fù)
長上下文語言模型評(píng)估體系探析

Baihai_IDP ? 2371瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 7h前發(fā)布
面對(duì)開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： #AIGC創(chuàng)新先鋒者征文大賽# 部署 LLMs 前如何計(jì)算與優(yōu)化 GPU 內(nèi)存需求？

下一篇： #AIGC創(chuàng)新先鋒者征文大賽# 50億美元虧損背后：解析生成式 AI 的商業(yè)模式之爭(zhēng)

社區(qū)精華內(nèi)容

目錄

<strike id="gnv8o"></strike>

<big id="gnv8o"><code id="gnv8o"><option id="gnv8o"></option></code></big>