自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="nxbke"><li id="nxbke"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？原創(chuàng)

發(fā)布于 2024-7-3 10:47

瀏覽

0收藏

編者按：大模型的上下文理解能力直接影響到 LLMs 在復雜任務和長對話中的表現(xiàn)。本期內容聚焦于兩種主流技術：長上下文(Large Context Windows)和檢索增強生成(RAG)。這兩種技術各有何優(yōu)勢？在實際應用中，我們又該如何權衡選擇？
文章不僅詳細闡述了這兩種技術的工作原理，還深入分析了它們在效率、準確性和實施成本等方面的差異。文章特別提到了在執(zhí)行重復性任務時使用 Context Caching 優(yōu)化長上下文的優(yōu)勢，然而，緩存策略的效果很大程度上取決于提示詞的可預測性。如果用戶輸入變化無常，緩存的效果可能會大打折扣。
本文可供各位讀者進行技術選型時參考，期待未來看到更多提升 LLMs 上下文理解能力的創(chuàng)新方案。

作者 | Priyanka Vergadia

編譯 | 岳揚

?

大語言模型（Large Language Models ，LLMs）技術正飛速發(fā)展，尤其是模型在生成文本時能夠處理的上下文信息量極速提升。盡管 LLMs 在文本的處理和生成等方面表現(xiàn)出色，但它們卻面臨一個固有的挑戰(zhàn)：難以捕捉信息背景全貌，尤其是在應對冗長對話或涉及多重細節(jié)的復雜任務時。為了解決這一問題，研究人員引入了長上下文（Large context windows）和檢索增強生成（Retrieval-Augmented Generation ，RAG）兩種技術。這兩種技術各有千秋，選擇哪種取決于具體的應用需求。下面，我們將探討為何提升模型的上下文理解能力如此重要。

上下文（Context）的重要性：

?

讓我們設想一下日常生活中的對話場景。要理解對方此刻的話語，我們需要回顧之前的對話內容。如若大語言模型（LLMs）缺乏必要的上下文理解能力，在這方面可能會“頭疼”。本文認為上下文非常重要，有如下幾點理由：

能夠保持對話的連貫性：在日常對話交談中，如果有人突然提到“那只狗??”，我們能立即明白他指的是之前討論過的那只狗??，而不是憑空出現(xiàn)的一只新狗。長上下文（Large context windows）或檢索增強生成（RAG）技術能夠幫助 LLMs 在交互過程中保持這種語義連貫性。

理解復雜信息及其復雜關系：某些任務需要理解信息之間錯綜復雜的關系。比如，要準確總結一篇學術論文，就需要理解研究方法與實驗結果之間的聯(lián)系。長上下文或 RAG 使 LLMs 能夠全面考慮所有相關內容，從而更深入地把握整體信息。

減少"幻覺"現(xiàn)象：LLMs 在缺乏足夠的上下文信息時，可能會自行編造數(shù)據(jù)或內容來填補認知空白，導致輸出錯誤荒謬或毫無意義的信息。這種現(xiàn)象在人工智能領域被稱為"幻覺（Hallucinations）"。長上下文或 RAG 技術通過提供更多的背景信息，能夠有效地將 LLMs 的生成內容錨定在現(xiàn)實基礎之上，使其生成內容更符合實際情況。

檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？-AI.x社區(qū)

01 長上下文（Large Context Windows）

長上下文讓大語言模型（LLMs）在生成響應前能處理更多的文本信息。這說明 LLMs 可以一次性掌握大量的數(shù)據(jù)和信息，從而更好地把握全局，生成的模型響應也更能貼合對話主題。這對于那些需要深度理解對話歷史或背景信息的任務尤其有用。不過，處理海量文本會帶來較高的計算成本，同時也會影響處理速度。

?

02 利用緩存優(yōu)化長上下文技術的好處

在處理長上下文帶來的計算負擔時，采用緩存策略是一種有效的成本優(yōu)化途徑。緩存機制會保存已處理過的上下文信息，以便在遇到類似提示詞時能迅速調用，這一舉措能夠大幅縮短模型響應時間，尤其在執(zhí)行重復性工作時效果顯著。

實例解析：設想一個專門用于總結學術論文的大語言模型。借助緩存功能，LLMs 能夠存儲之前分析過的論文段落（如引言、實驗方法等）。當接收到一篇新論文，且其結構與以往處理過的論文類似時，模型便能直接調用緩存中的相關上下文，僅需集中精力分析創(chuàng)新部分的內容（如實驗結果和結論）。

不過，啟用緩存也會給系統(tǒng)引入額外的復雜度。決策者必須權衡哪些信息值得緩存以及緩存期多長時間。此外，緩存是否有效直接取決于提示詞的可預測性（predictability） 。若用戶的提示詞內容變化無常，緩存的效果可能會大打折扣。

03 RAG：檢索增強生成技術

RAG 技術能夠顯著提升大語言模型（如 GPT-3 等）的準確度與可靠性。其核心在于將 LLMs 與外部知識庫（如維基百科或企業(yè)內部文檔）連接，使得模型在生成響應前，能夠先從這些知識庫中檢索并使用最相關的信息。相較于單純依賴緩存長上下文的方法，RAG 的優(yōu)勢如下：

效率提升：RAG 只檢索最相關的關鍵信息，因此速度更快，成本效益更高。
準確性增強：聚焦于最相關的信息有效降低了大模型出現(xiàn)幻覺的風險，確保了敘述的事實更為準確。

然而，RAG 技術的引入雖開辟了一條新路徑，卻也伴隨著較高的前期工作成本。RAG 系統(tǒng)的搭建與運維，需依托于一套復雜的檢索機制，該機制依賴向量搜索（vector search）及嵌入（embeddings）技術，以確保 LLM 能夠高效獲取最為契合的信息資源。

04 RAG 對比長上下文：權衡與選擇

長上下文（Large context windows）賦予 LLMs 直接處理海量歷史信息的能力，尤其適用于需要進行深度分析的復雜任務。然而，這種全面覆蓋的方式計算成本較高，執(zhí)行效率相對低下。RAG 則另辟蹊徑，利用檢索系統(tǒng)，從龐大的知識庫中精挑細選出最相關的信息片段供給 LLM 使用。此舉不僅能夠提速增效，還可以大幅節(jié)省成本，并有效降低出錯的風險。但需要注意的是，RAG 的高效運行需仰仗一套完善的數(shù)據(jù)檢索體系，且初期部署較為繁瑣。綜上所述，這個問題的最優(yōu)解應基于決策者對深度分析能力、系統(tǒng)運行效率的要求。

?

決策指南概覽：

帶緩存的長上下文：當面對需深度剖析的大數(shù)據(jù)集，并且提示詞具有一定的可預測性，利于緩存機制發(fā)揮效能時，此選項值得考慮。
RAG：如若信奉效率至上，追求事實的準確性，或使用場景的提示詞內容變化莫測，此時緩存機制的作用有限，則 RAG 可成為優(yōu)選方案。

總體而言，理想的技術策略應緊密結合項目特性和可利用的資源數(shù)量。進行決策時，務必綜合考慮使用成本、準確性、部署運維難度以及提示詞內容的可預測性。希望本文能夠幫助各位讀者準確理解 RAG 技術與長上下文技術間的本質區(qū)別，敬請關注本博客，不要錯過后續(xù)精彩內容哦~

Thanks for reading!

?

?

———

Priyanka Vergadia

??https://topmate.io/pvergadia??

Head of North America Developer Advocacy @Google | Author | Technical Storyteller | Cloud Computing & AI | bio.link/pvergadia

END

?

原文鏈接：

??https://www.thecloudgirl.dev/blog/rag-vs-large-context-window??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

Context Caching

贊

收藏

回復

舉報

回復

相關推薦

萬文長文搞定檢索增強生成(RAG)技術——13篇熱門RAG文章解讀

angel ? 1.1w瀏覽 ? 0回復
大模型應用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 4355瀏覽 ? 0回復
NeedleBench 超長文本評測基準：大語言模型能否在 1000K 長度上檢索推理？

戀戀青鳥 ? 2545瀏覽 ? 0回復
RAG新范式MemLong：用于長文本生成的記憶增強檢索

PaperAgent ? 2557瀏覽 ? 0回復
MemLong：用于長文本建模的記憶增強檢索

sbf_2000 ? 2304瀏覽 ? 0回復
如何選擇適合企業(yè)需求的大語言模型

51CTO內容精選 ? 2393瀏覽 ? 0回復
P-RAG: 漸進式檢索增強生成方法在具身日常任務規(guī)劃中的應用

芝士AI吃魚 ? 3380瀏覽 ? 0回復
優(yōu)化文本嵌入，大幅提升RAG檢索速度

小虎哦哦 ? 3723瀏覽 ? 0回復
大模型面經(jīng)——以醫(yī)療領域為例，整理RAG基礎與實際應用中的痛點

shizhi02 ? 2628瀏覽 ? 0回復
關于大模型在企業(yè)級應用中的選擇問題疑問回復

AI探索時代 ? 1705瀏覽 ? 0回復
再談大模型檢索增強生成——RAG

AI探索時代 ? 1845瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 2328瀏覽 ? 0回復
RAG檢索增強生成和大模型微調的抉擇

AI探索時代 ? 1979瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 2602瀏覽 ? 0回復
Kimi的長文本能力：為何優(yōu)于其他大模型

風云2002_1 ? 2070瀏覽 ? 0回復
18種RAG技術大比拼：誰才是檢索增強生成的最佳選擇？

Halo咯咯 ? 1484瀏覽 ? 0回復
RAG只能應用于文本檢索嗎？關于大模型應用之RAG——檢索增強的思考

AI探索時代 ? 1063瀏覽 ? 0回復
RAG系統(tǒng)中的“幕后英雄”：重排器如何提升信息檢索的精準度？

Halo咯咯 ? 810瀏覽 ? 0回復
NVIDIA發(fā)布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？

Halo咯咯 ? 203瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應該如何選擇？ 7h前發(fā)布
面對開源大模型浪潮，基礎模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： Advanced RAG 09：『提示詞壓縮』技術綜述

下一篇： Llama-2 vs. Llama-3：利用微型基準測試（井字游戲）評估大模型

社區(qū)精華內容

目錄