自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

理解 RAG 第五部分：管理上下文長度

2025-04-28 09:02:14

RAG 系統(tǒng)有多種策略，可以在將初始用戶查詢傳遞給 LLM 之前，盡可能多地整合檢索到的相關知識，同時又不超出模型的輸入限制。以下概述了其中四種策略，從最簡單到最復雜。

傳統(tǒng)的大型語言模型 (LLM)存在上下文長度限制，這限制了單次用戶與模型交互中處理的信息量，這是其主要局限性之一。解決這一限制一直是 LLM 開發(fā)社區(qū)的主要工作方向之一，提高了人們對增加上下文長度在生成更連貫、更準確響應方面優(yōu)勢的認識。例如，2020 年發(fā)布的 GPT-3 上下文長度為 2048 個 token，而其更年輕但功能更強大的兄弟 GPT-4 Turbo（誕生于 2023 年）允許在單個提示中處理高達 128K 個 token。毋庸置疑，這相當于能夠在一次交互中處理整本書，例如，對其進行總結。

另一方面，檢索增強生成 (RAG)會整合來自檢索文檔（通常是向量數(shù)據(jù)庫）的外部知識，以增強 LLM 輸出的上下文和相關性。然而，在 RAG 系統(tǒng)中管理上下文長度仍然是一個挑戰(zhàn)，因為在某些需要大量上下文信息的場景中，需要對檢索到的信息進行有效的選擇和匯總，以使其保持在 LLM 的輸入限制以下，同時又不丟失必要的知識。

RAG 中的長上下文管理策略

RAG 系統(tǒng)有多種策略，可以在將初始用戶查詢傳遞給 LLM 之前，盡可能多地整合檢索到的相關知識，同時又不超出模型的輸入限制。以下概述了其中四種策略，從最簡單到最復雜。

1. 文檔分塊

文檔分塊通常是最簡單的策略，它專注于將向量數(shù)據(jù)庫中的文檔拆分成更小的塊。雖然乍一看可能不太明顯，但該策略有助于通過多種方式克服 RAG 系統(tǒng)內(nèi) LLM 的上下文長度限制，例如，在保持塊內(nèi)上下文完整性的同時，降低檢索冗余信息的風險。

2.選擇性檢索

選擇性檢索是指對大量相關文檔應用過濾過程，僅檢索最相關的部分，從而縮小傳遞給 LLM 的輸入序列的大小。通過智能地過濾檢索到的文檔中需要保留的部分，其目標是避免包含不相關或無關的信息。

3. 有針對性的檢索

雖然與選擇性檢索類似，但定向檢索的本質(zhì)是帶著非常具體的意圖或最終響應來檢索數(shù)據(jù)。這是通過針對特定類型的查詢或數(shù)據(jù)源優(yōu)化檢索器機制來實現(xiàn)的，例如，構建專門用于醫(yī)學文本、新聞文章、最新科學突破等的檢索器。簡而言之，它構成了一種進化且更專業(yè)的選擇性檢索形式，并在循環(huán)中加入了特定領域的標準。

4. 上下文摘要

上下文摘要是 RAG 系統(tǒng)中一種更復雜的上下文長度管理方法，我們在構建最終上下文的過程中應用文本摘要技術。一種可行的方法是使用一個額外的語言模型（通常規(guī)模較小，且經(jīng)過摘要任務訓練），用于對檢索到的大量文檔進行摘要。摘要任務可以是提取式的，也可以是抽象式的。提取式識別并提取相關的文本段落，抽象式從頭生成摘要，對原始文本塊進行重新表述和精簡。此外，一些 RAG 解決方案使用啟發(fā)式方法來評估文本片段（例如文本塊）的相關性，并丟棄相關性較低的文本塊。

戰(zhàn)略	概括
文檔分塊	將文檔分成更小、更連貫的塊，以保留上下文，同時減少冗余并保持在 LLM 限制內(nèi)。
選擇性檢索	過濾大量相關文檔以僅檢索最相關的部分，從而最大限度地減少無關信息。
目標檢索	使用專門的檢索器優(yōu)化針對特定查詢意圖的檢索，添加特定領域的標準來優(yōu)化結果。
上下文摘要	使用提取或抽象摘要技術來濃縮大量檢索到的內(nèi)容，確保將必要的信息傳遞給 LLM。

長上下文語言模型

那么長上下文LLM怎么樣？這樣就夠了，不需要RAG了？

這是一個需要解決的重要問題。長上下文LLM（LC-LLM）是“超大型”LLM，能夠接受非常長的輸入標記序列。盡管研究證據(jù)表明LC-LLM的性能通常優(yōu)于RAG系統(tǒng)，但后者仍然具有獨特的優(yōu)勢，尤其是在需要動態(tài)實時信息檢索和成本效益的場景中。在這些應用中，值得考慮使用封裝在采用上述策略的RAG系統(tǒng)中的小型LLM，而不是LC-LLM。它們都不是萬能的解決方案，它們都能在各自適用的特定環(huán)境中具有優(yōu)勢。

小結

本文介紹并闡述了在 RAG 系統(tǒng)中管理上下文長度的四種策略，以及在此類系統(tǒng)中的 LLM 在單用戶交互中可接受的輸入長度可能存在限制的情況下處理長上下文的策略。雖然使用所謂的長上下文 LLM 近年來已成為克服此問題的趨勢，但在某些情況下，堅持使用 RAG 系統(tǒng)可能仍然是值得的，尤其是在需要實時更新上下文的動態(tài)信息檢索場景中。

責任編輯：龐桂玉來源：數(shù)據(jù)驅(qū)動智能

RAG AI 人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="9w6wv"></style>

<legend id="9w6wv"><track id="9w6wv"></track></legend>

<pre id="9w6wv"><tbody id="9w6wv"></tbody></pre>