自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="exicj"></sub>

^{<blockquote id="exicj"></blockquote>}

<s id="exicj"></s>

<style id="exicj"></style>

<cite id="exicj"><track id="exicj"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Anthropic研究團(tuán)隊(duì)提出新技術(shù)，引入Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率原創(chuàng)

發(fā)布于 2024-11-14 10:13

瀏覽

0收藏

?在當(dāng)前的知識(shí)檢索領(lǐng)域，RAG技術(shù)正引領(lǐng)著最新潮流，它的目標(biāo)是為大型語言模型（LLM）提供豐富而精確的上下文信息。然而，傳統(tǒng)RAG方法在處理信息時(shí)經(jīng)常會(huì)忽略上下文細(xì)節(jié)，這限制了其從知識(shí)庫中提取相關(guān)信息的能力。解決如何有效保存上下文信息的問題，已成為該領(lǐng)域的重點(diǎn)。

針對(duì)這一挑戰(zhàn)，Anthropic的研究團(tuán)隊(duì)提出了一種名為“上下文檢索”的創(chuàng)新技術(shù)，使得在這一領(lǐng)域取得了重大突破。他們最近發(fā)表的研究詳細(xì)介紹了這一技術(shù)，展示了如何通過上下文嵌入和上下文敏感的BM25算法顯著降低檢索失敗率。讓我們深入探討這一方法的關(guān)鍵要素。

關(guān)于使用較長提示符的說明

有時(shí)候最簡單的解決方案就是最好的。如果你的知識(shí)庫小于200，000個(gè)token（大約500頁的材料），你可以在給出模型的提示中包含整個(gè)知識(shí)庫，而不需要RAG或類似的方法。

幾周前，Claude發(fā)布了快速緩存，這使得這種方法更快，更具成本效益。開發(fā)人員現(xiàn)在可以在API調(diào)用之間緩存頻繁使用的提示，將延遲減少2倍以上，成本降低高達(dá)90%（可以通過閱讀prompt caching cookbook了解它是如何工作的）。

但是，隨著知識(shí)庫的增長，您將需要一個(gè)更具可擴(kuò)展性的解決方案。這就是上下文檢索的用武之地。

擴(kuò)展到更大的知識(shí)庫

對(duì)于不適合上下文窗口的較大知識(shí)庫，RAG是典型的解決方案。RAG通過使用以下步驟預(yù)處理知識(shí)庫來工作：

將知識(shí)庫（文檔的“語料庫”）分解為更小的文本塊，通常不超過幾百個(gè)標(biāo)記;
使用嵌入模型將這些塊轉(zhuǎn)換為編碼含義的向量嵌入;
將這些嵌入存儲(chǔ)在矢量數(shù)據(jù)庫中，以便根據(jù)語義相似性進(jìn)行搜索。

在運(yùn)行時(shí)，當(dāng)用戶向模型輸入查詢時(shí)，向量數(shù)據(jù)庫用于基于與查詢的語義相似性來找到最相關(guān)的塊。然后，將最相關(guān)的塊添加到發(fā)送到生成模型的提示中。

雖然嵌入模型擅長捕捉語義關(guān)系，但它們可能會(huì)錯(cuò)過關(guān)鍵的精確匹配。幸運(yùn)的是，有一種更古老的技術(shù)可以幫助解決這些問題。BM 25是一個(gè)排名功能，它使用詞匯匹配來查找精確的單詞或短語匹配。它對(duì)于包含唯一標(biāo)識(shí)符或技術(shù)術(shù)語的查詢特別有效。BM 25基于TF-IDF概念，TF-IDF衡量一個(gè)單詞對(duì)集合中文檔的重要性。BM 25通過考慮文檔長度并將飽和函數(shù)應(yīng)用于詞頻來細(xì)化這一點(diǎn)，這有助于防止常見詞主導(dǎo)結(jié)果。

假設(shè)用戶在技術(shù)支持?jǐn)?shù)據(jù)庫中查詢“Error code TS-999”。嵌入模型通?？梢哉业接嘘P(guān)錯(cuò)誤代碼的內(nèi)容，但可能會(huì)錯(cuò)過精確的“TS-999”匹配。BM 25查找此特定文本字符串以識(shí)別相關(guān)文檔。

RAG解決方案可以通過使用以下步驟結(jié)合嵌入和BM 25技術(shù)來更準(zhǔn)確地檢索最適用的塊：

將知識(shí)庫（文檔的“語料庫”）分解為更小的文本塊，通常不超過幾百個(gè)標(biāo)記;
為這些塊創(chuàng)建TF-IDF編碼和語義嵌入;
使用BM 25來找到基于精確匹配的頂部塊;
基于語義相似度，使用嵌入來找到頂部塊;
使用融合技術(shù)對(duì)來自（3）和（4）的結(jié)果進(jìn)行聚合和去重;
將前K個(gè)塊添加到提示符中以生成響應(yīng)。

通過利用BM 25和嵌入模型，傳統(tǒng)的RAG系統(tǒng)可以提供更全面和準(zhǔn)確的結(jié)果，平衡精確的術(shù)語匹配和更廣泛的語義理解。

Anthropic研究團(tuán)隊(duì)提出新技術(shù)，引入Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率-AI.x社區(qū)

這種方法使您能夠經(jīng)濟(jì)高效地?cái)U(kuò)展到巨大的知識(shí)庫，遠(yuǎn)遠(yuǎn)超出了單個(gè)提示中所能容納的內(nèi)容。但是這些傳統(tǒng)的RAG系統(tǒng)有一個(gè)顯著的局限性：它們經(jīng)常破壞上下文。

傳統(tǒng)RAG中的語境難題

在傳統(tǒng)的RAG中，文檔通常被分成更小的塊以進(jìn)行有效的檢索。雖然這種方法對(duì)于許多應(yīng)用程序都很有效，但當(dāng)單個(gè)塊缺乏足夠的上下文時(shí)，它可能會(huì)導(dǎo)致問題。

例如，假設(shè)您的知識(shí)庫中嵌入了一系列財(cái)務(wù)信息，您收到了以下問題：“ACME Corp在2023年第二季度的收入增長是多少？"

一個(gè)相關(guān)的塊可能包含這樣的文本：“公司的收入比上一季度增長了3%?！叭欢@一大塊本身并沒有指定它所指的是哪家公司或相關(guān)的時(shí)間段，因此很難檢索正確的信息或有效地使用這些信息。

Contextual Retrieval

上下文檢索簡介

上下文檢索通過在嵌入之前將特定于塊的解釋性上下文前置到每個(gè)塊（Contextual Embeddings）并創(chuàng)建BM 25索引（Contextual BM25）來解決這個(gè)問題。

下面是一個(gè)如何轉(zhuǎn)換塊的示例：

原始分塊 = "公司的收入比上一季度增長了3%。"
上下文化分塊 = "這個(gè)分塊來自ACME公司在2023年第二季度的SEC文件；上一季度的收入為3.14億美元。公司的收入比上一季度增長了3%。"

值得注意的是，過去已經(jīng)提出了使用上下文來改進(jìn)檢索的其他方法。其他建議包括：將通用文檔摘要添加到塊，假設(shè)文檔嵌入和基于摘要的索引。這些方法的收益和性能都很低。

實(shí)現(xiàn)上下文檢索

手動(dòng)為知識(shí)庫中的成千上萬個(gè)分塊添加上下文顯然是不現(xiàn)實(shí)的。為此，研究團(tuán)隊(duì)使用了 Claude 模型，通過一個(gè)特定的提示生成每個(gè)分塊的簡潔上下文，生成的上下文通常為 50-100 個(gè) token，然后在嵌入和創(chuàng)建 BM25 索引之前將其添加到分塊中。對(duì)應(yīng)的prompt示例:

<document> 
{{WHOLE_DOCUMENT}} 
</document> 
Here is the chunk we want to situate within the whole document 
<chunk> 
{{CHUNK_CONTENT}} 
</chunk> 
Please give a short succinct context to situate this chunk within the overall document for the purposes of improving search retrieval of the chunk. Answer only with the succinct context and nothing else.

下面是預(yù)處理流程在實(shí)踐中的樣子：

Anthropic研究團(tuán)隊(duì)提出新技術(shù)，引入Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率-AI.x社區(qū)

使用Prompt Caching降低上下文檢索成本

上下文檢索得益于Prompt Caching功能，通過Claude可以以低成本獨(dú)特地實(shí)現(xiàn)。有了提示緩存，您不需要為每個(gè)塊傳入?yún)⒖嘉臋n。您只需將文檔加載到緩存中一次，然后引用之前緩存的內(nèi)容。假設(shè)800個(gè)令牌的塊，8k令牌的文檔，50令牌的上下文指令，以及每個(gè)塊的100令牌的上下文，生成上下文化塊的一次性成本是每百萬文檔令牌1.02美元。

注意事項(xiàng)

在實(shí)現(xiàn)上下文檢索時(shí)，需要記住幾個(gè)注意事項(xiàng)：

塊邊界：考慮如何將文檔拆分為塊。塊大小、塊邊界和塊重疊的選擇會(huì)影響檢索性能。
嵌入模型：雖然上下文檢索提高了我們測試的所有嵌入模型的性能，但某些模型可能比其他模型受益更多。Gemini和Voyage嵌入特別有效。
自定義prompt：雖然通用提示效果很好，但您可以使用針對(duì)特定領(lǐng)域或用例定制的提示（例如，包括可能僅在知識(shí)庫中的其他文檔中定義的關(guān)鍵術(shù)語的詞匯表）來實(shí)現(xiàn)更好的結(jié)果。
**塊的數(shù)量：**在上下文窗口中添加更多的塊可以增加包含相關(guān)信息的機(jī)會(huì)。然而，更多的信息可能會(huì)分散模型的注意力，所以這是有限制的。嘗試使用5、10和20塊，發(fā)現(xiàn)使用20塊是這些選項(xiàng)中性能最好的，但值得在您的用例中進(jìn)行試驗(yàn)。

通過Rerank進(jìn)一步提升性能

Anthropic研究團(tuán)隊(duì)提出新技術(shù)，引入Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率-AI.x社區(qū)

在傳統(tǒng) RAG 中，AI 系統(tǒng)會(huì)從知識(shí)庫中檢索到大量潛在相關(guān)的信息分塊。對(duì)于大型知識(shí)庫，這一初始檢索往往會(huì)返回大量分塊，有時(shí)多達(dá)數(shù)百個(gè)，且相關(guān)性和重要性各不相同。重排序是一種常用的過濾技術(shù)，確保只有最相關(guān)的分塊被傳遞給模型。實(shí)驗(yàn)結(jié)果顯示，重排序后的上下文嵌入和上下文 BM25 將前 20 個(gè)分塊的檢索失敗率減少了 67%（從 5.7%降至 1.9%）。

Anthropic研究團(tuán)隊(duì)提出新技術(shù)，引入Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率-AI.x社區(qū)

成本和延遲考慮

重排序的一個(gè)重要考慮因素是對(duì)延遲和成本的影響，特別是在對(duì)大量塊進(jìn)行重排序時(shí)。因?yàn)橹嘏判蛟谶\(yùn)行時(shí)增加了一個(gè)額外的步驟，所以它不可避免地增加了少量的延遲，即使重排序器并行地對(duì)所有塊進(jìn)行評(píng)分。在重新排序更多塊以獲得更好的性能與重新排序更少塊以降低延遲和成本之間存在固有的權(quán)衡。建議您在特定用例中嘗試不同的設(shè)置，以找到正確的平衡。

總結(jié)

研究團(tuán)隊(duì)通過大量的實(shí)驗(yàn)，為大家指出了一個(gè)新的提升 RAG 性能的方法，為開發(fā)者指出了實(shí)踐新方向。同時(shí)，研究團(tuán)隊(duì)基于大量實(shí)驗(yàn)的結(jié)果，給出了一些關(guān)鍵的經(jīng)驗(yàn)總結(jié)：

Embeddings+BM25 比單獨(dú)使用Embeddings效果更好
Voyage 和 Gemini 是測試中效果最好的嵌入模型
將前20個(gè)塊傳遞給模型比只傳遞前10個(gè)或前5個(gè)塊更有效
在語塊中加入上下文可以大大提高檢索的準(zhǔn)確率
采用重排序的方法比起不進(jìn)行重排序
將這些改進(jìn)策略綜合起來：為了最大限度地提高性能，我們可以將contextual embeddings（來自Voyage或Gemini）與contextual BM25結(jié)合起來，再加上重新排序步驟，并將20個(gè)塊添加到提示符中。

?

本文轉(zhuǎn)載自公眾號(hào)AI 博物院作者：longyunfeigu

原文鏈接：??https://mp.weixin.qq.com/s/qEZ-oyzFYDmWJJ0ycFLzDg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

快手「可靈」再進(jìn)化！視頻續(xù)寫可達(dá)3分鐘讓全球網(wǎng)友炸鍋

duhorse ? 3791瀏覽 ? 0回復(fù)
Advanced RAG 10：引入檢索評(píng)估、知識(shí)精練的 CRAG 技術(shù)詳解

Baihai_IDP ? 3136瀏覽 ? 0回復(fù)
動(dòng)手實(shí)現(xiàn)GraphRAG，檢索效果大幅提升

小虎哦哦 ? 3180瀏覽 ? 0回復(fù)
成本降低90%！Anthropic 推出新 Claude 提示緩存！開發(fā)人員將省去一大筆錢

51CTO技術(shù)棧 ? 2358瀏覽 ? 0回復(fù)
Anthropic提出Contextual Retrieval讓RAG再進(jìn)化，大幅降低檢索失敗率

Syrupup ? 3095瀏覽 ? 0回復(fù)
RAG開發(fā)新技術(shù)：利用語義相似度提升標(biāo)簽過濾質(zhì)量

51CTO內(nèi)容精選 ? 2356瀏覽 ? 0回復(fù)
從檢索增強(qiáng)——RAG看檢索技術(shù)的發(fā)展

AI探索時(shí)代 ? 1938瀏覽 ? 0回復(fù)
優(yōu)化文本嵌入，大幅提升RAG檢索速度

小虎哦哦 ? 3718瀏覽 ? 0回復(fù)
Auto-Retrieval: RAG的智能進(jìn)化

恰似驚鴻 ? 1843瀏覽 ? 0回復(fù)
Anthropic提出的Contextual RAG開源實(shí)現(xiàn)Open Contextual RAG來了

Syrupup ? 2235瀏覽 ? 0回復(fù)
先進(jìn)的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 2293瀏覽 ? 0回復(fù)
引入上下文檢索(Contextual Retrieval)：提升AI模型的精準(zhǔn)度與效率

Halo咯咯 ? 2123瀏覽 ? 0回復(fù)
RAG再進(jìn)化？基于長期記憶的檢索增強(qiáng)生成新范式-MemoRAG

大模型自然語言處理 ? 2156瀏覽 ? 0回復(fù)
讓你的RAG應(yīng)用更加智能！引入自我反思的大模型 RAG 框架(Self-RAG)

AI博物院 ? 2439瀏覽 ? 0回復(fù)
【深度探索】FlashAttention-3：深度學(xué)習(xí)注意力機(jī)制的再進(jìn)化

sword_hero ? 2276瀏覽 ? 0回復(fù)
Anthropic最新研究，Claude學(xué)會(huì)“演戲”了！

NLP前沿1 ? 1939瀏覽 ? 0回復(fù)
無需檢索！CAG 通過鍵值緩存讓 RAG 輕松上手

凝固的雨_1 ? 2683瀏覽 ? 0回復(fù)
基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 1020瀏覽 ? 0回復(fù)
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案

大語言模型論文跟蹤 ? 1849瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默 1天前發(fā)布
讓AI讀懂PPT圖表！RAG系統(tǒng)從60分到95分的進(jìn)化之路，LlamaParse+多模態(tài)實(shí)戰(zhàn)全解析 2天前發(fā)布

熱門推薦

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價(jià)格僅1/30！ 0回復(fù)

大模型部署框架Ollama和vLLM怎么選？一文講透兩大框架的優(yōu)缺點(diǎn)和適用場景 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

上一篇：更快、更強(qiáng)、更經(jīng)濟(jì)！超越GraphRAG的大模型RAG系統(tǒng)LightRAG開源啦！

下一篇： Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實(shí)現(xiàn)，效果提升顯著

社區(qū)精華內(nèi)容

目錄

<bdo id="egi1z"><rp id="egi1z"></rp></bdo>

<style id="egi1z"></style>

<blockquote id="egi1z"></blockquote>