自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="vumwd"><strike id="vumwd"></strike></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

為什么 RAG 一定需要 Rerank？原創(chuàng)

發(fā)布于 2025-3-20 19:11

瀏覽

0收藏

今天想和大家深入探討一下檢索增強生成（RAG）中的一個重要環(huán)節(jié)——重排序（Rerank）。

RAG 技術(shù)一直以來都備受關(guān)注，尤其是當(dāng)它與大模型（LLM）結(jié)合后，人們都滿懷期待地認為：這下終于可以輕松解決那些復(fù)雜的問答任務(wù)了！然而，現(xiàn)實往往并不如人意。很多開發(fā)者在完成一個 RAG 流程后，都會感到困惑：為什么它的效果并沒有達到預(yù)期呢？

為什么 RAG 一定需要 Rerank？-AI.x社區(qū)

其實，和大多數(shù)工具一樣，RAG 的使用雖然簡單，但想要真正精通卻并非易事。事實上，RAG 并不僅僅是將文檔存儲到向量數(shù)據(jù)庫中，然后在其上簡單地添加一個 LLM。雖然這種方式在某些情況下可能會奏效，但并不總是有效。

因此，今天我們就來聊聊當(dāng)現(xiàn)有的 RAG 流程無法達到理想效果時，我們該怎么辦。如果你經(jīng)常遇到 RAG 表現(xiàn)欠佳的情況，這里有一個最容易且最快實施的解決方案——重排序（Rerank）。

1、召回率與上下文窗口

在深入探討解決方案之前，我們先來剖析一下傳統(tǒng) RAG（檢索增強生成）流程中存在的問題。在 RAG 的應(yīng)用中，我們常常需要對海量的文本文檔進行語義搜索，這些文檔的數(shù)量可能從幾萬篇到幾百億篇不等。

為了在大規(guī)模搜索中保證足夠的速度，我們通常會采用向量搜索技術(shù)。具體來說，就是將文本轉(zhuǎn)換為向量形式，將它們放置在同一個向量空間中，然后利用余弦相似度等相似性度量方法，來比較這些向量與查詢向量之間的接近程度。

向量搜索的關(guān)鍵在于向量本身。這些向量本質(zhì)上是將文本背后的“含義”壓縮成一個低維向量（通常是 768 維或 1024 維）。然而，這種壓縮過程不可避免地會導(dǎo)致部分信息的丟失。

由于信息丟失，我們常常會遇到這樣的情況：向量搜索返回的前幾篇文檔中，可能遺漏了重要的相關(guān)信息。而這些相關(guān)信息，可能出現(xiàn)在我們設(shè)置的 top_k 閾值之外。

那么，如果這些位置靠后的相關(guān)信息能夠幫助我們的 LLM（大型語言模型）生成更好的回答，我們該怎么辦呢？最直接的方法就是增加返回的文檔數(shù)量（提高 top_k 值），并將這些文檔全部傳遞給 LLM。

這里涉及到的衡量指標是**召回率**，它表示的是“我們檢索到了多少相關(guān)文檔”。召回率并不考慮檢索到的文檔總數(shù)，因此我們可以通過返回所有文檔來“操縱”這個指標，從而得到完美的召回率。

然而，我們并不能返回所有文檔。LLM 對于能夠接收的文本量是有限制的，這個限制被稱為**上下文窗口**。例如，Anthropic 的 Claude 這樣的 LLM，其上下文窗口可以達到 100K 個 Token，這意味著我們可以放入幾十頁的文本。

那么，我們是否可以通過返回大量文檔（盡管不能是全部），并“填滿”上下文窗口來提高召回率呢？

答案是否定的。我們不能使用上下文填充的方法，因為這會降低 LLM 的**召回性能**。這里所說的 LLM 的召回率，與我們之前討論的檢索召回率是不同的概念。

為什么 RAG 一定需要 Rerank？-AI.x社區(qū)

研究表明，隨著我們在上下文窗口中放入更多的標記，LLM 的召回率會逐漸降低。當(dāng)我們填滿上下文窗口時，LLM 也不太可能遵循指令，因此上下文填充并不是一個好的解決方案。

這就引出了一個問題：我們可以通過增加向量數(shù)據(jù)庫返回的文檔數(shù)量來提高檢索召回率，但如果把這些文檔全部傳遞給 LLM，就會損害 LLM 的召回率。那么，我們該怎么辦呢？

解決這個問題的方法是，通過檢索大量文檔來最大化檢索召回率，然后通過**最小化**傳遞給 LLM 的文檔數(shù)量來最大化 LLM 的召回率。要做到這一點，我們需要對檢索到的文檔進行重新排序，只保留對 LLM 最相關(guān)的文檔。而實現(xiàn)這一操作的關(guān)鍵，就是**重排序（Rerank）**。

2、Rerank 的強大之處

重排序模型，也被稱為交叉編碼器，是一種特殊的模型。它接收一個查詢和文檔對作為輸入，并輸出一個表示相似度的分數(shù)。我們利用這個分數(shù)，根據(jù)文檔與查詢的相關(guān)性對文檔進行重新排序。

為什么 RAG 一定需要 Rerank？-AI.x社區(qū)

在現(xiàn)代檢索系統(tǒng)中，通常采用兩階段檢索的策略。在第一階段，通常會使用一個雙編碼器或稀疏嵌入模型來從大規(guī)模數(shù)據(jù)集中快速檢索出一組相關(guān)文檔。這些模型能夠在海量數(shù)據(jù)中高效地篩選出初步的候選文檔集合。

然后，在第二階段，重排序模型（Rerank）登場。它的任務(wù)是對第一階段檢索到的文檔進行更細致的重新排序。Rerank 模型通過更復(fù)雜的計算，對文檔的相關(guān)性進行更精準的評估，從而提升最終返回結(jié)果的質(zhì)量。

搜索工程師們在兩階段檢索系統(tǒng)中使用 Rerank 已經(jīng)有很長時間了。這種策略的核心在于，從大數(shù)據(jù)集中檢索出一小部分文檔的速度，遠遠快于對大量文檔進行重新排序的速度。簡單來說，Rerank 的運行速度相對較慢，而檢索器的運行速度非常快。

為什么采用兩階段檢索？

采用兩階段檢索的原因主要有以下幾點：

第一、效率與精度的平衡

第一階段（檢索階段）：使用雙編碼器或稀疏嵌入模型，能夠在大規(guī)模數(shù)據(jù)集中快速檢索出一組相關(guān)文檔。這些模型的設(shè)計目標是高效地篩選出初步的候選文檔集合，雖然它們的精度可能有限，但速度非?？臁?/p>

第二階段（重排序階段）：Rerank 模型對第一階段檢索到的文檔進行重新排序。雖然 Rerank 的運行速度較慢，但它能夠更精準地評估文檔的相關(guān)性，從而提升最終返回結(jié)果的質(zhì)量。

第二、資源優(yōu)化

如果直接對大規(guī)模數(shù)據(jù)集進行重新排序，計算成本會非常高昂，且效率低下。通過兩階段檢索，第一階段快速篩選出一小部分文檔，第二階段再對這些文檔進行精細排序，這樣可以顯著降低計算資源的消耗。

第三、靈活性與擴展性

兩階段檢索系統(tǒng)允許在不同階段使用不同的模型和技術(shù)。例如，第一階段可以使用高效的向量檢索模型，第二階段可以使用更復(fù)雜的交叉編碼器模型。這種分階段的策略使得系統(tǒng)更加靈活，可以根據(jù)具體需求進行優(yōu)化和擴展。

重排序模型的作用

重排序模型（Rerank）在兩階段檢索系統(tǒng)中扮演著至關(guān)重要的角色。它通過對第一階段檢索到的文檔進行重新排序，確保最終返回的文檔不僅數(shù)量適中，而且相關(guān)性更高。具體來說，Rerank 的作用包括：

提升相關(guān)性：通過更復(fù)雜的計算，Rerank 能夠更精準地評估文檔與查詢的相關(guān)性，從而提升最終返回結(jié)果的質(zhì)量。

優(yōu)化上下文窗口：由于 LLM 的上下文窗口有限，Rerank 可以幫助我們在有限的上下文窗口中選擇最相關(guān)的文檔，從而最大化 LLM 的性能。

減少噪聲：Rerank 可以去除那些雖然在第一階段被檢索到，但實際相關(guān)性較低的文檔，從而減少噪聲，提高系統(tǒng)的整體性能。

3、為什么要用 Rerank？

如果 Rerank 的速度這么慢，那為什么我們還要使用它呢？答案很簡單：Rerank 比嵌入模型要準確得多。

第一、雙編碼器的局限性

雙編碼器模型的準確性較低，主要有兩個原因：

信息壓縮導(dǎo)致的丟失

雙編碼器需要將一個文檔的所有可能含義壓縮成一個單一的向量。這種壓縮過程不可避免地會導(dǎo)致信息丟失。因為向量的維度是固定的，而文檔的含義可能是多維度的。

例如，一個文檔可能包含多種主題和細節(jié)，但雙編碼器只能將其壓縮成一個固定維度的向量，這就導(dǎo)致了部分信息的丟失。

缺乏查詢上下文

雙編碼器在處理文檔時，沒有查詢的上下文信息。因為在用戶查詢之前，我們已經(jīng)創(chuàng)建了文檔的嵌入向量。這意味著雙編碼器無法根據(jù)具體的查詢來調(diào)整文檔的表示。

例如，同一個文檔在不同的查詢下可能有不同的相關(guān)性，但雙編碼器無法動態(tài)地調(diào)整文檔的向量以適應(yīng)不同的查詢。

第二、Rerank 的優(yōu)勢

相比之下，Rerank 模型具有顯著的優(yōu)勢：

直接處理原始信息

Rerank 模型可以直接處理原始的文檔和查詢信息，而不是依賴于壓縮后的向量。這意味著信息丟失更少，能夠更準確地評估文檔與查詢的相關(guān)性。

例如，Rerank 模型可以分析文檔中的具體句子和段落，而不是僅僅依賴于一個固定的向量表示。

動態(tài)分析文檔含義

因為 Rerank 是在用戶查詢時運行的，所以可以根據(jù)具體的查詢來分析文檔的特定含義，而不是試圖生成一個通用的、平均的含義。

例如，對于一個包含多種主題的文檔，Rerank 可以根據(jù)用戶的查詢，動態(tài)地提取與查詢最相關(guān)的部分，從而提高相關(guān)性評估的準確性。

第三、Rerank 的代價

盡管 Rerank 模型在準確性上有顯著優(yōu)勢，但它也有一個明顯的代價——時間。

為什么 RAG 一定需要 Rerank？-AI.x社區(qū)

雙編碼器模型

雙編碼器模型將文檔或查詢的含義壓縮成一個單一向量。在用戶查詢時，雙編碼器以與處理文檔相同的方式處理查詢。

例如，假設(shè)你有 4000 萬條記錄，使用編碼器模型和向量搜索，同樣的操作可以在不到 100 毫秒內(nèi)完成。

Rerank 模型

Rerank 模型需要直接處理原始文檔和查詢，計算復(fù)雜度更高，因此速度較慢。

例如，使用像 BERT 這樣的小型重排序模型，在 V100 GPU 上，為了返回一個查詢結(jié)果，可能需要等待 50 多個小時。

4、總結(jié)

盡管 Rerank 模型的運行速度較慢，但其在準確性上的優(yōu)勢使其在許多場景中不可或缺。通過兩階段檢索系統(tǒng)，我們可以在第一階段快速篩選出候選文檔，然后在第二階段通過 Rerank 模型進行精細排序，從而在保證效率的同時，顯著提升檢索結(jié)果的質(zhì)量。這種策略在處理復(fù)雜的問答任務(wù)和生成任務(wù)時尤為重要，因為它能夠確保最終返回的文檔不僅數(shù)量適中，而且相關(guān)性更高。

本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者：玄姐

原文鏈接：??https://mp.weixin.qq.com/s/gVV8nu9V16qKjGK9jREEjA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

已于2025-3-21 12:01:05修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

從AIGC到AGI，為什么我們需要更多的“技術(shù)信仰派”？

51CTO技術(shù)棧 ? 3519瀏覽 ? 0回復(fù)
大模型一定就比小模型好？谷歌的這項研究說不一定

輕薄滴假象 ? 2572瀏覽 ? 0回復(fù)
什么是AI網(wǎng)關(guān)？你還需要一個嗎？

51CTO技術(shù)棧 ? 3349瀏覽 ? 2回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時代 ? 6097瀏覽 ? 0回復(fù)
不一定！

Syrupup ? 3224瀏覽 ? 0回復(fù)
什么是提示詞工程(prompt engineering)？為什么需要提示詞工程？

AI探索時代 ? 5945瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4448瀏覽 ? 0回復(fù)
從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

AI探索時代 ? 2771瀏覽 ? 0回復(fù)
為什么將RAG擴展到生產(chǎn)環(huán)境如此困難？

丟翅膀的魚 ? 1933瀏覽 ? 0回復(fù)
Top-k Accuracy：模型優(yōu)化策略不一定徒勞無功

魚蟲子 ? 2249瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時代 ? 3749瀏覽 ? 0回復(fù)
為什么分塊在RAG技術(shù)中很重要？但又很沒有存在感？

AI探索時代 ? 1735瀏覽 ? 0回復(fù)
為什么多模態(tài)AI是下一個風(fēng)口？深度解讀新一代LLM

芝士AI吃魚 ? 4248瀏覽 ? 0回復(fù)
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 1819瀏覽 ? 0回復(fù)
你為什么要用GraphGAG？

熵減AI ? 1541瀏覽 ? 0回復(fù)
為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 1604瀏覽 ? 0回復(fù)
為什么 RAG 系統(tǒng)"一看就會，一做就廢"？

玄姐聊AGI ? 2071瀏覽 ? 0回復(fù)
RAG進階技術(shù)！這十種方法你一定要知道

Halo咯咯 ? 1208瀏覽 ? 0回復(fù)
推理大模型并非一定要推理

NLP前沿1 ? 524瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從 Local MCP Server 到 Remote MCP Server 架構(gòu)設(shè)計演進 16h前發(fā)布
Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 16h前發(fā)布

熱門推薦

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Java 開發(fā)必看！MCP Server 實戰(zhàn)全攻略，原來這么簡單 0回復(fù)

暴論：2025年，程序員必學(xué)技能就是 MCP 0回復(fù)

11張圖全面總結(jié) MCP、A2A、Function Calling 架構(gòu)設(shè)計間關(guān)系 0回復(fù)

MCP 架構(gòu)設(shè)計演進：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計實現(xiàn) 0回復(fù)

上一篇：爆火 | API 終將淘汰，MCP+LLM+向量數(shù)據(jù)庫才是 Agent 開發(fā)新范式

下一篇：為什么 RAG 系統(tǒng)"一看就會，一做就廢"？

社區(qū)精華內(nèi)容

目錄

<style id="79kf4"></style>