自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="wbbag"></strike>

<sub id="wbbag"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

o1推理擴展的風吹到了RAG，性能飆升58.9%！

發(fā)布于 2024-10-10 15:28

瀏覽

0收藏

以往的研究主要集中在通過增加檢索文檔的數量或長度來擴展檢索增強生成（RAG）中檢索到的知識。然而，僅增加知識量而不提供進一步的指導存在一定的局限性。

為此，Google DeepMind研究了RAG在推理計算擴展（Inference Scaling）情況下的性能，特別是當上下文很長時。通過應用最優(yōu)配置，在長上下文LLMs上擴展推理計算可以實現高達58.9%的性能提升。

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

用于RAG的推理擴展策略

為了衡量推理計算，定義了有效上下文長度，即在LLM生成最終答案之前所有迭代中的輸入token總數。對于大多數只調用LLM一次的方法，有效上下文長度等同于提示中的輸入token數量，并受到LLM的上下文窗口限制。對于迭代調用LLM的方法，有效上下文長度可以通過策略無限擴展。

目標是理解RAG性能如何隨著推理計算的擴展而變化。為此，引入了兩種擴展策略：示范基礎RAG（DRAG）和迭代示范基礎RAG（IterDRAG）。

DRAG與IterDRAG的對比。IterDRAG將輸入查詢分解為子查詢并回答它們，以提高最終答案的準確性。在測試時，IterDRAG通過多個推理步驟來擴展計算，分解復雜查詢并檢索文檔。

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

示范基礎RAG（DRAG）：DRAG利用上下文學習，通過直接從擴展的輸入上下文中生成答案來利用LLMs的長上下文能力。DRAG在輸入提示中整合了文檔和上下文示例，使得模型能夠在單次推理請求中生成對輸入查詢的答案。
迭代示范基礎RAG（IterDRAG）：為了處理復雜的多跳查詢，IterDRAG通過將查詢分解為更簡單的子查詢來處理。對于每個子查詢，執(zhí)行檢索以收集額外的上下文信息，然后用于生成中間答案。在所有子查詢解決后，檢索到的上下文、子查詢及其答案被組合以合成最終答案。

RAG性能和推理計算擴摸

接下來重點研究揭示RAG性能與推理計算規(guī)模之間的關系，并嘗試預測在不同計算約束下達到最佳性能的推理參數配置。

固定預算下的最佳性能：

對于固定的有效上下文長度預算，通過枚舉不同的推理參數配置（如檢索文檔的數量、上下文示例的數量、生成迭代的次數）來找到最優(yōu)平均指標。

最優(yōu)配置的具體示例：

在某個特定的最大有效上下文長度限制下，選擇一個特定的文檔數量，比如100篇文檔。Lmax
確定在輸入提示中使用多少個上下文示例，例如20個示例。
對于IterDRAG，可能決定在最終生成答案之前進行最多5次的迭代。

RAG性能隨文檔數量和上下文示例的變化而變化。（a）報告了跨數據集的平均指標值，而在（b）和（c）中，每條線代表在逐漸增加文檔/示例的一致配置下的標準化性能。?

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

整體性能：

通過擴展最大有效上下文長度，DRAG和IterDRAG的性能一致地提升，表明增加計算預算對RAG性能是有益的。

特別地，IterDRAG在更長的有效上下文長度下（例如超過128k tokens）展現了比DRAG更有效的擴展。

不同方法在不同最大有效上下文長度 LmaxLmax（即所有迭代中的輸入token總數）下的最佳性能。ZS QA和MS QA分別指one shot QA和many shot QA。對于不隨 LmaxLmax 增加而進一步擴展的方法。將每個 LmaxLmax 的最佳結果加粗顯示。

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

RAG的推理擴展法則：

通過分析不同有效上下文長度下的性能變化，提出了RAG性能隨著推理計算規(guī)模的增加而近乎線性提升的觀察結果，這被稱為RAG的推理擴展法則。

線性關系：
IterDRAG的擴展性：
性能增益遞減：

跨數據集的標準化性能與有效上下文長度的對比。每條線代表一個固定的配置，通過改變文檔數量來進行縮放。紅點表示最優(yōu)配置，虛線顯示擬合結果。觀察到的最優(yōu)性能可以通過與有效上下文長度的線性關系來近似。?

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

MuSiQue上標準化性能與有效上下文長度的對比。每條線代表一個固定的配置，通過調整文檔數量來進行縮放。紅點和虛線代表最優(yōu)配置及其擬合結果。標準RAG在104104個token時早早達到平穩(wěn)狀態(tài)，相比之下，DRAG和IterDRAG隨著有效上下文長度的增長顯示出近乎線性的提升。

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

使用不同方法評估Gemini 1.5 Flash的準確率：零-shot QA、多-shot QA、RAG（帶有最佳數量的文檔）、DRAG和IterDRAG在基準QA數據集上的表現。通過擴展推理計算（最多5M個token），DRAG持續(xù)優(yōu)于基線，而IterDRAG通過交錯檢索和迭代生成改進了DRAG。

o1推理擴展的風吹到了RAG，性能飆升58.9%！-AI.x社區(qū)

https://arxiv.org/pdf/2410.04343
Inference Scaling for Long-Context Retrieval Augmented Generation
Google DeepMind

本文轉載自??PaperAgent??

標簽

贊

收藏

回復

舉報

回復

相關推薦

剛剛，OpenAI發(fā)布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2280瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3341瀏覽 ? 0回復
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 3255瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 2148瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 2287瀏覽 ? 0回復
o1快慢思考的風又吹到了Agent！

PaperAgent ? 2651瀏覽 ? 0回復
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 1816瀏覽 ? 0回復
o1蒙特卡洛樹的風又吹到了Agentic工作流！

PaperAgent ? 2611瀏覽 ? 0回復
o1的風又吹到多模態(tài)，直接吹翻了GPT-4o-mini

PaperAgent ? 2072瀏覽 ? 0回復
解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 2731瀏覽 ? 0回復
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 2466瀏覽 ? 0回復
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 1752瀏覽 ? 0回復
阿里發(fā)布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費

51CTO技術棧 ? 2469瀏覽 ? 0回復
大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3459瀏覽 ? 0回復
Kimi深夜炸場：滿血版多模態(tài)o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產o1絕對不是巧合！

51CTO技術棧 ? 1674瀏覽 ? 0回復
最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 1448瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 4693瀏覽 ? 0回復
o1模型醫(yī)學推理驚人，超過人類醫(yī)生

Aceryt ? 1522瀏覽 ? 0回復
DeepSeek-R1的風吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務性能飆升20%

PaperAgent ? 1607瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

OpenAI大佬：AI上半場忙著開發(fā)新訓練方法和模型GPT-4/o1/o3，下半場呢？ 9天前發(fā)布
CPU推理僅29ms，微軟開源第一個原生 1 bit 大模型，內存只需Qwen 1.5B的1/15 9天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：一種將RAG、KG、VS、TF結合增強領域LLM性能的框架

下一篇：忘記Tool檢索，擁抱全新Agent ToolGen！

社區(qū)精華內容

目錄

<pre id="xxn69"></pre>