自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="jba6m"><strike id="jba6m"></strike></pre>

<sup id="jba6m"><rt id="jba6m"></rt></sup>

<cite id="jba6m"><track id="jba6m"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能

大語(yǔ)言模型論文跟蹤

發(fā)布于 2025-2-6 15:28

瀏覽

0收藏

WebWalker: Benchmarking LLMs in Web Traversal

檢索增強(qiáng)生成（RAG）在開(kāi)放域問(wèn)答任務(wù)中表現(xiàn)出色。然而，傳統(tǒng)搜索引擎可能會(huì)檢索淺層內(nèi)容，限制了大型語(yǔ)言模型（LLM）處理復(fù)雜、多層次信息的能力。為了解決這個(gè)問(wèn)題，我們引入了WebWalkerQA，一個(gè)旨在評(píng)估LLM執(zhí)行網(wǎng)頁(yè)遍歷能力的基準(zhǔn)。它評(píng)估LLM系統(tǒng)性地遍歷網(wǎng)站子頁(yè)面以獲取對(duì)應(yīng)信息的能力。同時(shí)我們提出了WebWalker，一個(gè)通過(guò)explorer-critic范式模擬人類網(wǎng)頁(yè)導(dǎo)航的multi-agent框架。廣泛的實(shí)驗(yàn)結(jié)果表明，證明了結(jié)合WebWalker的RAG在實(shí)際場(chǎng)景中通過(guò)橫向搜索和縱向頁(yè)面挖掘集成的有效性。

??https://arxiv.org/pdf/2501.07572??

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

1. 為什么要提出 WebWalkerQA

大型語(yǔ)言模型（LLM）通常處于知識(shí)固定狀態(tài)（無(wú)法實(shí)時(shí)更新）。盡管使用檢索增強(qiáng)生成（RAG）可以獲取最新信息，但傳統(tǒng)搜索引擎（如谷歌、百度等）的橫向搜索方式限制了對(duì)信息的深層挖掘能力，無(wú)法像人類一樣通過(guò)逐步點(diǎn)擊等操作獲取更多細(xì)節(jié)，從而更“聰明”地獲取所需信息。因此，作者提出了一個(gè)新任務(wù)——Web Traversal，旨在給定與查詢相關(guān)的初始網(wǎng)站，系統(tǒng)地遍歷網(wǎng)頁(yè)以揭露隱藏在其中的信息。

2. 什么是WebWalkerQA和WebWalker

?[Dataset] WebWalkerQA：根據(jù)網(wǎng)站的URL樹(shù)，通過(guò)四個(gè)階段，構(gòu)建單源/多源的easy、medium、hard難度的QA對(duì)，涵蓋四種常見(jiàn)官網(wǎng)來(lái)源及中英兩種語(yǔ)言。

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

?[Method] WebWalker：采用多智能體框架，由一個(gè)探測(cè)智能體（explorer agent）和一個(gè)裁判智能體（critic agent）組成。

? 探測(cè)智能體基于ReAct，遵循思考-行動(dòng)-觀察范式，模擬人在網(wǎng)頁(yè)中點(diǎn)擊按鈕跳轉(zhuǎn)頁(yè)面的過(guò)程；

? 裁判智能體則負(fù)責(zé)存儲(chǔ)搜索過(guò)程中的信息，在探測(cè)代理點(diǎn)擊的過(guò)程中，保存對(duì)查詢有幫助的信息，并判斷何時(shí)能夠停止探測(cè)代理的探索。

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

3. 效果評(píng)估

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

? 上表展示了不同模型作為backbone，WebWalkerQA使用不同方法的智能體性能結(jié)果。可以發(fā)現(xiàn)即使是最好的模型gpt-4o在這個(gè)任務(wù)也表現(xiàn)較差，任務(wù)中可能涉及到多跳推理和對(duì)文本的推理的能力。

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

? 上表顯示了在close book和目前較好的開(kāi)源及商用RAG系統(tǒng)上的性能。在close book 設(shè)置下正確率只有10%，因?yàn)閃ebwalkerQA具有高時(shí)效性，而LLM具有知識(shí)的cutoff，這與第一個(gè)limitation呼應(yīng)。在源及商用RAG系統(tǒng)上，最好的效果也只有40，驗(yàn)證了第二個(gè)limitation，傳統(tǒng)搜索引擎可能會(huì)檢索淺層內(nèi)容，即使很多閉源的RAG系統(tǒng)使用了query改寫(xiě)或者agentic的操作，但是還是沒(méi)有一步到位定位到的需要的web information source。

? 還包括一系列分析實(shí)驗(yàn)，如下：

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū) 圖片

值得注意的是，webwalker中的memory對(duì)于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當(dāng)作對(duì)query進(jìn)行橫向搜索，webwalker是對(duì)頁(yè)面的縱向深度探索，這是完全可以互補(bǔ)的。

因此可以把webwalker中的memory拼接到rag鏈路上，這種橫向和縱向整合表現(xiàn)出色，在所有類別和難度的數(shù)據(jù)集上效果均有提升，證明了垂直探索頁(yè)面對(duì)于提升RAG性能的潛力。這是對(duì)RAG二維探索的首次嘗試！

此外，對(duì) webwalker 的挖掘點(diǎn)擊次數(shù)進(jìn)行scale up，看是否能得到更好的、更多的memory信息，隨著挖掘點(diǎn)擊次數(shù)的增大，不僅在webwalker上有較大提升，把memory加入到rag系統(tǒng)之后，性能也隨之提升。這給rag系統(tǒng)進(jìn)行test-time的拓展提供了新的角度。

?? WebWalker的設(shè)計(jì)讓人聯(lián)想到pair programming（對(duì)編程），即兩人協(xié)作，一個(gè)寫(xiě)代碼，一個(gè)檢查bug。探測(cè)代理和裁判代理的功能其實(shí)類似于這種協(xié)作。

?? 文章最后提出了三項(xiàng)發(fā)現(xiàn)，首次提出了RAG二維探索的scaling潛力，探討如何更“聰明”地進(jìn)行橫向和垂直兩個(gè)方向的探索（test-time compute）。

作者介紹：本文主要作者來(lái)自通義實(shí)驗(yàn)室和東南大學(xué)。通訊作者是通義實(shí)驗(yàn)室蔣勇和東南大學(xué)周德宇。第一作者吳家隆，主要研究方向是Agent和Efficient NLP，該工作在阿里巴巴通義實(shí)驗(yàn)室RAG團(tuán)隊(duì)科研實(shí)習(xí)完成，

Github：https://github.com/Alibaba-nlp/WebWalker

Homepage: https://alibaba-nlp.github.io/WebWalker/

Demo: https://www.modelscope.cn/studios/iic/WebWalker/

Demo: https://huggingface.co/spaces/callanwu/WebWalker

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??，作者：WebWalker團(tuán)隊(duì) ????

WebWalker：通過(guò)Multi Agent提升RAG在開(kāi)放域QA的性能-AI.x社區(qū)

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

簡(jiǎn)單卻有效的Agent推理框架：通過(guò)預(yù)測(cè)未來(lái)大幅提升智能體的規(guī)劃能力

zhangyannni ? 3895瀏覽 ? 0回復(fù)
再次提升RAG性能：兩種高效的Rerank模型實(shí)踐指南

AIGC觀察者 ? 1.9w瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4757瀏覽 ? 0回復(fù)
提升RAG系統(tǒng)性能10條策略建議

AIGC觀察者 ? 2520瀏覽 ? 0回復(fù)
RAPTOR 檢索樹(shù)再次進(jìn)一步提升RAG性能的設(shè)計(jì)思路

AIGC觀察者 ? 3619瀏覽 ? 0回復(fù)
Multi-Stage Language Model Programs：提升語(yǔ)言模型程序的新策略

AIGC最前線 ? 1862瀏覽 ? 0回復(fù)
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語(yǔ)言模型論文跟蹤 ? 2259瀏覽 ? 0回復(fù)
Class-RAG：通過(guò)RAG 提高內(nèi)容審核性能

大語(yǔ)言模型論文跟蹤 ? 2088瀏覽 ? 0回復(fù)
RAG：如何通過(guò)實(shí)時(shí)數(shù)據(jù)提升AI準(zhǔn)確性并減少“幻覺(jué)”

Halo咯咯 ? 7467瀏覽 ? 0回復(fù)
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 3625瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 5201瀏覽 ? 0回復(fù)
提升RAG性能：分塊后，Chunk Enrichment的2個(gè)關(guān)鍵優(yōu)化步驟不可錯(cuò)過(guò)

凝固的雨_1 ? 2139瀏覽 ? 0回復(fù)
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 1836瀏覽 ? 0回復(fù)
PathRAG：通過(guò)圖剪枝的方法優(yōu)化Graph-based RAG的性能方法淺析

大模型自然語(yǔ)言處理 ? 1680瀏覽 ? 0回復(fù)
大模型通過(guò)Deep ReSearch駕馭Multi-Agent原理深度剖析

九歌AI大模型 ? 2561瀏覽 ? 0回復(fù)
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 3855瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺(jué)RAG性能10%

大語(yǔ)言模型論文跟蹤 ? 1577瀏覽 ? 0回復(fù)
人工智能小白到高手：RAG通過(guò)重排（Reranking）提升信息檢索的質(zhì)量

AI取經(jīng)路 ? 934瀏覽 ? 0回復(fù)
多智能體（Multi Agent）AI系統(tǒng)：企業(yè)智能化轉(zhuǎn)型的未來(lái)

Halo咯咯 ? 1135瀏覽 ? 0回復(fù)

大語(yǔ)言模型論文跟蹤

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺(jué)元素定位模型 8天前發(fā)布
Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門(mén)推薦

Hybrid-RRF：動(dòng)態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇： OmniThink：如何讓 LLM 寫(xiě)出有更有深度的文章

下一篇： Salesforce 新方法讓RAG效果飆升

社區(qū)精華內(nèi)容

目錄

<sup id="1txqm"><rt id="1txqm"></rt></sup>