讓大模型互聯(lián)網(wǎng)「沖浪」,通義實驗室WebWalker解鎖復(fù)雜信息檢索新技能
本文主要作者來自通義實驗室和東南大學(xué),通訊作者是通義實驗室蔣勇和東南大學(xué)周德宇。其中第一作者吳家隆,東南大學(xué)碩士二年級,主要研究方向是 Agent 和 Efficient NLP,該工作在阿里巴巴通義實驗室 RAG 團隊科研實習(xí)完成。
在信息爆炸的時代,互聯(lián)網(wǎng)就像一座龐大的迷宮,藏著無數(shù)寶藏。但傳統(tǒng)搜索引擎往往只能觸及表面,對于復(fù)雜、多層級的信息檢索顯得力不從心。比如,你想知道某個學(xué)術(shù)會議的詳細議程、嘉賓介紹,還得自己手動點開一個個網(wǎng)頁點擊深挖,費時費力。
通義實驗室 RAG 團隊提出 WebWalker 幫你解決這一問題!
如 gif 所示,給定 ACL 2025 的網(wǎng)頁地址和問題:industry track 的截止日期和開會地址。WebWalker 通過一次又一次的 Click 點擊依次找到對應(yīng)的信息,對網(wǎng)站進行充分的探索和挖掘。
就其應(yīng)用場景來說,WebWalker 既可以作為獨立的網(wǎng)頁信息檢索助手,或無縫集成到 RAG 系統(tǒng)中,拓展其應(yīng)用范圍,讓它們能夠處理更加復(fù)雜、多步驟的信息檢索任務(wù)。
- 論文標題:WebWalker: Benchmarking LLMs in Web Traversal
- 論文地址:https://arxiv.org/pdf/2501.07572
- Homepage 地址:
https://alibaba-nlp.github.io/WebWalker/ - Modelscope Demo 地址:
https://www.modelscope.cn/studios/jialongwu/WebWalker - Huggingface Demo 地址:
https://huggingface.co/spaces/callanwu/WebWalker - Dataset 地址:
https://huggingface.co/datasets/callanwu/WebWalkerQA - Leaderboard 地址: https://huggingface.co/spaces/callanwu/WebWalkerQALeadeboard
- Github 地址:
https://github.com/Alibaba-NLP/WebWalker
背景:大模型的「知識局限」與檢索瓶頸
大型語言模型(LLMs)在自然語言處理任務(wù)中大放異彩,但它們的「知識」 在訓(xùn)練后就固定了。雖然通過檢索增強生成(RAG)能從網(wǎng)上獲取最新信息,傳統(tǒng)搜索引擎的橫向搜索方式,很難深入挖掘網(wǎng)站內(nèi)部深層內(nèi)容,導(dǎo)致大模型在處理復(fù)雜信息時「心有余而力不足」。
傳統(tǒng)搜索引擎如谷歌、必應(yīng)等,它們的搜索方式,我們定義為對問題水平方向的搜索,難以深入到網(wǎng)站內(nèi)部,挖掘那些深埋在網(wǎng)頁之下的深層內(nèi)容,對于隱藏在網(wǎng)頁深層的有價值信息無能為力。無法像人類一樣通過點擊、輸入等操作,逐步深入探索網(wǎng)頁,獲取豐富的細節(jié)。
解決思路
研究者首先定義了 Web Traversal 任務(wù),即給定一個與問題相關(guān)的初始網(wǎng)站,系統(tǒng)地遍歷網(wǎng)頁以揭露隱藏在其中的信息對問題進行回答。同時,WebWalkerQA 應(yīng)運而生,專門設(shè)計來評估大模型處理復(fù)雜、多步驟網(wǎng)頁交互中嵌入查詢能力的基準測試。其聚焦于文本推理能力,采用問答格式來評估大模型在網(wǎng)頁場景中的問題解決能力,并且將動作限制為「Click 點擊」,以更精準地評估智能體的導(dǎo)航和信息尋求能力,這種范式更加貼合實際應(yīng)用場景。
同時,研究者提出了一個基于 Multi-Agent 框架搭建的 WebWalker 框架,進行網(wǎng)頁的游走,獲取需要的信息。
WebWalkerQA 基準
WebWalkerQA 通過兩階段漏斗式標注策略構(gòu)建數(shù)據(jù),先用 GPT-4o 進行初步標注,再由眾包標注者進行質(zhì)量控制和篩選,最終獲得高質(zhì)量的 680 個問答對,覆蓋 1373 個網(wǎng)頁,其中涉及到的領(lǐng)域有教育、會議、組織和游戲,貼近現(xiàn)實真實場景,并且分為多源和單源問答兩種類型,模擬人類不同網(wǎng)頁探索行為。
同時,團隊了開源了 14k 條 silver data,包含了詳細的頁面點擊的 trajectory,以供后續(xù)研究者研究使用。
WebWalker 框架
WebWalker 框架由 Explorer Agent 和 Critic Agent 組成。Explorer Agent 基于遵循思考 - 行動 - 觀察范式,負責(zé)在網(wǎng)頁中點擊按鈕、跳轉(zhuǎn)頁面;Critic Agent 則負責(zé)記憶,維護一個 Memory 來保存對問題回答有幫助的信息和判斷當(dāng)前 Memory 中的信息能否對問題進行回答。
這種分工協(xié)作讓大模型更高效地管理記憶,應(yīng)對長文本和復(fù)雜邏輯。WebWalker 讓大模型在網(wǎng)頁導(dǎo)航任務(wù)中能夠更加高效地處理長文本信息,深入網(wǎng)頁挖掘有價值的內(nèi)容。
實驗結(jié)果
研究者分別在兩種設(shè)置下測試了 WebWalkerQA 的性能。第一種是 Agent 在 Web Traversal 任務(wù)下的性能,即輸入給定的網(wǎng)頁和問題,讓 Agent 在網(wǎng)頁內(nèi)游走,獲取信息進行回答。
另外,研究者分別在兩種最主流的 Single-Agent 框架 ReAct 和 Reflexion 以及他們提出的 WebWalker 上進行了測試。測試指標分別是問答的正確率和正確回答的情況下 Agent 執(zhí)行點擊的次數(shù) Action Count。
在 Agent 上的性能
從下圖可以看出,數(shù)據(jù)集深度越深,考察內(nèi)容越多,需要挖掘的信息越難找到,性能越低,這與論文構(gòu)造 WebWalkerQA 想要考察的內(nèi)容是一致的。
相比于 ReAct 和 Reflexion 框架,引入 Multi-Agent 的 WebWalker 框架對于長上下文理解的網(wǎng)頁探索任務(wù)很有作用。
總體來說,WebWalkerQA 對現(xiàn)有 Agent 來說是仍有挑戰(zhàn),即使是性能最強的基于 GPT-4o 的 WebWalker,其表現(xiàn)也未達理想狀態(tài),僅僅只有 40,凸顯了該基準的難度。
詳細分析
如下左圖是基于不同基座 LLM 在不同 Agent 正確率和執(zhí)行次數(shù)的分布;右圖是預(yù)測分布,研究者對錯誤類型進行了細致的劃分,包括超過給定的最大執(zhí)行次數(shù) K,拒答或定位錯誤(沒有找到正確的頁面就進行了回答)以及推理錯誤(這里指找到了正確的頁面但是仍回答錯誤)。
綜合來看,在 ReAct 框架下,參數(shù)相對較小的模型由于缺乏深入挖掘信息的能力,無論是否找到了相關(guān)信息,在進行幾次操作迭代后便開始進行回答判斷,常常表現(xiàn)出「擺爛」或者不耐煩的特性。通過引入記憶機制來管理長上下文,或者隨著模型參數(shù)的增強這種現(xiàn)象有所緩解,說明這種現(xiàn)象源于長上下文中噪聲信息的干擾以及模型自身能力的局限性。
在 RAG 系統(tǒng)上的性能
另一種設(shè)置是直接端到端測試 RAG 系統(tǒng)下 QA 的性能,研究者分別測試了在 Close Book 和一些開源、商用 RAG 系統(tǒng)上的性能。結(jié)果顯示,Close Book 在 WebWalkerQA 上結(jié)果很差,因為研究者收集頁面信息具有高度的時效性。
同樣地,WebWalkerQA 需要搜索引擎搜到比較深的頁面內(nèi)容,或者需要拆解 Query 進行搜索,這給 RAG 系統(tǒng)帶來了挑戰(zhàn),最好的結(jié)果也是 40 左右。
二維 RAG 的探索
值得注意的是,WebWalker 中的 memory 對于回答 query 是非常重要的。如果 rag 鏈路中的搜索引擎可以當(dāng)作對 query 進行橫向搜索,WebWalker 是對頁面的縱向深度探索,這是完全可以互補的。
因此,如果把 WebWalker 中的 memory 拼接到 rag 鏈路上,這種橫向和縱向整合表現(xiàn)出色,在所有類別和難度的數(shù)據(jù)集上效果均有提升,證明了垂直探索頁面對于提升 RAG 性能的潛力。這是對 RAG 二維探索的首次嘗試!
此外,研究者對 WebWalker 的挖掘點擊次數(shù)進行 scale up,看是否能得到更好、更多的 memory 信息。隨著挖掘點擊次數(shù)的增大,不僅在 WebWalker 上有較大提升,把 memory 加入到 rag 系統(tǒng)之后,性能也隨之提升。這給 rag 系統(tǒng)進行 test-time 的拓展提供了新的角度。
突出 Insight
- 網(wǎng)頁導(dǎo)航尋找信息仍比較困難:在需要規(guī)劃和推理的任務(wù)中,網(wǎng)頁導(dǎo)航任務(wù)仍需進行進一步的研究和探索。
- 結(jié)合 RAG 有效:RAG 與 WebWalker 的結(jié)合,在信息檢索問答任務(wù)中展現(xiàn)出強大效果。這種協(xié)同作用不僅提升了信息檢索的效率,還為處理復(fù)雜任務(wù)提供了強大的支持。Agentic 的二維 RAG 會很有幫助。
- 垂直探索有潛力:頁面的垂直探索為 RAG 系統(tǒng) test-time 的擴展提供了新思路。突破迭代搜索的范式,對頁面進行垂直探索。
總之,WebWalkerQA 和 WebWalker 的出現(xiàn),為大模型在復(fù)雜、多步驟信息檢索任務(wù)中的網(wǎng)頁遍歷能力評估提供了新標準和工具。它們強調(diào)了網(wǎng)頁信息獲取任務(wù)中深度、垂直探索的重要性,是可能一直 Agentic RAG 的新方向。
局限與改進方向
- 數(shù)據(jù)規(guī)模:目前 WebWalkerQA 僅包含 680 個高質(zhì)量問答對,規(guī)模有限,還有拓展空間。
- 多模態(tài)拓展:目前僅基于 HTML-DOM 解析,未來可結(jié)合視覺模態(tài)如截圖,提供更直觀的交互體驗。
- Agent 微調(diào):WebWalker 目前僅靠提示驅(qū)動,后續(xù)可通過精細調(diào)優(yōu),讓大模型更好地掌握網(wǎng)頁瀏覽技巧。
- Momory 與 rag 結(jié)合:目前是給定了 webwalker 頁面進行了挖掘,如果想與 rag 鏈路進行更好的結(jié)合,可以對 query 進行改寫到官網(wǎng)定位,再進行挖掘,把 memory 和正常檢索到的知識一起作為檢索增強的知識,這樣結(jié)合更自然。