兩分鐘完成論文調(diào)研!ByteDance Research推出論文檢索智能體PaSa,遠超主流檢索工具
2025 被稱為 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于強化學(xué)習(xí)的智能體應(yīng)用:論文檢索智能體。它可以模仿人類研究者調(diào)用搜索引擎、看論文、查參考文獻。繁瑣冗長的論文調(diào)研,現(xiàn)在,只需要兩分鐘。
從事科研工作的你,想要一個幫你盡調(diào)論文的科研小助手嗎?
你是否曾為了尋找某個研究主題的相關(guān)論文,花費了大量的時間與精力;或者對某個研究想法充滿興趣,卻不確定是否已有類似的研究,最終耗費了大量時間在調(diào)研上?最近,ByteDance Research 的研究團隊推出了一款強大的學(xué)術(shù)論文檢索工具 ——PaSa。用戶只需提出關(guān)注的學(xué)術(shù)問題,PaSa 即可自動調(diào)用搜索引擎,瀏覽相關(guān)論文并追蹤引文網(wǎng)絡(luò),精準、全面地為用戶呈現(xiàn)所有相關(guān)的學(xué)術(shù)論文,只需要兩分鐘,就可以完成一次詳盡的學(xué)術(shù)調(diào)研。
先來看看 PaSa 的效果:
研究人員將 PaSa 與一系列主流檢索工具進行了對比,包括 Google, Google Scholar, Google+GPT-4o, ChatGPT(配備檢索能力的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在學(xué)術(shù) Query 測試集上,PaSa 大幅超越了當前主流檢索工具:與 Google 相比,PaSa-7b 在 Recall@20 和 Recall@50 上分別提升了 37.78% 和 39.90%。與基于 Prompt Engineering 實現(xiàn)的 PaSa-GPT-4o 相比,經(jīng)過強化學(xué)習(xí)訓(xùn)練的 PaSa-7b 在召回率上提升了 30.36%,準確率上提升了 4.25%.。
PaSa 目前已開放試用。同時,研究團隊公開了詳盡的技術(shù)論文,并一次性開源了全部的數(shù)據(jù)、代碼和模型:
- 論文地址:https://arxiv.org/abs/2501.10120
- 項目倉庫:https://github.com/bytedance/pasa
- PaSa 主頁:https://pasa-agent.ai
PaSa Agent 框架
PaSa 的核心組件包含兩個 LLM Agents:Crawler 和 Selector。Crawler 通過自主調(diào)用搜索工具、閱讀論文、擴展參考文獻,不斷收集與用戶 Query 可能相關(guān)的學(xué)術(shù)論文。Selector 則負責(zé)精讀 Crawler 找到的每一篇論文,決定其是否滿足用戶的需求。
PaSa 框架:Crawler 的設(shè)計旨在最大化相關(guān)論文的召回率,而 Selector 則強調(diào)精確性,即識別論文是否符合用戶需求。
下圖展示了一個 PaSa 處理 User Query 的具體流程:
PaSa 的工作流示例:Crawler 可以生成多樣、互補的搜索詞執(zhí)行多次搜索。此外,Crawler 還能夠評估其行為的長期價值,例如在多步擴展引文網(wǎng)絡(luò)后,Cralwer 能夠發(fā)現(xiàn)許多與用戶 Query 相關(guān)的論文,即使路徑中的中間論文并不直接與用戶需求匹配。
訓(xùn)練優(yōu)化
為了訓(xùn)練 PaSa,研究團隊首先構(gòu)造了一個高質(zhì)量的學(xué)術(shù)細粒度 Query 數(shù)據(jù)集:AutoScholarQuery。該數(shù)據(jù)集通過收集人工智能領(lǐng)域頂會(ICLR 2023,ICML 2023,NeurIPS 2023,ACL 2024,CVPR 2024)發(fā)表的論文,基于每篇論文中 “Related Work” 部分的描述及其引用的相關(guān)文獻,生成學(xué)術(shù)問題和對應(yīng)的相關(guān)論文列表。最終,數(shù)據(jù)集包含了 36k 數(shù)據(jù),每條數(shù)據(jù)包含一個 AI 領(lǐng)域的學(xué)術(shù)問題及相關(guān)論文,示例如下圖所示。
AutoScholarQuery 中的數(shù)據(jù)示例
盡管 AutoScholarQuery 缺乏人類科學(xué)家發(fā)現(xiàn)論文的軌跡數(shù)據(jù),但該數(shù)據(jù)集仍然能夠支持對 PaSa 智能體進行強化學(xué)習(xí)訓(xùn)練。在 Crawler 的訓(xùn)練過程中,面臨兩個主要挑戰(zhàn):獎勵稀疏性和過長的行動軌跡。為了解決獎勵稀疏性問題,研究團隊引入了 Selector 作為輔助獎勵模型,顯著提升了優(yōu)化效果。此外,Crawler 在一次執(zhí)行中可能收集到上百篇文章,導(dǎo)致完整的行動軌跡過長,無法完全輸入到 LLM 的上下文中。為此,團隊提出了一種全新的 session-level PPO 算法,解決這一問題。
Selector 主要通過模仿學(xué)習(xí)進行訓(xùn)練。Selector 會先生成一個 Decision Token,決定論文是否符合用戶 Query 的需要。同時 Token Probability 也可以作為相關(guān)性分數(shù)用于最終結(jié)果的排序。在 Decision Token 后,Selector 還會輸出決策依據(jù)。
Crawler 和 Selector 的更多訓(xùn)練細節(jié)詳見論文。
實驗結(jié)果
為了驗證 PaSa 在真實學(xué)術(shù)搜索場景中的表現(xiàn),研究團隊開發(fā)了一個評測集 ——RealScholarQuery。該數(shù)據(jù)集包含了 AI 研究者提出的真實學(xué)術(shù)問題,并為每個問題人工構(gòu)建了對應(yīng)的相關(guān)論文列表。研究團隊在 AutoScholarQuery-test 和 RealScholarQuery 兩個評測集上,全面對比了 PaSa 與 baselines 的表現(xiàn)。
Baselines
- Google:直接用 Google 搜索用戶問題
- Google Scholar:直接用 Google Scholar 搜索用戶問題
- Google with GPT-4o:首先 prompt GPT-4o 改寫用戶問題生成一個更適于 Google 搜索的問題,然后使用 Google 進行搜索
- ChatGPT:上傳用戶問題給有搜索功能的 GPT-4o,并收集它的生成結(jié)果
- GPT-o1:直接 prompt GPT-o1 來處理用戶問題
- PaSa-GPT-4o:通過 prompt GPT-4o 模擬 Crawler 和 Selector,構(gòu)成 PaSa 架構(gòu) agent
PaSa
- PaSa-7b:使用 Qwen2.5-7b-Instruct 作為基礎(chǔ)模型,通過特殊獎勵構(gòu)造的強化學(xué)習(xí)訓(xùn)練的 Crawler 和 Selector 構(gòu)成的 agent
- PaSa-7b-ensemble:集成多次 Crawler 的搜索結(jié)果,提高最終的召回量
在 AutoScholarQuery 測試集上,PaSa-7b 的效果優(yōu)于其他所有的基線模型。與最強的基線 PaSa-GPT-4o 相比,在準確率相當?shù)那闆r下,PaSa-7b 的召回率提高了 9.64%,Crawler 召回率提高了 3.66%。和 Google 搜索的最好結(jié)果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 33.80%,38.83% 和 42.64%。此外,集成后的 PaSa-7b-ensemble 比 PaSa-7b 的召回率和 Crawler 召回率能進一步提高 1.51% 和 3.44%。
在更接近真實的 RealScholarQuery 上,PaSa-7b 的提升更加明顯。與 PaSa-GPT-4o 相比,PaSa-7b 的召回率提高了 30.36%,精確率提高了 4.25%。Google 搜索的最好結(jié)果相比,Recall@20,Recall@50 和 Recall@100 分別提升了 37.78%,39.90% 和 39.83%。PaSa-7b-ensemble 的召回率和 Crawler 召回率分別進一步提高了 3.52% 和 4.32%。
結(jié)語
學(xué)術(shù)搜索是一個具有獨特挑戰(zhàn)的信息檢索場景:涉及大量專業(yè)性較強的長尾知識,要求全面的召回能力,并能夠支持細粒度的查詢。PaSa 是基于大語言模型的全新論文檢索智能體,通過模仿人類的搜索工具調(diào)用、論文閱讀以及參考文獻查閱過程,能夠自主高效地完成論文調(diào)研這一復(fù)雜的工作。