Deep Research深度研究AI代理:誰是最強研究助手? 原創(chuàng) 精華
01、概述
在當(dāng)今這個信息爆炸的時代,研究和分析工作變得越來越復(fù)雜,也越來越耗時。不過,最近幾個月,一種名為“深度研究”(Deep Research)的AI代理技術(shù)悄然興起,它們能夠自動完成從信息收集到報告生成的全過程,極大地節(jié)省了人類的時間和精力。今天,就讓我們一起走進這些智能代理的世界,看看它們是如何改變我們的研究方式的。
02、什么是深度研究AI代理?
簡單來說,深度研究AI代理是一種能夠自主完成復(fù)雜研究任務(wù)的人工智能工具。它們不僅僅是簡單的問答機器人,而是能夠進行多步驟推理:生成搜索查詢、瀏覽網(wǎng)頁內(nèi)容、分析數(shù)據(jù),并將研究成果整合成結(jié)構(gòu)化的報告,甚至還能引用來源。這些代理的目標是幫助用戶在短時間內(nèi)完成原本需要數(shù)小時甚至數(shù)天的研究工作。
目前市面上已經(jīng)出現(xiàn)了多種深度研究AI代理,比如OpenAI的Deep Research、谷歌的Gemini Deep Research、LangChain的Open Deep Research,以及Ollama Deep Researcher等。這些工具各有特點,但它們的共同目標是讓研究變得更加高效、便捷。
03、全自動代理 vs. 人機協(xié)作代理
在深度研究AI代理的世界里,主要有兩種架構(gòu)設(shè)計:全自動代理和人機協(xié)作(Human-in-the-Loop, HITL)代理。
全自動代理:一鍵啟動,全程無憂
全自動代理是最“省心”的選擇。用戶只需要提供一個主題或提示,這些代理就會從頭到尾獨立完成任務(wù)。例如,OpenAI的Deep Research功能(2025年2月推出)可以讓ChatGPT像一個“研究分析師”一樣工作。用戶只需輸入主題,回答幾個附加問題,剩下的事情就交給代理去完成。它會在幾分鐘內(nèi)從網(wǎng)絡(luò)上收集信息,并生成一份帶有引用的詳細報告。這種全自動化的方式非常方便,但它需要一個非常強大的代理來獨立決定研究方向并驗證信息的真實性。
人機協(xié)作代理:人類把控,質(zhì)量更高
與全自動代理不同,人機協(xié)作代理會在研究流程的不同階段征求人類的反饋或批準。這些代理不會一路“狂奔”,而是在制定研究計劃或大綱后暫停,讓用戶進行審核和調(diào)整。這種“計劃審核”階段相當(dāng)于一種質(zhì)量控制,確保代理的理解與用戶的意圖一致。例如,LangChain的Open Deep Research就是一個典型的人機協(xié)作代理。它會在生成報告計劃后暫停,讓用戶可以修改或調(diào)整計劃,然后再繼續(xù)執(zhí)行。這種設(shè)計雖然增加了人類的參與,但能有效提高研究的質(zhì)量和準確性。
04、深度研究代理的架構(gòu)設(shè)計
盡管不同的深度研究代理在實現(xiàn)上各有不同,但它們通常都遵循一些共同的架構(gòu)模式。一個常見的設(shè)計是將代理拆分為多個專門的子代理或組件,通常被稱為管理代理(Manager Agents)和工具調(diào)用代理(Tool-Calling Agents)。
管理代理:任務(wù)規(guī)劃與協(xié)調(diào)
管理代理通常是主要的語言模型實例,負責(zé)理解用戶的需求,將研究任務(wù)分解為子任務(wù)(例如報告的各個部分或需要回答的具體問題),并協(xié)調(diào)整個研究過程。在以代碼為中心的代理框架中(比如Hugging Face的smolagents),管理代理通常以代碼代理(Code Agent)的形式出現(xiàn),即它可以生成和執(zhí)行代碼來完成任務(wù)。管理代理負責(zé)邏輯規(guī)劃、結(jié)果整合,它會決定要搜索什么內(nèi)容、使用哪些工具,以及如何匯總信息。這就好比一個研究人員在規(guī)劃回答復(fù)雜問題的大綱和策略。
工具調(diào)用代理:執(zhí)行與數(shù)據(jù)獲取
工具調(diào)用代理則專注于與外部資源的交互和執(zhí)行具體操作,比如網(wǎng)頁搜索、網(wǎng)頁導(dǎo)航或數(shù)據(jù)提取。這些代理可能會調(diào)用搜索引擎API、點擊搜索結(jié)果、抓取網(wǎng)頁內(nèi)容,或者調(diào)用其他工具。它們的主要任務(wù)是從外部獲取原始信息(也就是系統(tǒng)的“互聯(lián)網(wǎng)助手”部分)。例如,一個工具代理可能會使用DuckDuckGo或谷歌搜索API來獲取相關(guān)鏈接,而另一個代理則會解析網(wǎng)頁文本以提取關(guān)鍵信息。在許多系統(tǒng)中,這些工具使用行為也可以由主代理完成,只要它能夠輸出代碼或結(jié)構(gòu)化動作。
05、網(wǎng)頁搜索與內(nèi)容提?。捍淼摹把劬Α焙汀笆帧?/h3>
深度研究代理高度依賴網(wǎng)頁瀏覽能力。它們通常集成了搜索工具和內(nèi)容檢查器/閱讀器。
網(wǎng)頁搜索:精準定位信息
代理會根據(jù)用戶的提示或當(dāng)前信息需求生成搜索查詢。它們使用API或瀏覽器自動化工具來獲取搜索結(jié)果,比如通過谷歌API(通過SerpAPI)、DuckDuckGo搜索工具,或者像Tavily這樣的專門為LLM設(shè)計的搜索服務(wù)。例如,開源的OpenDeepResearcher代理使用SerpAPI進行谷歌搜索查詢,而其他代理則使用Tavily的實時搜索API。這些工具會返回一系列相關(guān)的網(wǎng)頁或文檔。
內(nèi)容導(dǎo)航與提?。荷钊胪诰蚣毠?jié)
獲取網(wǎng)頁鏈接后,代理需要訪問這些頁面并提取內(nèi)容。它們通常使用簡化版的文本瀏覽器或HTTP客戶端來獲取網(wǎng)頁HTML并提取文本。一些代理還會集成檢查工具,用于讀取和解析常見格式(如HTML、PDF等),并在文本中搜索關(guān)鍵詞或標題,以判斷頁面是否有用并提取相關(guān)內(nèi)容片段。
迭代探索:不斷深入研究
深度研究代理通常不會只進行一輪搜索。管理代理(LLM)會閱讀獲取的信息,并可能提示工具代理進行后續(xù)搜索或點擊超鏈接深入挖掘。這個循環(huán)會一直持續(xù),直到代理認為已經(jīng)收集到足夠的信息,或者達到預(yù)設(shè)的限制。在這個過程中,代理會保持對已學(xué)知識、已覆蓋的子主題以及剩余空白的記憶?,F(xiàn)代代理通常會采用反思策略——代理會檢查自己的當(dāng)前知識,并問自己“我是否需要更多關(guān)于X的信息?”如果需要,它就會觸發(fā)新的查詢以深入挖掘。
從研究到報告:整合與輸出
無論采用哪種工作流程,一旦研究完成,最后一步就是整合所有發(fā)現(xiàn),生成一份連貫的報告。管理代理通常會將搜索階段收集的筆記或片段整合成一份結(jié)構(gòu)良好的文檔。這不僅包括合并事實,還包括生成解釋、比較,并插入引用以便追溯。
06、性能評估:如何衡量代理的“智能”?
要衡量深度研究代理的有效性,研究人員會使用復(fù)雜的推理和知識整合基準測試。一個著名的基準是GAIA(General AI Assistant),它評估AI代理處理需要多步驟推理、工具使用(如網(wǎng)頁瀏覽)以及整合多個來源信息的現(xiàn)實世界問題解決任務(wù)的能力。GAIA的問題難度分為1到3級,3級問題通常涉及多跳推理和使用外部工具或參考,模擬人類分析師可能面臨的挑戰(zhàn)。
另一個評估是“人類最后的考試”(Humanity’s Last Exam, HLE),這是一項涵蓋100多個專家級主題的測試,旨在檢驗AI是否能通過人類為其設(shè)置的最后考試(涵蓋法律、醫(yī)學(xué)、工程等領(lǐng)域)。
深度研究代理在這些基準測試中取得了快速進步。例如,OpenAI報告稱,其Deep Research代理(使用o3模型)在HLE測試中達到了26.6%的準確率,這比之前的模型(如GPT-4o和谷歌的Grok-2)的約3%有了巨大的飛躍。盡管26.6%聽起來可能不高,但這個考試難度極高,即使是這樣的成績也遠遠超過了早期AI的表現(xiàn),表明AI的專家推理能力達到了新的水平。
在GAIA測試中,OpenAI的Deep Research也取得了新的最佳成績。早期報告顯示,該代理平均正確回答了約72%到73%的GAIA問題,而之前的頂級代理正確率在63%到67%之間。在最難的3級問題上,Deep Research代理達到了約58%的準確率(之前的系統(tǒng)在3級問題上的準確率在40%到50%之間)。這種表現(xiàn)表明代理在復(fù)雜、多步驟任務(wù)上的強大能力。簡而言之,這些系統(tǒng)開始接近人類水平的推理能力,而這些任務(wù)在過去是AI完全無法觸及的。
07、開源替代方案:追趕的步伐
開源的深度研究代理也在迅速縮小與商業(yè)代理的差距。例如,Hugging Face在24小時內(nèi)復(fù)現(xiàn)了OpenAI的深度研究代理(使用其smolagents框架),在GAIA驗證集上達到了55.15%的準確率。雖然這低于OpenAI的專有代理,但遠高于舊的基線(微軟的Magentic-One代理在GAIA上的準確率約為46%)。這種改進主要得益于采用代碼代理方法(讓LLM輸出用于行動的代碼),減少了推理步驟和錯誤。這表明架構(gòu)選擇(如使用代碼而非JSON進行工具調(diào)用)對性能有重要影響。
08、深度研究代理的對比分析
為了更好地理解深度研究代理的現(xiàn)狀,讓我們對比一下OpenAI的Deep Research、谷歌的Gemini Deep Research以及領(lǐng)先的開源實現(xiàn),在架構(gòu)、工作流程、搜索策略和性能等方面進行分析。
架構(gòu)與模型
OpenAI的Deep Research代理基于其專有的LLM(o3模型系列)構(gòu)建。該模型針對長篇推理進行了優(yōu)化,并與內(nèi)部代理框架集成,能夠進行網(wǎng)頁瀏覽和數(shù)據(jù)分析。盡管OpenAI沒有完全披露代理框架的技術(shù)細節(jié),但它涉及模型協(xié)調(diào)工具使用(類似于基于代碼的內(nèi)部代理)。谷歌的Gemini Deep Research則以Gemini 1.5 Pro和2.0模型為骨干。
相比之下,開源項目通常使用較小的模型或多個組件。例如,OpenDeepResearcher可以使用Anthropic的Claude-3.5(通過OpenRouter API)來處理查詢生成和內(nèi)容分析,而Hugging Face的open-deep-research演示則使用DeepSeek進行推理和基于Python的網(wǎng)絡(luò)爬蟲工具。LangChain的實現(xiàn)則可以插入不同階段的不同模型(默認情況下,使用OpenAI的o3-mini進行規(guī)劃,Anthropic的Claude進行寫作,或者使用其他開源模型)——本質(zhì)上是一種模塊化架構(gòu),每個階段都可以使用最適合的模型。
商業(yè)代理(如OpenAI和谷歌)的優(yōu)勢在于其極其強大的模型(o3和Gemini都是最先進的,可能是多模態(tài)的,并針對工具使用進行了訓(xùn)練),而開源代理可能使用經(jīng)過優(yōu)化的Llama衍生模型或蒸餾模型來近似這種能力。這意味著商業(yè)代理可能更好地處理非常復(fù)雜的推理或大型輸入,但開源代理正在迅速改進,并且可以在自定義硬件上運行。
工作流程設(shè)計
OpenAI的Deep Research主要采用全自動工作流程。用戶在ChatGPT界面中提供提示,代理則在內(nèi)部生成計劃、執(zhí)行搜索,并最終返回一份帶有引用的詳細報告。用戶可以觀察整個過程(ChatGPT會顯示一個側(cè)邊欄,記錄其正在執(zhí)行的步驟,類似于實時日志,但用戶無法中途干預(yù))。
谷歌的Deep Research模式則明確在UI中包含了一個計劃審批步驟。在用戶初始查詢后,它會呈現(xiàn)一個草稿大綱(用戶可以編輯或細化),只有在確認后才會繼續(xù)收集信息并撰寫報告。這表明谷歌選擇了一種半自動工作流程,利用人機協(xié)作來提高相關(guān)性。這可以防止浪費工作(例如,如果代理要研究錯誤的子主題,用戶可以及時發(fā)現(xiàn))。
在開源實現(xiàn)中,我們看到了這兩種模式:OpenDeepResearcher和Ollama Deep Researcher以一次性自主循環(huán)運行,直到完成(運行過程中不與用戶交互)。相比之下,LangChain的open_deep_research采用計劃-執(zhí)行方法,在規(guī)劃階段暫停,允許用戶反饋(用戶可以選擇修改建議的部分列表),然后再繼續(xù)。
搜索方法
所有深度研究代理都依賴外部搜索,但來源和方法有所不同。
OpenAI Deep Research可能使用類似于早期ChatGPT瀏覽alpha或OpenAI提到的“Operator”系統(tǒng)的網(wǎng)頁瀏覽堆棧。它可能查詢通用搜索引擎(可能是必應(yīng)或自定義API)以獲取結(jié)果,然后使用內(nèi)部瀏覽器導(dǎo)航頁面。該代理優(yōu)先考慮可信來源;報告顯示它傾向于引用高質(zhì)量的參考文獻(學(xué)術(shù)論文、權(quán)威報告),而不僅僅是流行的網(wǎng)頁。這表明OpenAI的代理可能有一些排名策略或?qū)?quán)威來源的偏好。它還可以通過調(diào)用工具處理非文本數(shù)據(jù)(OpenAI提到使用Python進行數(shù)據(jù)分析,這意味著它可以獲取CSV文件或表格并處理它們)。
谷歌Gemini Deep Research肯定不會使用其他搜索引擎,它與谷歌自己的搜索引擎緊密集成。這意味著它可以訪問谷歌龐大的索引和排名算法,這對于覆蓋范圍的廣度是一個優(yōu)勢。然而,它可能更強調(diào)谷歌上流行或排名較高的內(nèi)容。用戶觀察到,谷歌的代理從許多來源聚合信息,但有時只是表面化的(廣泛但淺顯)。
開源選項通常使用公共搜索API或開放搜索引擎。例如,OpenDeepResearcher使用SerpAPI(谷歌)獲取網(wǎng)絡(luò)結(jié)果,并使用Jina(一個AI驅(qū)動的內(nèi)容檢索API)獲取頁面文本。其他代理則使用DuckDuckGo或必應(yīng)Web API。LangChain的open_deep_research默認使用Tavily(一個為LLM設(shè)計的搜索API),也可以切換到Perplexity(一個AI元搜索服務(wù))。
開源代理通常通過簡單地提取文本來模擬瀏覽器,而不執(zhí)行JavaScript或渲染——這涵蓋了大多數(shù)需求(文本內(nèi)容),但可能會錯過動態(tài)加載的內(nèi)容。開源代理的搜索方法通??梢耘渲?;開發(fā)人員可以插入不同的搜索工具??傮w而言,這些代理確保它們有辦法查詢實時網(wǎng)絡(luò)并獲取內(nèi)容。結(jié)果的質(zhì)量將取決于使用的搜索API——例如,使用谷歌API通??梢垣@得良好的信息,但需要成本,而免費API可能包含更多噪聲。在實踐中,開源代理實現(xiàn)了類似的迭代深化搜索:它們從初始結(jié)果出發(fā),讓LLM閱讀并總結(jié)或提取要點,然后生成新的查詢以跟進未回答的問題。
報告生成
所有比較的實現(xiàn)都力求生成一份帶有引用的最終報告。OpenAI的Deep Research以其生成的非常長、詳細的報告而聞名(對于復(fù)雜查詢,通常有幾十頁和許多引用)。其寫作風(fēng)格結(jié)構(gòu)化——使用標題、項目符號和分析性敘述。谷歌的Deep Research傾向于生成稍短的輸出;用戶將其描述為更像一份擴展的摘要或簡報。LangChain的Open Deep Research工具以Markdown格式輸出,包含部分和引用。開源輸出中的引用通常要么是內(nèi)聯(lián)括號中的URL,要么是映射到參考列表的數(shù)字引用——與商業(yè)版本類似。開源框架的一個好處是你可以自定義報告格式(例如,確保它總是包含引言,或者添加一個特定部分)。
性能與基準
在具有挑戰(zhàn)性的基準測試(如GAIA和HLE)中,OpenAI的Deep Research目前領(lǐng)先,這得益于o3-mini模型的強大能力和優(yōu)化的代理邏輯。
如前所述,HuggingFace的open DeepResearch在一天的工作內(nèi)達到了OpenAI GAIA分數(shù)的約72%到82%。因此,開源和商業(yè)解決方案之間的差距并非不可逾越,特別是如果愿意使用付費API的話。商業(yè)解決方案在易用性和集成方面仍然占據(jù)優(yōu)勢:它們是即插即用的(無需設(shè)置,界面友好),并且具有一些功能,如圖表生成、直接導(dǎo)出到谷歌文檔等,而開源版本可能尚未具備這些功能。
成本與可訪問性
OpenAI的Deep Research最初僅對每月200美元的ChatGPT企業(yè)/專業(yè)訂閱用戶開放,這對于普通用戶來說成本較高。谷歌的Deep Research在成本方面要親民得多,包含在每月約20美元的谷歌One高級計劃中(提供一個月的免費試用)。
開源代理的設(shè)計是可以免費運行的(如果你有計算資源),或者成本極低。許多開源實現(xiàn)使用OpenAI/Anthropic模型和搜索的API密鑰,因此你按API調(diào)用付費——這可能根據(jù)報告的長度,每次報告只需幾分錢或幾美元。有一篇指南展示了如何以“不到1美元”的API成本構(gòu)建一個深度研究代理(見《構(gòu)建深度研究代理:1美元的OpenAI工具替代品》)。
如果你完全使用開源模型(比如本地運行一個Llama 70B)和免費搜索(例如,使用開放搜索索引),成本可以幾乎為零,除了硬件和時間。不過,這種選擇的權(quán)衡是增加了復(fù)雜性:你需要設(shè)置環(huán)境,而且性能可能會更慢或質(zhì)量略低。此外,開源解決方案允許隱私保護——你可以離線運行代理(Ollama的版本在本地機器上運行所有內(nèi)容,包括通過本地索引或緩存結(jié)果進行搜索),確保數(shù)據(jù)不會離開你的環(huán)境。商業(yè)解決方案會將你的查詢和檢索到的內(nèi)容發(fā)送到它們的服務(wù)器,這可能對敏感研究主題是一個需要考慮的因素。
09、結(jié)語:深度研究代理的未來
深度研究AI代理的出現(xiàn),無疑是人工智能領(lǐng)域的一個重大突破。它們不僅極大地提高了研究效率,還為專業(yè)人士和普通用戶提供了強大的工具,幫助他們快速獲取和整合信息。無論是全自動的便捷性,還是人機協(xié)作的精準性,這些代理都在以自己的方式改變著我們的研究方式。
隨著技術(shù)的不斷發(fā)展,我們可以預(yù)見,未來的深度研究代理將更加智能、更加高效。開源社區(qū)的迅速發(fā)展也讓我們看到了這種技術(shù)的無限潛力。無論你是需要快速生成報告的職場人士,還是希望深入了解某個領(lǐng)域的研究人員,深度研究AI代理都將成為你不可或缺的助手。
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/nsf3cTJMANvfUy-MvaFYww???
