剛剛,OpenAI上線Deep Research!人類終極考試遠(yuǎn)超DeepSeek R1
一覺醒來,OpenAI 又發(fā)新產(chǎn)品了,這次是面向深度研究領(lǐng)域的智能體產(chǎn)品 ——「Deep Research」。
具體來講,這是一個(gè)使用推理來綜合大量在線信息并為用戶完成多步驟研究任務(wù)的智能體,旨在幫助用戶進(jìn)行深入、復(fù)雜的信息查詢與分析。目前,Pro 用戶現(xiàn)已可用,接下來還將開放給 Plus 和 Team 用戶使用。
有了這個(gè)新的智能體,用戶將可以在 ChatGPT 中開啟深度研究,在幾十分鐘內(nèi)完成人類需要數(shù)小時(shí)才能完成的工作。
作為 OpenAI 的下一代智能體,Deep Research 可以獨(dú)立為用戶工作。用戶給它一個(gè)提示,ChatGPT 將查找、分析和綜合數(shù)百個(gè)在線資源,以研究分析師的水平創(chuàng)建一份綜合報(bào)告。Deep Research 由即將推出的 o3 模型的一個(gè)版本提供支持,該模型針對(duì)網(wǎng)頁瀏覽和數(shù)據(jù)分析進(jìn)行了優(yōu)化,它利用推理來搜索、解釋和分析互聯(lián)網(wǎng)上的大量文本、圖像和 PDF,并根據(jù)需要根據(jù)遇到的信息做出調(diào)整。
OpenAI 表示,綜合知識(shí)的能力是創(chuàng)造新知識(shí)的先決條件。因此,Deep Research 標(biāo)志著 OpenAI 朝著開發(fā) AGI 的更廣泛目標(biāo)邁出了重要一步。OpenAI 長期以來一直設(shè)想 AGI 能夠產(chǎn)生新穎的科學(xué)研究。
從大家的反應(yīng)來看,OpenAI 這次的智能體產(chǎn)品切中了用戶的需求,甚至有人認(rèn)為這是邁向智能體 AI 的重要里程碑。
OpenAI 的 Deep Research 通過搜索網(wǎng)絡(luò)并將知識(shí)綜合成研究論文,這種自主研究標(biāo)志著 AI 進(jìn)入到了自我發(fā)現(xiàn)新知識(shí)的下一步。
圖源:X@tsarnick
構(gòu)建 Deep Research 的目的
Deep Research 是為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識(shí)工作并需要徹底、精確和可靠研究的用戶而量身打造的。
同時(shí),Deep Research 對(duì)于尋找超個(gè)性化推薦的挑剔購物者同樣有用,這些推薦通常需要仔細(xì)研究才能購買如汽車、家電和家具。每個(gè)輸出都經(jīng)過完整記錄,并附有清晰的引文和思路摘要,以便于引用和驗(yàn)證信息。同樣地,Deep Research 在查找需要瀏覽大量網(wǎng)站的小眾、非直觀信息方面也特別有效。
總之,Deep Research 讓用戶只需一個(gè)查詢即可加快復(fù)雜、耗時(shí)的網(wǎng)絡(luò)研究,從而釋放寶貴的時(shí)間。
此外,Deep Research 能夠獨(dú)立發(fā)現(xiàn)、推理和整合來自網(wǎng)絡(luò)的見解。為了實(shí)現(xiàn)這一點(diǎn),它接受了需要使用瀏覽器和 Python 工具的現(xiàn)實(shí)任務(wù)的訓(xùn)練,使用了 OpenAI 第一個(gè)推理模型 o1 背后的相同強(qiáng)化學(xué)習(xí)方法。雖然 o1 在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域表現(xiàn)出令人印象深刻的能力,但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從各種在線來源收集廣泛的背景和信息。Deep Research 利用這些推理能力來彌補(bǔ)這一差距,使其能夠解決人們在工作和日常生活中面臨的各類問題。
如何使用 Deep research
在 ChatGPT 中,選擇「message composer」中的 deep research 并輸入查詢。告訴 ChatGPT 你需要什么 —— 無論是關(guān)于流媒體平臺(tái)的競爭分析,還是關(guān)于最佳通勤的個(gè)性化報(bào)告都可以。甚至你也可以附加文件或電子表格,為問題添加上下文。一旦開始運(yùn)行,側(cè)邊欄將顯示所采取的步驟和使用的來源摘要。
Deep research 可能需要 5 到 30 分鐘的時(shí)間來完成其工作,因?yàn)樗枰钊胪诰蚓W(wǎng)絡(luò)信息。在此期間,用戶可以離開或處理其他任務(wù) —— 任務(wù)完成后你會(huì)收到通知。最終結(jié)果將以報(bào)告的形式出現(xiàn)在聊天中 —— 在接下來的幾周內(nèi),OpenAI 還將為這些報(bào)告添加嵌入的圖像、數(shù)據(jù)可視化和其他分析輸出,以提供更清晰的說明和上下文。
與 deep research 相比,GPT-4o 更適合實(shí)時(shí)的多模態(tài)對(duì)話。對(duì)于需要深度和細(xì)節(jié)的各個(gè)方面、特定領(lǐng)域的查詢,deep research 能夠進(jìn)行廣泛的探索并引用每個(gè)聲明。
下面是一些 GPT-4o 與 deep research 對(duì)比。
大海撈針。
詢問 GPT-4o:「前段時(shí)間我看過一部電視劇。我忘了名字,但我記得其中一集發(fā)生了什么。你能幫我找到名字嗎?以下是我記得的一集內(nèi)容:
兩個(gè)男人玩撲克。一個(gè)棄牌,另一個(gè)讓他下注。棄牌的人實(shí)際上手牌很好,但被騙了。第二手牌,同一個(gè)人再次棄牌,但這次手牌很糟糕
請(qǐng)深入瀏覽網(wǎng)頁,找到發(fā)生此事的電視劇集?!?/span>
GPT-4o 回答:「根據(jù)您提供的詳細(xì)信息,您似乎指的是電視劇《仆人》中的一集。這部劇由 Tony Basgallop 創(chuàng)作,M. Night Shyamalan 擔(dān)任執(zhí)行制片人,于 2019 年在 Apple TV+ 上首播。故事圍繞一對(duì)費(fèi)城夫婦展開,他們在經(jīng)歷了巨大的損失后,雇傭了一名年輕保姆,導(dǎo)致他們家中發(fā)生了一系列令人不安的事件……」
詢問 deep research 同樣的問題,其給出的答案:「您所描述的三個(gè)事件都發(fā)生在 Starz 系列劇《Counterpart》第一季第四集,標(biāo)題為 Both Sides Now。在這一集中……」
以下是完整過程:
在上述例子中,deep research 被賦予了一個(gè)模糊的查詢,即使對(duì)人類來說也很難找到答案,因?yàn)闆]有關(guān)鍵詞能夠輕易揭示查詢的答案。deep research 能夠以創(chuàng)造性和持久性的方式進(jìn)行搜索,直到找到一個(gè)完全符合條件的結(jié)果。
類似的對(duì)比還有通用知識(shí)(general knowledge)的查詢:「NFL 球員的平均退休年齡是多少?」
在這個(gè)例子中,deep research 提供了需要考慮的組成部分和因素,而不僅僅是一個(gè)數(shù)字。它更加全面,提供了清晰的統(tǒng)計(jì)背景,使用了支持性的例子,并直接解釋了射門員相對(duì)于其他位置球員職業(yè)生涯較長的原因。這種細(xì)節(jié)和清晰度使得 deep research 更具信息量,并更直接地回應(yīng)了那些希望了解 NFL 退休年齡趨勢的人的需求。
如何工作
Deep Research 通過端到端的強(qiáng)化學(xué)習(xí)在多個(gè)領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上進(jìn)行了訓(xùn)練。通過這種訓(xùn)練,它學(xué)會(huì)了規(guī)劃和執(zhí)行多步驟的軌跡,以找到所需的數(shù)據(jù),并在必要時(shí)回溯和實(shí)時(shí)響應(yīng)信息。
Deep Research 還能夠?yàn)g覽用戶上傳的文件,使用 Python 工具繪制和迭代圖表,在生成的圖表和從網(wǎng)站獲取的圖像中嵌入其響應(yīng),并引用其來源中的特定句子或段落。得益于這種訓(xùn)練,Deep Research 在多個(gè)專注于現(xiàn)實(shí)世界問題的公開評(píng)估中達(dá)到了新的高度。
人類終極考試(Humanity’s Last Exam)
對(duì)于最近發(fā)布的「人類終極考試」評(píng)估,在專家級(jí)問題上對(duì)廣泛學(xué)科的人工智能進(jìn)行了測試,支持 Deep Research 的模型以 26.6% 的準(zhǔn)確率創(chuàng)下了新高。
這項(xiàng)測試包括 3,000 多個(gè)多項(xiàng)選擇題和簡答題,涵蓋了從語言學(xué)到火箭科學(xué)、古典文學(xué)到生態(tài)學(xué)的 100 多個(gè)學(xué)科。與 o1 相比,進(jìn)步最大的是化學(xué)、人文和社會(huì)科學(xué)以及數(shù)學(xué)。支持 Deep Research 的模型展示了一種類人方法,可以在必要時(shí)有效地尋找專業(yè)信息。
GAIA 基準(zhǔn)測試
在評(píng)估人工智能在現(xiàn)實(shí)問題上表現(xiàn)的公共基準(zhǔn) GAIA 上,支持 Deep Research 的模型達(dá)到了新的 SOTA 水平,位居排行榜榜首。這些任務(wù)涵蓋三個(gè)難度級(jí)別的問題,成功完成需要具備推理、多模式流暢性、網(wǎng)頁瀏覽和工具使用熟練等能力。
我們來看一個(gè) GAIA 任務(wù)示例:
圖片
專家級(jí)別的任務(wù)
在對(duì)各個(gè)領(lǐng)域?qū)<壹?jí)任務(wù)進(jìn)行的內(nèi)部評(píng)估中,領(lǐng)域?qū)<艺J(rèn)為 Deep Research 可以自動(dòng)完成數(shù)小時(shí)的艱難手動(dòng)調(diào)查。
以下兩圖分別為專家級(jí)任務(wù)的通過率(按估計(jì)經(jīng)濟(jì)價(jià)值計(jì)算)以及專家級(jí)任務(wù)的預(yù)計(jì)小時(shí)數(shù)通過率。
專家級(jí)別的任務(wù)示例如下:
ChatGPT 中的 Deep research 目前對(duì)計(jì)算資源的需求非常高。research 一個(gè)查詢所需的時(shí)間越長,耗費(fèi)的推理計(jì)算資源就越多。
從現(xiàn)在開始,OpenAI 推出了針對(duì) Pro 用戶優(yōu)化的版本,每月最多可進(jìn)行 100 次查詢。接下來將會(huì)向 Plus 和 Team 用戶開放,隨后是 Enterprise 用戶。
目前,Deep research 功能已在 ChatGPT 網(wǎng)頁版上線,并將在本月內(nèi)逐步推廣到移動(dòng)和桌面應(yīng)用程序。目前,Deep research 可以訪問開放的互聯(lián)網(wǎng)以及任何上傳的文件。未來,將能夠連接到更多專業(yè)的數(shù)據(jù)源。
現(xiàn)在看來,Deep research 能夠進(jìn)行異步的在線查找,而 Operator 則能夠在現(xiàn)實(shí)世界中采取行動(dòng),兩者的結(jié)合將使 ChatGPT 能夠?yàn)橛脩魣?zhí)行越來越復(fù)雜的任務(wù)。
不過,值得一提的是,Deep research 目前仍處于早期階段,并且存在局限性。根據(jù)內(nèi)部評(píng)估,它有時(shí)會(huì)在響應(yīng)中產(chǎn)生幻覺或做出錯(cuò)誤推斷,但發(fā)生率明顯低于現(xiàn)有的 ChatGPT 模型,它可能難以區(qū)分權(quán)威信息和謠言。在發(fā)布之際,Deep research 報(bào)告和引文中可能會(huì)出現(xiàn)輕微的格式錯(cuò)誤,任務(wù)可能需要更長時(shí)間才能啟動(dòng)。所有這些問題都會(huì)隨著使用和時(shí)間的推移而迅速改善。