OpenAI推出由o3驅(qū)動(dòng)的全新“深度研究”模式,展現(xiàn)了AI代理時(shí)代的力量
如果你因?yàn)殛P(guān)注格萊美獎(jiǎng)而錯(cuò)過(guò)了這一消息,那么讓我來(lái)告訴你:OpenAI在周日晚間宣布推出其新的“Deep Research(深度研究)”模式,令全世界為之震驚,這是一項(xiàng)面向ChatGPT Pro訂閱計(jì)劃(200美元/月)用戶的AI工具,旨在通過(guò)深入且廣泛地研究網(wǎng)絡(luò)上的特定主題,并匯編出涵蓋商業(yè)、科學(xué)、醫(yī)學(xué)、營(yíng)銷(xiāo)等多個(gè)專(zhuān)業(yè)領(lǐng)域的高質(zhì)量報(bào)告,從而為用戶節(jié)省數(shù)小時(shí)的時(shí)間。
美國(guó)的ChatGPT Pro(以及即將推出的ChatGPT Plus、Team、Enterprise和Edu)用戶將能夠通過(guò)點(diǎn)擊ChatGPT網(wǎng)站和應(yīng)用程序底部提示輸入/撰寫(xiě)欄下方的選項(xiàng)來(lái)訪問(wèn)Deep Research。
OpenAI的CEO Sam Altman在其個(gè)人社交網(wǎng)絡(luò)X賬號(hào)上發(fā)布的一系列帖子中描述這一功能“如同超能力,隨叫隨到的專(zhuān)家!”他補(bǔ)充道,“它真的非常出色,能夠完成那些需要數(shù)小時(shí)/數(shù)天并花費(fèi)數(shù)百美元的任務(wù)?!?/p>
Deep Research基于OpenAI的O系列推理模型,特別是即將發(fā)布的完整o3模型(一個(gè)更小、功能較弱的o3-mini模型已于1月31日推出)。完整的o3模型能夠分析大量信息,并將文本、PDF和圖像整合成一個(gè)連貫的分析。
在YouTube上發(fā)布的直播中,OpenAI前沿研究負(fù)責(zé)人Mark Chen解釋稱(chēng),Deep Research能夠在“互聯(lián)網(wǎng)上進(jìn)行多步驟研究,它發(fā)現(xiàn)內(nèi)容、合成內(nèi)容并對(duì)這些內(nèi)容進(jìn)行推理,隨著發(fā)現(xiàn)越來(lái)越多的信息,不斷調(diào)整其計(jì)劃。”
Chen還強(qiáng)調(diào)了這項(xiàng)創(chuàng)新對(duì)于OpenAI愿景的重要性:“這是我們AGI路線圖的核心,我們的最終目標(biāo)是打造一個(gè)能夠自行發(fā)現(xiàn)和探索新知識(shí)的模型。”
Deep Research的推出是OpenAI官方工具中的第二個(gè),此前本月早些時(shí)候已推出了瀏覽器和光標(biāo)控制工具Operator。OpenAI Stargate Command任務(wù)對(duì)齊負(fù)責(zé)人Joshua Achiam在X上寫(xiě)道,這兩個(gè)模型都有助于更好地定義“AI工具”的概念——這是一個(gè)當(dāng)前在企業(yè)中流行但模糊不清的術(shù)語(yǔ)——其意義遠(yuǎn)超公司或這些特定用例。
“我覺(jué)得‘工具’這個(gè)詞在沙漠里徘徊了一段時(shí)間,”Achiam寫(xiě)道,“它沒(méi)有基礎(chǔ)或示例可以指向,但Operator或Deep Research等工具為這個(gè)概念賦予了一定的形態(tài)。一個(gè)工具是一個(gè)GenAI,它為你執(zhí)行一個(gè)或多個(gè)使用工具的工作流?!?/p>
OpenAI的Deep Research在“人類(lèi)最后一場(chǎng)考試”AI基準(zhǔn)測(cè)試中取得新最高分
Deep Research在準(zhǔn)確性和推理方面樹(shù)立了新的基準(zhǔn)。
OpenAI研究團(tuán)隊(duì)成員Isa Fulford在YouTube直播中分享稱(chēng),該模型在“人類(lèi)最后一場(chǎng)考試”中取得了“26.6%準(zhǔn)確率的新高”?!叭祟?lèi)最后一場(chǎng)考試”是一個(gè)相對(duì)較新的AI基準(zhǔn)測(cè)試,旨在成為任何AI模型(或人類(lèi))最難完成的測(cè)試,涵蓋100個(gè)不同領(lǐng)域的3000個(gè)問(wèn)題,如翻譯考古發(fā)現(xiàn)上的古代銘文。
此外,其瀏覽網(wǎng)頁(yè)、動(dòng)態(tài)推理和精確引用來(lái)源的能力使其區(qū)別于早期的AI工具。
“該模型是在困難的瀏覽和推理任務(wù)上通過(guò)端到端的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的,”Fulford說(shuō),“它學(xué)會(huì)了規(guī)劃和執(zhí)行多步驟軌跡,對(duì)實(shí)時(shí)信息做出反應(yīng),并在必要時(shí)回溯?!?/p>
Deep Research的一個(gè)突出特點(diǎn)是其處理任務(wù)的能力,這些任務(wù)否則可能需要人類(lèi)花費(fèi)數(shù)小時(shí)甚至數(shù)天的時(shí)間。
在宣布時(shí),Chen解釋說(shuō),“Deep Research生成的輸出類(lèi)似于一篇全面、充分引用的研究論文——這是該領(lǐng)域的分析師或?qū)<铱赡軙?huì)產(chǎn)出的內(nèi)容?!?/p>
應(yīng)用場(chǎng)景和用例
Deep Research的應(yīng)用場(chǎng)景既多樣又具有影響力。
OpenAI的官方X賬號(hào)發(fā)布稱(chēng),它是“為在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識(shí)工作并需要徹底和可靠研究的人員而構(gòu)建的?!?/p>
根據(jù)OpenAI在其官方Deep Research宣布博客文章(其中包括對(duì)某人購(gòu)買(mǎi)的最佳滑雪板的詳細(xì)研究評(píng)估)中分享的示例,對(duì)于尋求個(gè)性化推薦或進(jìn)行詳細(xì)產(chǎn)品研究的消費(fèi)者來(lái)說(shuō),它也顯得很有價(jià)值。
Altman總結(jié)了該工具的多樣性,他寫(xiě)道:“在你最難的工作任務(wù)上試試它,這些任務(wù)只需通過(guò)互聯(lián)網(wǎng)就能解決,看看會(huì)發(fā)生什么?!?/p>
Deep Research的個(gè)人醫(yī)療成功案例
OpenAI政府市場(chǎng)拓展負(fù)責(zé)人Felipe Millon分享了一個(gè)關(guān)于Deep Research如何影響他家庭的深刻個(gè)人經(jīng)歷。他在X上的一系列帖子中寫(xiě)道,他的妻子與雙側(cè)乳腺癌抗?fàn)?,而這款A(yù)I工具成為了他們意想不到的盟友。
“10月底,我的妻子被診斷出患有雙側(cè)乳腺癌,”Millon寫(xiě)道,“一夜之間,我們的世界天翻地覆。”
在經(jīng)過(guò)雙乳切除術(shù)和化療后,這對(duì)夫婦面臨了一個(gè)關(guān)鍵決定:是否進(jìn)行放射治療。情況充滿了不確定性,因?yàn)榧词顾麄兊膶?zhuān)家也給出了不同的建議?!皩?duì)于她的具體情況,完全處于灰色地帶,”Millon解釋說(shuō),“我們感到束手無(wú)策?!?/p>
由于提前獲得了Deep Research的預(yù)覽訪問(wèn)權(quán)限,Millon決定上傳妻子的手術(shù)病理報(bào)告,并詢問(wèn)放射治療是否會(huì)有益。他寫(xiě)道,“接下來(lái)發(fā)生的事情令人震驚。它不僅確認(rèn)了我們腫瘤學(xué)家提到的內(nèi)容——而且更深入。它引用了我從未聽(tīng)說(shuō)過(guò)的研究,并在我們補(bǔ)充了她的年齡和遺傳因素等細(xì)節(jié)后進(jìn)行了調(diào)整。”
他使用的具體提示是:
“閱讀附帶的手術(shù)病理報(bào)告,其中包含關(guān)于雙側(cè)乳腺癌的信息。然后研究[判斷]對(duì)于該患者在6輪TCHP化療后,根據(jù)其乳腺癌類(lèi)型,是否建議進(jìn)行放射治療。我想了解該患者進(jìn)行放射治療的利弊,它降低復(fù)發(fā)可能性的概率,以及益處是否大于潛在的長(zhǎng)期風(fēng)險(xiǎn)?!?/p>
Millon和他的妻子核實(shí)了模型引用的每一項(xiàng)研究,發(fā)現(xiàn)它們準(zhǔn)確且高度相關(guān)?!拔覀兒芸炀鸵タ戳硪晃粚?zhuān)家了,但我們已經(jīng)對(duì)自己的決定更有信心了,”他寫(xiě)道,“它在我們最需要的時(shí)候給了我們安心。”
可用性和下一步計(jì)劃?
Deep Research目前可供ChatGPT Pro用戶使用,計(jì)劃擴(kuò)展到Plus和Team層級(jí),隨后是Enterprise和教育市場(chǎng)。
正如Chen所警告的,“它仍然有可能產(chǎn)生幻覺(jué),所以當(dāng)你制作報(bào)告時(shí),一定要自己檢查來(lái)源?!?/p>
該模型長(zhǎng)時(shí)間自主思考的能力也使其資源密集,OpenAI目前正在努力優(yōu)化其性能,以提高可訪問(wèn)性。
OpenAI還暗示了未來(lái)將與自定義數(shù)據(jù)集進(jìn)行集成,這將使企業(yè)能夠利用該工具進(jìn)行專(zhuān)有研究。
對(duì)于Millon來(lái)說(shuō),Deep Research的影響已經(jīng)顯而易見(jiàn)?!拔覀兘?jīng)常在OpenAI內(nèi)部談?wù)撃切┳屇恪惺艿紸GI’的時(shí)刻,而這就是其中之一,”他寫(xiě)道,“這個(gè)東西將改變世界?!?/p>