OpenAI緊急直播,ChatGPT瘋狂開掛「深度研究」!10分鐘爆肝萬(wàn)字現(xiàn)AGI雛形,刷榜人類最后考試
一大早,OpenAI開啟的在線直播,簡(jiǎn)直讓人猝不及防。
OpenAI研究負(fù)責(zé)人Mark Chen帶領(lǐng)三位工作人員,在20多分鐘內(nèi)向我們?cè)敿?xì)演示了Deep Research的功能。
最大亮點(diǎn)之一:只要數(shù)十分鐘,它就能完成人類專家花費(fèi)幾小時(shí)的復(fù)雜調(diào)研任務(wù)!
Mark Chen將之稱為「我們的下一代智能體產(chǎn)品」。
去年,OpenAI就推出了o1,但這些推理模型的一個(gè)限制,是它們無(wú)法使用工具,因?yàn)槿鄙倭藶g覽互聯(lián)網(wǎng)這個(gè)核心能力,
因此,現(xiàn)在OpenAI宣布了一個(gè)重大步驟:引入Deep Research!
奧特曼激動(dòng)地表示,這就像是擁有一種超能力,可以隨時(shí)調(diào)用專家!
它能夠使用互聯(lián)網(wǎng)進(jìn)行復(fù)雜的研究和推理,并為你提供詳細(xì)報(bào)告。它非常強(qiáng)大,能夠完成那些通常需要數(shù)小時(shí)、數(shù)天,且花費(fèi)數(shù)百美元的任務(wù)。
需要強(qiáng)調(diào)的是,Deep Research是基于優(yōu)化版o3打造——一個(gè)可以瀏覽網(wǎng)頁(yè)和執(zhí)行python代碼的o3。
這是一個(gè)可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究的模型,它能發(fā)現(xiàn)、綜合內(nèi)容,并對(duì)之進(jìn)行推理。甚至隨著發(fā)現(xiàn)更多信息,它還會(huì)調(diào)整自己的計(jì)劃。
也就是說(shuō),Deep Research的一大特點(diǎn),就是消除了模型中的延遲限制,它返回結(jié)果可能需要五分鐘,甚至長(zhǎng)達(dá)半小時(shí)。
模型能在無(wú)人監(jiān)督的情況下,以更長(zhǎng)時(shí)間執(zhí)行自主任務(wù),這儼然就是AGI的雛形。最終,OpenAI的愿景是:模型能自主發(fā)現(xiàn)和發(fā)掘新知識(shí)。
OpenAI研究員表示,「使用Deep Research對(duì)我來(lái)說(shuō)真的是一次個(gè)人的AGI時(shí)刻。只要10分鐘,它就能生成準(zhǔn)確又全面的競(jìng)爭(zhēng)對(duì)手和市場(chǎng)研究報(bào)告(還有來(lái)源),以前這些東西我得花3個(gè)小時(shí)才能做完」。
現(xiàn)在,Deep Research會(huì)自己上網(wǎng),然后給你一份全面、引用翔實(shí)的研究論文!也就是說(shuō),它已經(jīng)妥妥達(dá)到了某領(lǐng)域研究專家的級(jí)別。
奧特曼還特意發(fā)文表示,這還不是o3-mini的「One More Thing」,這個(gè)小彩蛋過(guò)幾天公布。
今天,Deep Research就將在Pro中推出了(每月100次查詢),之后還會(huì)很快在Plus、Team、Education和Enterprise版本中上線。
幫PM完成深度市場(chǎng)調(diào)查報(bào)告
從一個(gè)按鈕「Deep Research」開始,就可以和Deep Research聊天了。
OpenAI研究者演示說(shuō),自己一直在思考的就是,是否該開發(fā)一款新的語(yǔ)言翻譯app呢?
這個(gè)市場(chǎng)調(diào)研,就可以交給Deep Research——
「幫我找到ios和Android的采用率,想要學(xué)習(xí)另一種語(yǔ)言的人的百分比,過(guò)去幾年移動(dòng)普及率的變化,以及發(fā)達(dá)國(guó)家和發(fā)展中國(guó)家的差異。」
研究者明確表示,希望自己想要的信息以格式化的報(bào)告呈現(xiàn),其中要包含表格和明確建議,說(shuō)明哪些是最佳的新興機(jī)會(huì)。
這個(gè)市場(chǎng)調(diào)查要求,可著實(shí)不簡(jiǎn)單。如果是普通打工人來(lái)調(diào)研,最少也得花費(fèi)數(shù)小時(shí)。
但是Deep Research,立馬就啟動(dòng)了調(diào)查。
接下來(lái),研究者進(jìn)一步細(xì)化了自己的要求:給我滲透率的用戶百分比,分析總體使用情況,對(duì)其余部分進(jìn)行最好的假設(shè)。
在這里,Deep Research就開始發(fā)揮自己的長(zhǎng)處:自主啟動(dòng)研究過(guò)程。
在這個(gè)過(guò)程中,它會(huì)瀏覽不同網(wǎng)頁(yè),查看相關(guān)圖片、表格、PDF,提取所有信息,來(lái)確定下一步要做什么。
在OpenAI的演示結(jié)束時(shí),Deep Research仍然在進(jìn)行搜索和調(diào)研。此時(shí),它已經(jīng)查看了29個(gè)不同來(lái)源和大量信息。
可以看出,它的報(bào)告中已經(jīng)包含了不同的表格,以及多種呈現(xiàn)數(shù)據(jù)的形式。
而且,我們能夠點(diǎn)擊查看模型的每一個(gè)引用,以及它遇到的不同網(wǎng)站。
對(duì)于不同學(xué)術(shù)領(lǐng)域的市場(chǎng)研究,比如物理學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué),Deep Research都很擅長(zhǎng)。
OpenAI研究者還展示了一個(gè)財(cái)務(wù)研究的例子:「我是一個(gè)硅谷風(fēng)投公司的投資分析師,想分析民用超音速航空旅行市場(chǎng),準(zhǔn)備一份詳盡的投資備忘錄?!?/span>
在這個(gè)過(guò)程中,模型開展了7分鐘的研究,使用了12個(gè)不同來(lái)源,提供了一份全面的調(diào)查報(bào)告。
下面是一個(gè)生物學(xué)方面的例子。
研究者上傳了一篇論文,想找到關(guān)于同一主題的其他論文。
最終Deep Research給出的結(jié)果,得到了生物學(xué)專家的認(rèn)可。
有趣的東西:買買買
而且,Deep Research能做的絕不僅僅是嚴(yán)肅的學(xué)術(shù)調(diào)查報(bào)告,它還可以幫你完成很多有趣、好玩的調(diào)查,比如——我該買什么?
如果我們要入手一件很貴的東西,肯定不敢貿(mào)然下單,而是提前在網(wǎng)上細(xì)細(xì)研讀每一頁(yè)說(shuō)明和買家評(píng)論。
比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報(bào)告。
在這個(gè)過(guò)程中,我們可以細(xì)化要求:高級(jí)滑雪者,有時(shí)雪是粉狀的,自己身高很高所以需要長(zhǎng)滑雪板,而且顏色要很漂亮。
最終,Deep Research給出了長(zhǎng)篇的報(bào)告,還對(duì)理想的滑雪板做了詳細(xì)列表。
也就是說(shuō),如果你想要的答案非常具體,那么Deep Research就會(huì)非常有效。
甚至,我們可以用Deep Research找出10年前在東京去過(guò)的餐廳的名字,或者找到我們忘記名字、但記得其中某集內(nèi)容的電視劇。
除了描述情節(jié)之外,其余的信息就是這是5到10年前的電視劇了。
結(jié)果,Deep Research居然找出了正確答案!
優(yōu)化版o3加持,AGI又近一步
去年12月,谷歌最先放出了研究智能體Deep Research。
OpenAI同款Deep Research,也是智能體的一種,能夠針對(duì)復(fù)雜任務(wù)上網(wǎng)進(jìn)行多步研究。
它能在幾十分鐘內(nèi),完成人類需要數(shù)小時(shí)才能完成的工作。
只需一個(gè)提示,ChatGPT即可查找、分析和綜合數(shù)百個(gè)在線資源,創(chuàng)建一份「研究分析師級(jí)」的綜合報(bào)告。
值得一提的是,Deep Research由即將推出的o3模型的「優(yōu)化版本」加持。
OpenAI通過(guò)端到端強(qiáng)化學(xué)習(xí),對(duì)它的深度瀏覽和推理任務(wù)進(jìn)行了訓(xùn)練。
該版本專門用于網(wǎng)頁(yè)瀏覽和數(shù)據(jù)分析,它利用推理能力來(lái)搜索、解釋和分析互聯(lián)網(wǎng)上大量的文本、圖像和PDF,并根據(jù)遇到的信息隨時(shí)調(diào)整方向。
要知道,「綜合知識(shí)」的能力,是創(chuàng)造新知識(shí)的先決條件。
因此,Deep Research的推出,標(biāo)志著OpenAI向更廣泛的目標(biāo)——開發(fā)AGI邁出了重要一步。
OpenAI研究科學(xué)家Hyung Won Chung對(duì)此表示:
Deep Research的一個(gè)顯著特點(diǎn)就是它極強(qiáng)的耐心。我認(rèn)為它已經(jīng)接近了「超人類耐心」。在這個(gè)項(xiàng)目的過(guò)程中,我意識(shí)到智力和耐心是非常契合的。
就像推理模型o1一樣,Deep Research是通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)行學(xué)習(xí)的。它學(xué)習(xí)如何搜索相關(guān)信息,并通過(guò)推理整合知識(shí)。當(dāng)scale遇上RL時(shí),魔力就會(huì)產(chǎn)生。
畢竟,OpenAI一直設(shè)想,真正的AGI是能夠自己產(chǎn)出新穎的科學(xué)研究。
幾天前的Reddit在線問(wèn)答中,奧特曼也發(fā)表了同樣的觀點(diǎn)。
在我看來(lái),最重要的影響將是加速科學(xué)發(fā)現(xiàn)的速度,我認(rèn)為這是對(duì)提高生活質(zhì)量貢獻(xiàn)最大的因素。
一個(gè)提示,即出一份專業(yè)報(bào)告
那么,Deep Research究竟能做什么?
據(jù)OpenAI介紹,它是專為那些在金融、科學(xué)、政策和工程等領(lǐng)域從事密集知識(shí)工作,需要全面、精確和可靠研究的人們而打造的。
對(duì)于那些「買買買」購(gòu)物狂來(lái)說(shuō),Deep Research還能為你所需研究的購(gòu)買項(xiàng)目,比如汽車、家電、家具等,提供高度的個(gè)性化建議。
而且,每個(gè)輸出都有完整的文檔記錄,包含清晰的引用和思維過(guò)程總結(jié),方便隨后參考和驗(yàn)證。
尤其是,它特別擅長(zhǎng)發(fā)現(xiàn)需要瀏覽眾多網(wǎng)站才能獲取的小眾、非直觀信息。
只需查詢一次,Deep Research就能get要點(diǎn),加快復(fù)雜、耗時(shí)的網(wǎng)絡(luò)研究,節(jié)省了大量寶貴的時(shí)間。
此外,Deep Research能夠獨(dú)立發(fā)現(xiàn)、推理并整合來(lái)自網(wǎng)絡(luò)各種見(jiàn)解。
在技術(shù)層面上,它采用了與o1相同的強(qiáng)化學(xué)習(xí)方法,并進(jìn)行了重要的升級(jí)。
它在真實(shí)世界任務(wù)中進(jìn)行了訓(xùn)練,整合了瀏覽器的操作能力,強(qiáng)化了Python工具使用。
雖然o1在編碼、數(shù)學(xué)和其他技術(shù)領(lǐng)域展示了令人印象深刻的能力,但許多現(xiàn)實(shí)世界的挑戰(zhàn)需要從不同在線來(lái)源獲取大量背景和信息。
Deep Research在這些推理能力的基礎(chǔ)上彌補(bǔ)了這一差距,使其能夠處理人們?cè)诠ぷ骱腿粘I钪忻媾R的各類問(wèn)題。
最快5分鐘,圖像數(shù)據(jù)可視化要來(lái)
進(jìn)入ChatGPT,可以再聊天對(duì)話框中選擇「Deep Research」,直接輸入提示即可。
不論是對(duì)流媒體平臺(tái)的競(jìng)爭(zhēng)分析,還是關(guān)于最佳通勤自行車的個(gè)性化報(bào)告,ChatGPT全能hold住。
甚至,你還可以上傳文件、電子表格,提供與問(wèn)題更多相關(guān)的背景信息。
一旦開啟對(duì)話,側(cè)邊欄會(huì)顯示所采取步驟和信息來(lái)源的摘要。
一般來(lái)說(shuō),Deep Research需要5-30分鐘完成一份研究,具體實(shí)踐取決于深入網(wǎng)絡(luò)研究所需的時(shí)間。
在此期間,你完全可以去干別的事,ChatGPT完成研究后會(huì)主動(dòng)向你發(fā)送通知,最終的輸出將以報(bào)告形式展現(xiàn)在聊天中。
更驚喜的是,未來(lái)幾周,OpenAI還將在這些報(bào)告中添加嵌入式圖像、數(shù)據(jù)可視化和其他分析輸出,提供更多清晰度和背景信息。
與Deep Research相比,GPT-4o更適合實(shí)時(shí)的多模態(tài)對(duì)話。
對(duì)于需要深入和細(xì)節(jié)的多維度、專業(yè)領(lǐng)域的問(wèn)題,Deep Research能夠進(jìn)行廣泛探索并為每個(gè)論點(diǎn)提供引用來(lái)源。
這種能力使其有別于簡(jiǎn)單的快速總結(jié),而是能夠提供經(jīng)過(guò)充分論證和驗(yàn)證的專業(yè)答案,這些答案的質(zhì)量足以作為正式的工作成果使用。
比如,你想要統(tǒng)計(jì)過(guò)去10年內(nèi),按GDP排名的前10個(gè)發(fā)達(dá)國(guó)家和前10個(gè)發(fā)展中國(guó)家的以下數(shù)據(jù):iOS和安卓系統(tǒng)的使用率、想學(xué)習(xí)另一門語(yǔ)言的人口比例、移動(dòng)設(shè)備普及率的變化。
GPT-4o僅僅是幫你列了出來(lái),而Deep Research更像是一個(gè)報(bào)告,甚至給出了完整的可視化表格。
端到端強(qiáng)化學(xué)習(xí),與o1同源
Deep Research是如何運(yùn)作的?
它通過(guò)在各個(gè)領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上,進(jìn)行端到端強(qiáng)化學(xué)習(xí)訓(xùn)練而成。
通過(guò)這種訓(xùn)練,它學(xué)會(huì)了規(guī)劃和執(zhí)行多步驟路徑,找到所需數(shù)據(jù),必要時(shí)可以回溯并對(duì)實(shí)時(shí)信息做出反應(yīng)。
該模型還能夠?yàn)g覽用戶上傳的文件,使用Python工具繪制和迭代圖表,在回答中嵌入生成的圖表和網(wǎng)站圖片,并引用其來(lái)源中的具體句子或段落。
通過(guò)這種訓(xùn)練,它在多個(gè)關(guān)注現(xiàn)實(shí)世界問(wèn)題的公開評(píng)估中刷新SOTA。
人類最后一場(chǎng)考試,得分26.6%刷爆了
全網(wǎng)爆火的「人類最后一次考試」中,Deep Research取得了26.6%準(zhǔn)確率破紀(jì)錄。
奧特曼驕傲地表示,早在周五,「人類最后一場(chǎng)考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經(jīng)達(dá)到了26.6%。
要知道這項(xiàng)測(cè)試包含了超3,000道「專家級(jí)」多選題和簡(jiǎn)答題,涵蓋從語(yǔ)言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個(gè)學(xué)科。
與o1相比,最大的進(jìn)步出現(xiàn)在化學(xué)、人文社會(huì)科學(xué)和數(shù)學(xué)領(lǐng)域。
驅(qū)動(dòng)Deep Research的模型通過(guò)在必要時(shí)有效尋找專業(yè)信息,展現(xiàn)出類人的解決方案。
GAIA
在GAIA測(cè)試中,這是一個(gè)評(píng)估AI解決現(xiàn)實(shí)世界問(wèn)題能力的公開基準(zhǔn)測(cè)試。
驅(qū)動(dòng)Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。
這些測(cè)試包含三個(gè)難度等級(jí)的問(wèn)題,成功完成這些任務(wù)需要具備推理能力、多模態(tài)流暢性、網(wǎng)頁(yè)瀏覽和工具使用等多項(xiàng)技能。
下面是一級(jí)和三級(jí)任務(wù)的對(duì)比區(qū)別。
專家級(jí)任務(wù)
另外,在對(duì)各個(gè)領(lǐng)域?qū)<壹?jí)任務(wù)的內(nèi)部評(píng)估中,Deep Research能夠自動(dòng)化完成,需要多個(gè)小時(shí)的復(fù)雜人工調(diào)查工作。
下圖為專家級(jí)任務(wù)與最大工具調(diào)用次數(shù)的對(duì)比,顯示出了模型花更多時(shí)間思考和瀏覽時(shí),性能就會(huì)更強(qiáng)。
這跟OpenAI的理念相吻合:在未來(lái)世界里,智能體將花費(fèi)越來(lái)越長(zhǎng)的時(shí)間,完成越來(lái)越困難的任務(wù)。
下面這個(gè)案例中,Deep Research進(jìn)行的化學(xué)研究,節(jié)省了大約4小時(shí)的時(shí)間。
語(yǔ)言學(xué)方面,更是節(jié)省了5個(gè)小時(shí)。
以下兩個(gè)圖表可以證實(shí)這一事實(shí)。其中,上圖為不同估算經(jīng)濟(jì)價(jià)值范圍的通過(guò)率,下圖為完成不同任務(wù)所需時(shí)間范圍的通過(guò)率。
所謂通過(guò)率,即模型在專家級(jí)任務(wù)中提供滿意答案的比率,答案由專家評(píng)定。
從圖表中可以看出,通過(guò)率與估算經(jīng)濟(jì)價(jià)值的相關(guān)性,比估計(jì)小時(shí)數(shù)的相關(guān)性更高,也就是說(shuō),模型發(fā)現(xiàn)困難的事,也是對(duì)人類來(lái)說(shuō)更耗時(shí)的事。
局限性
Deep Research仍處于早期階段,同樣存在一些限制。
根據(jù)內(nèi)部評(píng)估,它有時(shí)會(huì)在回答中產(chǎn)生虛構(gòu)的事實(shí)或做出錯(cuò)誤的推斷,不過(guò),頻率明顯低于現(xiàn)有的ChatGPT模型。
它可能難以區(qū)分權(quán)威信息和謠言,目前在置信度校準(zhǔn)方面表現(xiàn)較弱,往往無(wú)法準(zhǔn)確傳達(dá)不確定性。
在發(fā)布時(shí),報(bào)告和引用可能存在微小的格式錯(cuò)誤,任務(wù)可能需要更長(zhǎng)時(shí)間才能開始。
OpenAI預(yù)計(jì)所有這些問(wèn)題都會(huì)隨著使用時(shí)間的增加而快速改善。
Pro用戶先上手,Plus一個(gè)月內(nèi)上線
OpenAI稱,Deep Research在ChatGPT中非常消耗計(jì)算資源。
研究查詢所需時(shí)間越長(zhǎng),所需的推理計(jì)算就越多。
目前,OpenAI開始向Pro用戶提供優(yōu)化版本,每月最多100次查詢。
接下來(lái),這項(xiàng)功能會(huì)逐漸向Plus和Team用戶(帶越一個(gè)月內(nèi)),以及Enterprise用戶推出。
未來(lái),所有付費(fèi)用戶都將獲得更高的使用配額。
屆時(shí),OpenAI將發(fā)布一個(gè)更快、更具成本效益的深度研究版本,它由更小的模型驅(qū)動(dòng),但仍能提供高質(zhì)量的結(jié)果。
下一步:Operator+Deep Research
ChatGPT的Deep Research功能現(xiàn)已在網(wǎng)頁(yè)版正式上線,并將在一個(gè)月內(nèi)推廣到移動(dòng)端和桌面端。
如前所述,目前,Deep Research可以訪問(wèn)實(shí)時(shí)互聯(lián)網(wǎng),獲取最新信息,并對(duì)上傳的文件進(jìn)行深入分析。
但,這僅僅是開始。
未來(lái),任何一個(gè)人將能夠接入更專業(yè)的數(shù)據(jù)源,比如學(xué)術(shù)期刊或企業(yè)內(nèi)部資源。
這種定制化的知識(shí)獲取能力,讓ChatGPT真正成為你的專屬智能助手。
最激動(dòng)人心的是,OpenAI正在醞釀一場(chǎng)更大的革命。
下一步,通過(guò)將Deep Research(負(fù)責(zé)異步網(wǎng)絡(luò)調(diào)查)與Operator(負(fù)責(zé)實(shí)際行動(dòng)執(zhí)行)相結(jié)合,ChatGPT將不再局限于信息處理,能夠?yàn)槊總€(gè)人執(zhí)行愈加復(fù)雜的任務(wù)。
這種突破性組合,將開創(chuàng)一個(gè)全新的AI個(gè)人助手時(shí)代。