5分鐘頂人類(lèi)8小時(shí)!OpenAI Deep Research訂閱全推送,端到端強(qiáng)化微調(diào)是關(guān)鍵
Deep Research(深度研究)是繼「Operator」之后,OpenAI推出的第二個(gè)智能體,利用模型的推理能力,綜合分析浩瀚的互聯(lián)網(wǎng)信息,從而完成復(fù)雜的研究任務(wù)。
月初,OpenAI首先向ChatGPT Pro用戶開(kāi)放了Deep Research功能。最近,進(jìn)一步開(kāi)放給了更多等級(jí)的訂閱用戶。
其中,Plus、Team、教育和企業(yè)用戶每月10次查詢機(jī)會(huì),Pro用戶每月120次機(jī)會(huì)。
OpenAI對(duì)新功能寄予厚望:
它能在幾分鐘內(nèi)完成人類(lèi)需要數(shù)小時(shí)才能完成的工作。
綜合知識(shí)的能力是創(chuàng)造新知識(shí)的先決條件。
因此,深度研究標(biāo)志著我們?cè)陂_(kāi)發(fā)AGI(通用人工智能)這一更廣泛目標(biāo)上邁出了重要一步。
長(zhǎng)期以來(lái),我們一直設(shè)想AGI能夠進(jìn)行創(chuàng)新性科學(xué)研究。
奧特曼表示:這是他最喜歡的已發(fā)布的功能之一。
此次更新,固然給用戶帶來(lái)了新體驗(yàn),「錢(qián)沒(méi)白花」。
但考慮到每月最多使用10次,新功能顯得「雞肋」:
考慮到同一梯隊(duì)的競(jìng)爭(zhēng)對(duì)手,不僅類(lèi)似功能推出的更早,而且免費(fèi),OpenAI這次發(fā)布,的確算不上出彩。
那這次OpenAI都推出哪些新特性?為什么這次落后競(jìng)爭(zhēng)對(duì)手了呢?
技術(shù)報(bào)告發(fā)布
在X上,OpenAI連發(fā)多條消息,介紹深度研究相關(guān)更新情況。
除更多用戶可用之外,本次更新的主要改進(jìn)為:
在輸出中嵌入帶引用的圖片
更好理解和參閱上傳的文件
然后,其他改進(jìn)呢?無(wú)。
至于,沒(méi)什么落后競(jìng)爭(zhēng)對(duì)手,OpenAI給出的解釋是為了控制風(fēng)險(xiǎn),保證安全:
在推出深度研究并將其提供給Pro用戶之前,我們進(jìn)行了嚴(yán)格的安全性測(cè)試、準(zhǔn)備評(píng)估和治理審查。
我們還進(jìn)行了額外的安全性測(cè)試,以更好地了解與深度研究瀏覽網(wǎng)頁(yè)能力相關(guān)的逐步風(fēng)險(xiǎn),并添加了新的緩解措施。重點(diǎn)工作包括加強(qiáng)對(duì)在線發(fā)布的個(gè)人信息的隱私保護(hù),并訓(xùn)練模型抵抗在互聯(lián)網(wǎng)搜索過(guò)程中,可能遇到的惡意指令。
在廣泛發(fā)布深度研究之前,我們花時(shí)間進(jìn)行了更多的人工探測(cè)和自動(dòng)化測(cè)試,以評(píng)估特定風(fēng)險(xiǎn)。
在官網(wǎng)發(fā)布的系統(tǒng)卡(System card),OpenAI從提示注入、禁止內(nèi)容、隱私、運(yùn)行代碼能力、偏見(jiàn)和幻覺(jué)等方面,全面測(cè)試、評(píng)估并緩解了系統(tǒng)安全問(wèn)題。
OpenAI展示了一系列測(cè)試結(jié)果,最后認(rèn)為
總體上,深度研究在準(zhǔn)備框架(Preparedness Framework)中被歸類(lèi)為中等風(fēng)險(xiǎn),并且已采取相應(yīng)的保障措施和安全緩解措施,為這個(gè)模型做好了準(zhǔn)備。
值得關(guān)注的是,在模型自主性方面,在處理更長(zhǎng)時(shí)間跨度和智能體任務(wù)時(shí),深度研究性能有所改進(jìn),尤其是在模型自主性風(fēng)險(xiǎn)相關(guān)的任務(wù)中。
比如,在SWE-Bench Verified評(píng)測(cè)中,深度研究展現(xiàn)了執(zhí)行明確定義的編程任務(wù)的能力,被評(píng)定為中等風(fēng)險(xiǎn)水平。
已有網(wǎng)友給出了全面的總結(jié):
更多安全測(cè)試結(jié)果與分析,參閱OpenAI官方系統(tǒng)卡:
文檔鏈接:https://cdn.openai.com/deep-research-system-card.pdf
尷尬之處在于,已免費(fèi)推出相關(guān)功能的Grok-3,以安全性著稱。
紅杉采訪亮點(diǎn)
紅杉資本合伙人Sonya和Lauren,與OpenAI Deep Research的產(chǎn)品負(fù)責(zé)人Isa和Josh展開(kāi)了深度對(duì)話。
當(dāng)問(wèn)及2025年的風(fēng)口時(shí),Isa和Josh不約而同地回答:「智能體」。
Deep Research是OpenAI在「Operator」之后推出的第二個(gè)智能體。通過(guò)端到端的強(qiáng)化學(xué)習(xí)訓(xùn)練,Deep Research能像經(jīng)驗(yàn)豐富的研究員一樣,查資料、思考并完成全面的報(bào)告。
這不僅是節(jié)省5%時(shí)間,而是將原本需要8小時(shí)的任務(wù)縮減到5分鐘!
Deep Research無(wú)法為你完成一切,但它能為你節(jié)省幾個(gè)小時(shí),甚至是幾天。
Isa表示:「我確信它會(huì)成為人們生活中不可或缺的一部分?!?/span>
從行業(yè)分析到醫(yī)學(xué)研究,再到計(jì)劃生日派對(duì),Deep Research幾乎無(wú)所不能。
Deep Research不是普通的搜索工具,它能廣泛收集有關(guān)來(lái)源的信息,擅長(zhǎng)在互聯(lián)網(wǎng)上找到小眾的事實(shí),并整合到一個(gè)漂亮、整潔的報(bào)告中,嵌入圖表,并附上指向原始信息的引用。
當(dāng)你想尋找特定的信息,并需要搜尋大量資料時(shí),它才能發(fā)揮出最佳水平。它很擅長(zhǎng)尋找和綜合信息,但I(xiàn)sa不認(rèn)為Deep Research當(dāng)前能做出新的科學(xué)發(fā)現(xiàn)。
應(yīng)用場(chǎng)景
Deep Research常被應(yīng)用于科學(xué)研究、醫(yī)學(xué)研究等領(lǐng)域。人們用它來(lái)了解市場(chǎng)、公司和房地產(chǎn)等。
Isa的朋友正考慮創(chuàng)辦一家消費(fèi)品公司,會(huì)用它來(lái)做競(jìng)品調(diào)研,查看特定域名是否被占用,以及估算市場(chǎng)規(guī)模。
出人意料的是,用戶會(huì)用Deep Research搜索代碼,查找關(guān)于某個(gè)軟件包的最新文檔,并幫他們編寫(xiě)腳本。
Deep Research不僅能用于工作,在購(gòu)物和旅行建議上也很有用。比如想買(mǎi)一輛新車(chē)時(shí),可以請(qǐng)它整理一份報(bào)告。在日本發(fā)布Deep Research功能時(shí),它可以用來(lái)幫忙尋找餐廳。
個(gè)性化教育也是非常有趣的場(chǎng)景,如果想復(fù)習(xí)生物學(xué)知識(shí),它會(huì)是個(gè)好幫手。
輸入想了解的信息,它會(huì)為你整理出一份很棒的報(bào)告。
技術(shù)架構(gòu)
驅(qū)動(dòng)Deep Research的是o3模型的微調(diào)版本,o3是OpenAI最先進(jìn)的推理模型。
模型針對(duì)困難的搜索和推理任務(wù)進(jìn)行了訓(xùn)練,可以調(diào)用瀏覽工具和Python工具。通過(guò)在這些任務(wù)上進(jìn)行端到端訓(xùn)練,模型學(xué)會(huì)了在線搜索和分析。
Deep Research最大的創(chuàng)新在于「端到端訓(xùn)練」。研究的過(guò)程中,很多事是無(wú)法預(yù)測(cè)的。Isa認(rèn)為沒(méi)有腳本能像訓(xùn)練出的模型那樣靈活,能對(duì)實(shí)時(shí)的信息做出反應(yīng)。
Deep Research在做有創(chuàng)造性的搜索,查看思維鏈總結(jié)會(huì)發(fā)現(xiàn),它在想出下一個(gè)要查找的內(nèi)容方面非常聰明。
Josh表示「我們經(jīng)常誤以為自己寫(xiě)代碼會(huì)比模型更聰明,但實(shí)際上,模型通常會(huì)提出更好的解決方案?!?/span>
強(qiáng)化學(xué)習(xí)微調(diào)很可能是構(gòu)建強(qiáng)大智能體的關(guān)鍵!
Yann LeCun有個(gè)「蛋糕比喻」,無(wú)監(jiān)督學(xué)習(xí)是蛋糕,監(jiān)督學(xué)習(xí)是糖霜,強(qiáng)化學(xué)習(xí)是頂部的櫻桃。
成功的秘訣是構(gòu)建高質(zhì)量的數(shù)據(jù)集,數(shù)據(jù)質(zhì)量是決定模型質(zhì)量的最大因素。
Josh認(rèn)為「AGI」目前只是運(yùn)營(yíng)問(wèn)題。