OpenAI Deep Research已向所有付費用戶開放,系統(tǒng)卡發(fā)布
相信很多用戶已經(jīng)見識過或至少聽說過 Deep Research 的強大能力。
今天凌晨,OpenAI 宣布 Deep Research 已經(jīng)面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用戶推出(剛發(fā)布時僅有 Pro 用戶可用),同時,OpenAI 還發(fā)布了 Deep Research 系統(tǒng)卡。
此外,OpenAI 研究科學(xué)家 Noam Brown 還在 ?? 上透露:Deep Research 使用的基礎(chǔ)模型是 o3 正式版,而非 o3-mini。
Deep Research 是 OpenAI 本月初推出的強大智能體,其能使用推理來綜合大量在線信息并為用戶完成多步驟研究任務(wù),從而助力用戶進(jìn)行深入、復(fù)雜的信息查詢與分析。
在發(fā)布之后的這二十幾天里,OpenAI 還對 Deep Research 進(jìn)行了一些升級:
OpenAI 這次發(fā)布的 Deep Research 系統(tǒng)卡報告介紹了發(fā)布 Deep Research 之前開展的安全工作,包括外部紅隊、根據(jù)準(zhǔn)備度框架進(jìn)行的風(fēng)險評估,以及 OpenAI 為解決關(guān)鍵風(fēng)險領(lǐng)域而采取的緩解措施。這里我們簡單整理了這份報告的主要內(nèi)容。
地址:https://cdn.openai.com/deep-research-system-card.pdf
Deep Research 是一種新的智能體能力,可針對復(fù)雜任務(wù)在互聯(lián)網(wǎng)上進(jìn)行多步驟研究。Deep Research 模型基于為網(wǎng)頁瀏覽進(jìn)行了優(yōu)化的 OpenAI o3 早期版本。Deep Research 利用推理來搜索、解讀和分析互聯(lián)網(wǎng)上的大量文本、圖像和 PDF,并根據(jù)遇到的信息做出必要的調(diào)整。它還可以讀取用戶提供的文件,并通過編寫和執(zhí)行 Python 代碼來分析數(shù)據(jù)。
「我們相信 Deep Research 可以幫助人們應(yīng)對多種多樣的情形?!筄penAI 表示,「在發(fā)布 Deep Research 并將其提供給我們的 Pro 用戶之前,我們進(jìn)行了嚴(yán)格的安全測試、準(zhǔn)備度評估和治理審查。我們還進(jìn)行了額外的安全測試,以更好地了解與 Deep Research 瀏覽網(wǎng)頁的能力相關(guān)的增量風(fēng)險,并增加了新的緩解措施。新工作的關(guān)鍵領(lǐng)域包括加強對在線發(fā)布的個人信息的隱私保護(hù),以及訓(xùn)練模型以抵御在搜索互聯(lián)網(wǎng)時可能遇到的惡意指令?!?/span>
OpenAI 還提到,對 Deep Research 的測試也揭示了進(jìn)一步改進(jìn)測試方法的機(jī)會。在擴(kuò)大 Deep Research 的發(fā)布范圍之前,他們還將花時間對選定的風(fēng)險進(jìn)行進(jìn)一步的人工檢測和自動化測試。
本系統(tǒng)卡包含 OpenAI 如何構(gòu)建 Deep Research、了解其能力和風(fēng)險以及在發(fā)布前提高其安全性的更多詳細(xì)信息。
模型數(shù)據(jù)和訓(xùn)練
Deep Research 的訓(xùn)練數(shù)據(jù)是專門為研究用例創(chuàng)建的新瀏覽數(shù)據(jù)集。
該模型學(xué)習(xí)了核心的瀏覽功能(搜索、單擊、滾動、解讀文件)、如何在沙盒環(huán)境中使用 Python 工具(用于執(zhí)行計算、進(jìn)行數(shù)據(jù)分析和繪制圖表),以及如何通過對這些瀏覽任務(wù)進(jìn)行強化學(xué)習(xí)訓(xùn)練來推理和綜合大量網(wǎng)站以查找特定信息或撰寫綜合報告。
其訓(xùn)練數(shù)據(jù)集包含一系列任務(wù):從具有 ground truth 答案的客觀自動評分任務(wù),到帶有評分標(biāo)準(zhǔn)的更開放的任務(wù)。
在訓(xùn)練期間,評分過程使用的評分器是一個思維鏈模型,其會根據(jù) ground truth 答案或評分標(biāo)準(zhǔn)給出模型響應(yīng)的分?jǐn)?shù)。
該模型的訓(xùn)練還使用了 OpenAI o1 訓(xùn)練用過的現(xiàn)有安全數(shù)據(jù)集,以及為 Deep Research 創(chuàng)建的一些新的、特定于瀏覽的安全數(shù)據(jù)集。
風(fēng)險識別、評估和緩解
外部紅隊方法
OpenAI 與外部紅隊成員團(tuán)隊合作,評估了與 Deep Research 能力相關(guān)的關(guān)鍵風(fēng)險。
外部紅隊專注的風(fēng)險領(lǐng)域包括個人信息和隱私、不允許的內(nèi)容、受監(jiān)管的建議、危險建議和風(fēng)險建議。OpenAI 還要求紅隊成員測試更通用的方法來規(guī)避模型的安全措施,包括提示詞注入和越獄。
紅隊成員能夠通過有針對性的越獄和對抗策略(例如角色扮演、委婉表達(dá)、使用黑客語言、莫爾斯電碼和故意拼寫錯誤等輸入混淆)來規(guī)避他們測試的類別的一些拒絕行為,并且根據(jù)這些數(shù)據(jù)構(gòu)建的評估將 Deep Research 的性能與之前部署的模型進(jìn)行比較。
評估方法
Deep Research 擴(kuò)展了推理模型的能力,使模型能夠收集和推理來自各種來源的信息。Deep Research 可以綜合知識并通過引用提出新的見解。為了評估這些能力,需要調(diào)整已有的一些評估方法,以解釋更長、更微妙的答案 —— 而這些答案往往更難以大規(guī)模評判。
OpenAI 使用其標(biāo)準(zhǔn)的不允許內(nèi)容和安全評估對 Deep Research 模型進(jìn)行了評估。他們還為個人信息和隱私以及不允許的內(nèi)容等領(lǐng)域開發(fā)了新的評估。最后,對于準(zhǔn)備度評估,他們使用了自定義支架來引出模型的相關(guān)能力。
ChatGPT 中的 Deep Research 還使用了另一個自定義提示的 OpenAI o3-mini 模型來總結(jié)思維鏈。以類似的方法,OpenAI 也根據(jù)其標(biāo)準(zhǔn)的不允許內(nèi)容和安全評估對總結(jié)器模型進(jìn)行了評估。
觀察到的安全挑戰(zhàn)、評估和緩解措施
下表給出了風(fēng)險和相應(yīng)的緩解措施;每個風(fēng)險的具體評估和結(jié)果請參閱原報告。
準(zhǔn)備度框架評估
準(zhǔn)備度框架是一個動態(tài)文檔,其中描述了 OpenAI 跟蹤、評估、預(yù)測和防范來自前沿模型的災(zāi)難性風(fēng)險的方式。
該評估目前涵蓋四個風(fēng)險類別:網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射、核)、說服和模型自主性。
只有緩解后(post-mitigation)得分為「中」或以下的模型才能部署,只有緩解后得分為「高」或以下的模型才能進(jìn)一步開發(fā)。OpenAI 根據(jù)準(zhǔn)備度框架對 Deep Research 進(jìn)行了評估。
準(zhǔn)備度框架詳情請訪問:https://cdn.openai.com/openai-preparedness-framework-beta.pdf
下面更具體地看看對 Deep Research 的準(zhǔn)備度評估。Deep Research 基于針對網(wǎng)頁瀏覽進(jìn)行了優(yōu)化的 OpenAI o3 早期版本。為了更好地衡量和引出 Deep Research 的能力,OpenAI 對以下模型進(jìn)行了評估:
- Deep Research(緩解前),一種僅用于研究目的的 Deep Research 模型(未在產(chǎn)品中發(fā)布),其后訓(xùn)練程序與 OpenAI 已發(fā)布的模型不同,并不包括公開發(fā)布的模型中的額外安全訓(xùn)練。
- Deep Research(緩解后),最終發(fā)布的 Deep Research 模型,包括發(fā)布所需的安全訓(xùn)練。
對于 Deep Research 模型,OpenAI 測試了各種設(shè)置以評估最大能力引出(例如,有瀏覽與無瀏覽)。他們還根據(jù)需要修改了支架,以最好地衡量多項選擇題、長答案和智能體能力。
為了幫助評估每個跟蹤風(fēng)險類別中的風(fēng)險級別(低、中、高、嚴(yán)重),準(zhǔn)備團(tuán)隊使用「indicator」將實驗評估結(jié)果映射到潛在風(fēng)險級別。這些 indicator 評估和隱含風(fēng)險水平經(jīng)過安全咨詢小組(Safety Advisory Group)審查,該小組確定了每個類別的風(fēng)險水平。當(dāng)達(dá)到或看起來即將達(dá)到 indicator 閾值時,安全咨詢小組會進(jìn)一步分析數(shù)據(jù),然后確定是否已達(dá)到風(fēng)險水平。
OpenAI 表示模型訓(xùn)練和開發(fā)的整個過程中都進(jìn)行了評估,包括模型啟動前的最后一次掃描。為了最好地引出給定類別中的能力,他們測試了各種方法,包括在相關(guān)情況下的自定義支架和提示詞。
OpenAI 也指出,生產(chǎn)中使用的模型的確切性能數(shù)值可能會因最終參數(shù)、系統(tǒng)提示詞和其他因素而異。
OpenAI 使用了標(biāo)準(zhǔn) bootstrap 程序計算 pass@1 的 95% 置信區(qū)間,該程序會對每個問題的模型嘗試進(jìn)行重新采樣以近似其指標(biāo)的分布。
默認(rèn)情況下,這里將數(shù)據(jù)集視為固定的,并且僅重新采樣嘗試。雖然這種方法已被廣泛使用,但它可能會低估非常小的數(shù)據(jù)集的不確定性,因為它只捕獲抽樣方差而不是所有問題級方差。換句話說,該方法會考慮模型在多次嘗試中對同一問題的表現(xiàn)的隨機(jī)性(抽樣方差),但不考慮問題難度或通過率的變化(問題級方差)。這可能導(dǎo)致置信區(qū)間過緊,尤其是當(dāng)問題的通過率在幾次嘗試中接近 0% 或 100% 時。OpenAI 也報告了這些置信區(qū)間以反映評估結(jié)果的內(nèi)在變化。
在審查了準(zhǔn)備度情況評估的結(jié)果后,安全咨詢小組將 Deep Research 模型評級為總體中等風(fēng)險(overall medium risk)—— 包括網(wǎng)絡(luò)安全、說服、CBRN、模型自主性都是中等風(fēng)險。
這是模型首次在網(wǎng)絡(luò)安全方面被評為中等風(fēng)險。
下面展示了 Deep Research 與其它對比模型在 SWE-Lancer Diamond 上的結(jié)果。請注意其中上圖是 pass@1 結(jié)果,也就是說在測試的時候,每個模型在每個問題上只有一次嘗試的機(jī)會。
整體來看,各個階段的 Deep Research 的表現(xiàn)都非常好。其中,緩解后的 Deep Research 模型在 SWE-Lancer 上表現(xiàn)最佳,解決了大約 46-49% 的 IC SWE 任務(wù)和 47-51% 的 SWE Manager 任務(wù)。
更多評估細(xì)節(jié)和結(jié)果請訪問原報告。