OpenAI突然發(fā)布智能體API!支持網(wǎng)絡(luò)和文件搜索以及computer use
「Agent/智能體」可說是當(dāng)今 AI 領(lǐng)域最炙手可熱的話題。今天凌晨,OpenAI 發(fā)布了一系列可讓開發(fā)者通過 API 構(gòu)建智能體的新工具,其中最大的看點便是 Responses API?,這是對之前的 Chat Completions API 的一輪大升級,使其獲得了 Assistants API 般使用工具的能力,從而可以幫助開發(fā)者構(gòu)建智能體。目前,Responses API? 已經(jīng)內(nèi)置了網(wǎng)絡(luò)搜索、文件搜索和計算機使用(computer use)能力。
OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以來設(shè)計最完善、最實用的 API 之一。
熟悉大模型應(yīng)用開發(fā)的人都知道,當(dāng)今不少大模型提供商的服務(wù)都兼容 OpenAI 之前提出的 Chat Completions API,其對行業(yè)標(biāo)準(zhǔn)化做出了非常大的貢獻(xiàn)。而今發(fā)布的 Responses API? 或許也將成為智能體響應(yīng)標(biāo)準(zhǔn)化的重要組成部分。
Chat Completions API 的一個簡單示例
除此之外,OpenAI 還發(fā)布了用于編排單智能體和多智能體工作流的 Agents SDK 以及用于跟蹤和檢查智能體工作流程執(zhí)行情況的 observability tools。
OpenAI 表示:「這些新工具簡化了核心智能體邏輯、編排和交互,使開發(fā)者能夠更輕松地開始構(gòu)建智能體。在接下來的幾周和幾個月內(nèi),我們計劃發(fā)布更多工具和功能,以進一步簡化和加速在我們的平臺上構(gòu)建智能體應(yīng)用的過程?!?/span>
相關(guān)文檔鏈接如下:
- Responses API?:https://platform.openai.com/docs/quickstart?api-mode=responses
- 網(wǎng)絡(luò)搜索:https://platform.openai.com/docs/guides/tools-web-search
- 文件搜索:https://platform.openai.com/docs/guides/tools-file-search
- computer use:https://platform.openai.com/docs/guides/tools-computer-use
- Agents SDK:https://platform.openai.com/docs/guides/agents
- observability tools:https://platform.openai.com/docs/guides/agents#orchestration
另外,OpenAI 還準(zhǔn)備了 PlayGround 供開發(fā)者嘗試:https://platform.openai.com/playground/prompts?preset=ks7kayjX55ehTBR9oyUviuJe
下面來具體看看 OpenAI 今天發(fā)布的東西。
Responses API 是什么?
簡單來說,Responses API 是一種 API 新原語,其作用是使用 OpenAI 內(nèi)置工具來構(gòu)建智能體。OpenAI 表示它將 Chat Completions 的簡單性與 Assistants API 的工具使用功能結(jié)合到了一起?!鸽S著模型功能的不斷進化,我們相信 Responses API 將為開發(fā)者構(gòu)建智能體應(yīng)用提供更靈活的基礎(chǔ)。只需一次 Responses API 調(diào)用,開發(fā)者就能夠使用多個工具和模型輪次來解決越來越復(fù)雜的任務(wù)?!?/span>
首先,Responses API 將支持新的內(nèi)置工具,如網(wǎng)絡(luò)搜索、文件搜索和 computer use。這些工具可以協(xié)同工作,將模型連接到現(xiàn)實世界,從而讓模型可以完成更加有用的任務(wù)。Responses API 還包含一些可用性改進,包括統(tǒng)一的基于事項(item)的設(shè)計、更簡單的多態(tài)性、直觀的流式事件和 SDK 助手(如可幫助輕松獲取模型的文本輸出的 response.output_text)。
對于希望輕松將 OpenAI 模型和內(nèi)置工具結(jié)合到其應(yīng)用中的開發(fā)者,Responses API 可提供一個統(tǒng)一的接口,而無需集成多個 API 或外部供應(yīng)商。
該 API 還使在 OpenAI 上存儲數(shù)據(jù)變得更加容易,因此開發(fā)者可以使用跟蹤和評估等功能來評估智能體性能。OpenAI 還特別指出:「即使數(shù)據(jù)存儲在 OpenAI 上,我們也不會默認(rèn)使用業(yè)務(wù)數(shù)據(jù)來訓(xùn)練我們的模型。」
Responses API 即日可用,并且不會單獨收費 ——token 和工具按照 OpenAI 定價頁面上指定的標(biāo)準(zhǔn)費率計費。
現(xiàn)有的 API 呢?
Chat Completions API:OpenAI 表示,Chat Completions 仍然是他們最廣泛采用的 API,他們也會讓新模型和新功能支持它。無需內(nèi)置工具的開發(fā)者可以放心地繼續(xù)使用 Chat Completions。只要 Chat Completions 的功能不依賴于內(nèi)置工具或調(diào)用多個模型,OpenAI 表示就會繼續(xù)發(fā)布支持 Chat Completions 的新模型。而 Responses API 是 Chat Completions 的超集?,具有同樣出色的性能,因此對于新的集成,OpenAI 建議從 Responses API 開始。
Assistants API?:根據(jù)開發(fā)者對 Assistants API beta 的反饋,OpenAI 在 Responses API 中加入了一些關(guān)鍵改進,使其更加靈活、更快、更易于使用。OpenAI 表示正在努力實現(xiàn) Assistants 和 Responses API 之間的完全功能對等,包括對類似 Assistant 和類似 Thread 的對象以及代碼解釋器工具的支持。OpenAI 表示,完成這個過程后,就會正式宣布棄用 Assistants API,目標(biāo)截止日期為 2026 年中期。棄用后,OpenAI 將提供從 Assistants API 到 Responses API 的遷移指南,使開發(fā)者能夠保留所有數(shù)據(jù)并遷移其應(yīng)用。而在正式宣布棄用之前,OpenAI 將繼續(xù)讓新模型支持 Assistants API。
OpenAI 表示:「Responses API 代表了在 OpenAI 上構(gòu)建智能體的未來方向。」
Responses API 的內(nèi)置工具
網(wǎng)絡(luò)搜索
開發(fā)者現(xiàn)在可以從網(wǎng)絡(luò)上獲得快速、最新的答案,同時還帶有清晰且相關(guān)的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 時,網(wǎng)絡(luò)搜索可用作工具使用,并且可以與其他工具或函數(shù)調(diào)用搭配使用。
Responses API 中的網(wǎng)絡(luò)搜索使用了 ChatGPT 搜索一樣的模型。OpenAI 也發(fā)布了基準(zhǔn)測試結(jié)果:在 SimpleQA 評估 LLM 回答簡短事實問題的準(zhǔn)確性的基準(zhǔn))上,GPT-4o search preview 和 GPT-4o mini search preview 分別得分 90% 和 88%。
使用該 API 中的網(wǎng)絡(luò)搜索生成的響應(yīng)會包含指向新聞文章和博客文章等來源的鏈接,為用戶提供了一種了解更多信息的方式。
任何網(wǎng)站或發(fā)布者都可以選擇是否在該 API 中的網(wǎng)絡(luò)搜索中顯示。
目前,網(wǎng)絡(luò)搜索工具已在 Responses API 中以預(yù)覽版形式提供給所有開發(fā)者。OpenAI 還支持開發(fā)者通過 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接訪問 Chat Completions API 中經(jīng)過微調(diào)的搜索模型。GPT?4o search 和 4o-mini search 的定價分別為每千次查詢 30 美元和 25 美元。
文件搜索
開發(fā)者現(xiàn)在可以使用經(jīng)過改進的文件搜索工具輕松地從大量文檔中檢索相關(guān)信息。其支持多種文件類型、查詢優(yōu)化、元數(shù)據(jù)過濾和自定義重新排名,并能提供快速、準(zhǔn)確的搜索結(jié)果。同樣,使用 Responses API,只需幾行代碼即可完成集成。
文件搜索工具可用于各種實際用例,包括使客服智能體輕松訪問常見問題解答、幫助法律助理快速參考合格專業(yè)人員的過去案例以及協(xié)助編程智能體查詢技術(shù)文檔。
此工具在 Responses API 中可供所有開發(fā)者使用。使用價格為每千次查詢 2.50 美元,文件存儲價格為 0.10 美元/GB /天,首 GB 免費。
該工具也將繼續(xù)在 Assistants API 中提供。最后,OpenAI 表示還向 Vector Store API 對象添加了一個新的搜索端點,開發(fā)者可直接將其用于查詢自己的數(shù)據(jù),然后用于其他應(yīng)用和 API。
Computer Use
為了構(gòu)建能夠在計算機上完成任務(wù)的智能體,開發(fā)者現(xiàn)在可以使用 Responses API 中的 Computer Use 工具,該工具使用了 Computer-Using Agent(CUA)模型 —— 與 Operator 一樣。
而此研究預(yù)覽版(research preview)模型創(chuàng)下了新的 SOTA 記錄:在 OSWorld? 的全 Computer Use 任務(wù)上實現(xiàn)了 38.1% 的成功率,在 WebArena? 上實現(xiàn) 58.1% 的成功率,在 WebVoyager? 的基于 Web 的交互任務(wù)上實現(xiàn) 87% 的成功率。
內(nèi)置的 Computer Use 工具可捕獲模型生成的鼠標(biāo)和鍵盤操作,使開發(fā)者能夠通過將這些操作直接轉(zhuǎn)換為其環(huán)境中的可執(zhí)行命令來自動執(zhí)行 Computer Use 任務(wù)。
開發(fā)者可以使用 Computer Use 工具來自動化基于瀏覽器的工作流程,例如在 Web 應(yīng)用上執(zhí)行質(zhì)量驗證任務(wù)或跨舊系統(tǒng)執(zhí)行數(shù)據(jù)輸入任務(wù)。
OpenAI 表示,在去年推出支持 Operator 的 CUA 之前,他們進行了廣泛的安全測試和紅隊測試,解決了三個關(guān)鍵風(fēng)險領(lǐng)域:誤用、模型錯誤和前沿風(fēng)險。
而通過 API 中的 CUA 將 Operator 的功能擴展到本地操作系統(tǒng)也會引入新的風(fēng)險,為此 OpenAI 進行了額外的安全評估和紅隊測試。
OpenAI 還為開發(fā)者添加了緩解措施,包括防止提示詞注入的安全檢查、敏感任務(wù)的確認(rèn)提示、幫助開發(fā)者隔離其環(huán)境的工具以及增強對潛在政策違規(guī)行為的檢測。雖然這些緩解措施有助于降低風(fēng)險,但該模型仍然容易受到無意錯誤的影響,尤其是在非瀏覽器環(huán)境中。
例如,CUA 在 OSWorld(旨在衡量 AI 智能體在實際任務(wù)中的表現(xiàn)的基準(zhǔn))上的表現(xiàn)目前為 38.1%,這表明該模型對于在操作系統(tǒng)上自動執(zhí)行任務(wù)還不夠可靠。在這些情況下,OpenAI 建議進行人工監(jiān)督。
更多詳情可訪問已更新的系統(tǒng)卡:https://openai.com/index/operator-system-card/
從今天開始,Computer Use 工具將作為研究預(yù)覽版在 Responses API 中提供給使用等級為 3-5 的選定開發(fā)者。
使用價格為 3 美元/100 萬輸入 token 和 12 美元/100 萬輸出 token。
Agents SDK
除了構(gòu)建智能體的核心邏輯并讓它們能夠訪問有用的工具之外,開發(fā)者還需要編排智能體工作流。
OpenAI 開源發(fā)布的 Agents SDK 可簡化多智能體工作流的編排,并且相比于 Swarm? 有了顯著的改進。Swarm 是 OpenAI 去年發(fā)布的實驗性 SDK 并已被開發(fā)者社區(qū)廣泛采用,可參閱機器之心報道《OpenAI 今天 Open 了一下:開源多智能體框架 Swarm》。
- 智能體:易于配置的 LLM,具有清晰的說明和內(nèi)置工具。
- 交接:在智能體之間智能地轉(zhuǎn)移控制權(quán)。
- 護欄:可配置的安全檢查,用于輸入和輸出驗證。
- 跟蹤和可觀察性:可視化智能體執(zhí)行跟蹤以調(diào)試和優(yōu)化性能。
智能體 SDK 適用于各種實際應(yīng)用,包括客戶支持自動化、多步驟研究、內(nèi)容生成、代碼審查和銷售潛在客戶挖掘。
Agents SDK 可與 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 樣式的 API 端點,該 SDK 還可以與其他提供商的模型配合使用。
開發(fā)者可以立即將其集成到他們的 Python 代碼庫中,Node.js 支持也即將推出。
OpenAI 還提到未來可能會開源 Agents SDK:「在設(shè)計 Agents SDK 時,我們的團隊受到了社區(qū)中其他人的出色工作的啟發(fā),包括 Pydantic、Griffe 和 MkDocs。我們致力于繼續(xù)將 Agents SDK 構(gòu)建為開源框架,以便社區(qū)中的其他人可以擴展我們的方法?!?/span>
最后,OpenAI 稱:「我們相信智能體很快就會成為勞動力不可或缺的一部分,從而顯著提高各行業(yè)的生產(chǎn)力。隨著公司越來越多地尋求利用 AI 來完成復(fù)雜的任務(wù),我們致力于為開發(fā)者和企業(yè)提供構(gòu)建模塊,使他們能夠有效地創(chuàng)建可產(chǎn)生實際影響的自動系統(tǒng)?!?/span>
Responses API? 背后的故事
Responses API? 背后的設(shè)計者之一、OpenAI 的 Atty Eleti 還在 ?? 上分享了 Responses API? 背后的故事。
他表示,Responses API? 是他設(shè)計 OpenAI API 2 年的經(jīng)驗累積的成果。
兩年前,他們與 GPT-3.5 Turbo 團隊一起推出了 Chat Completions。而這個 API 是他與 Rachel Lim 在一個周末內(nèi)完成的:周五設(shè)計,周二發(fā)布 GA。如今,Chat Completions 已成為事實上的行業(yè)標(biāo)準(zhǔn),為數(shù)十萬個應(yīng)用提供支持,并被每個主要模型提供商所采用。
當(dāng)年晚些時候,他們發(fā)布了 Assistants API 的 beta 版,這是構(gòu)建智能體原語的初稿。其運行在后臺進行,并能根據(jù)需要調(diào)用工具。
許多開發(fā)者喜歡它,因為它易于上手(只需使用 OpenAI 作為自己的數(shù)據(jù)庫?。┎⑶彝ㄟ^「file_search」工具內(nèi)置了強大的 RAG。
但從那時起,很多事情都發(fā)生了變化:今天的模型是多模態(tài)的(文本、圖像、音頻)、智能體形式的(調(diào)用一個或多個工具),并且在說話前會思考。
Chat Completions 不是為此設(shè)計的;它是無狀態(tài)的(會迫使你傳回大量圖像和音頻),不支持工具,并且存在許多可用性問題(特別是,流式傳輸很難正確實現(xiàn)。)
Assistants 支持工具,但它太抽象了。你需要了解六個概念才能開始使用,而且后臺處理意味著它默認(rèn)很慢。
這些 API 的形式成為了開發(fā)者調(diào)用底層功能的障礙。
Responses API 則將上述兩種 API 的優(yōu)勢整合到了一起。
只需 4 行代碼即可開始使用,只需一個參數(shù)即可包含文件搜索、網(wǎng)絡(luò)搜索、函數(shù)調(diào)用和結(jié)構(gòu)化輸出等功能。
Responses 具有多種狀態(tài)。
默認(rèn)情況下,所有 Responses 都會被存儲,用戶可以在儀表板中查看它們,以便以后進行調(diào)試。你可以使用「previous_response_id」繼續(xù)對話 —— 無需一次又一次地發(fā)送大載荷。
Responses 也是狀態(tài)機(state-machines),可以更好地模擬不完整、中斷和失敗的模型輸出。
Responses 的核心概念是事項(item):表示用戶輸入或模型輸出的多態(tài)對象。事項可以表示消息、推理、函數(shù)調(diào)用、Web 搜索調(diào)用等。
Chat Completions 是消息來來回回的列表,而 Responses 則是事項來來回回的列表。
托管工具(Hosted tools)是 Responses 的殺手級功能。
只需一行代碼,你就可以在應(yīng)用中獲得一流的網(wǎng)頁搜索、文件搜索以及即將推出的代碼解釋器。
至于 Responses 這個起名。Atty Eleti 指出「Responses 顯然與 HTTP Responses 沖突?!?/span>
「但我們堅信這個名字完美地平衡了優(yōu)雅和描述性。我們在日常使用中都會問『模特的 Responses 是什么?』」
Eleti 表示他們還考慮過 Tasks、Generations、Messages、Interactions、Conversations 等名稱。
他也總結(jié)了 OpenAI 的 API 設(shè)計哲學(xué):交付能力,而非抽象。(Ship capabilities, not abstractions.)
最后,順帶一提,OpenAI CEO Sam Altman 在 ?? 表示他們已經(jīng)訓(xùn)練出了一個擅長創(chuàng)意寫作的模型,不過發(fā)布時間待定。他說:「這是我第一次真正被 AI 寫的東西所震撼;它恰到好處地傳達(dá)了元小說的氛圍?!?/span>
下面是他分享的提示詞和小說,感興趣的讀者可訪問這里自行評鑒:https://x.com/sama/status/1899535387435086115
你對 OpenAI 今天的發(fā)布怎么看?