本周,OpenAI 再次放出大招。
按照慣例,首日更新往往最重磅。而這一次,OpenAI 在預(yù)告中就明確點(diǎn)名:這是一款為開發(fā)者準(zhǔn)備的硬核模型,并用一個(gè)形象的比喻預(yù)熱它——“開發(fā)者 ?? 超大質(zhì)量黑洞”。
圖片
OpenAI 深夜官宣的 GPT-4.1,確實(shí)名副其實(shí)。
百萬 Token 的上下文窗口和顯著增強(qiáng)的編程能力,讓它成為開發(fā)者眼中的“智能協(xié)作者”——能吞下整本文檔、分析復(fù)雜代碼、生成完整模塊,真正實(shí)現(xiàn)從“助理”到“代理”的躍升。
圖片
GPT-4.1 在以下行業(yè)標(biāo)準(zhǔn)指標(biāo)方面表現(xiàn)出色:
- 編程能力:在 SWE-bench Verified 測試中,GPT-4.1 取得了 54.6% 的得分,較 GPT-4o 提升了 21.4 個(gè)百分點(diǎn),較 GPT-4.5 提升了 26.6 個(gè)百分點(diǎn),成為領(lǐng)先的編程模型。
- 指令遵循能力:在 Scale 的 MultiChallenge 基準(zhǔn)測試中,GPT-4.1 得分為 38.3%,比 GPT-4o 提高了 10.5 個(gè)百分點(diǎn),顯示出更強(qiáng)的指令理解和執(zhí)行能力。
- 長上下文處理能力:在 Video-MME 的“長視頻無字幕”類別中,GPT-4.1 取得了 72.0% 的得分,較 GPT-4o 提升了 6.7 個(gè)百分點(diǎn),樹立了多模態(tài)長上下文理解的新標(biāo)桿。
圖片
這一次,OpenAI 不止推出了標(biāo)準(zhǔn)版,還同步上線了 mini 和 nano 兩個(gè)輕量模型:
- GPT-4.1:面向復(fù)雜任務(wù),是編程和指令任務(wù)的主力。
- GPT-4.1 mini/nano:適合對響應(yīng)速度和成本敏感的場景,如補(bǔ)全、分類、數(shù)據(jù)提取等。
正如 OpenAI 所言:“并非所有任務(wù)都需要最高水平的智能?!?/p>
對于企業(yè)客戶和開發(fā)者來說,定價(jià)可能才是最大的驚喜:
- GPT-4.1 比前代成本低 26%,百萬輸入/輸出 tokens 分別為 2 美元、8 美元;
- mini 版分別為 0.40 和 1.60 美元;
- nano 更低至 0.10 和 0.40 美元,成為最便宜的大模型之一。
更重要的是,OpenAI 還推出了 Prompt 緩存機(jī)制,支持最多 75% 的折扣,顯著降低調(diào)用頻繁時(shí)的成本。
不過,對國內(nèi)開發(fā)者來說有個(gè)小挑戰(zhàn):
OpenAI 同時(shí)上線了“API 組織驗(yàn)證”機(jī)制,未來使用最先進(jìn)模型需完成 Verified Organization 認(rèn)證。
目前我們還不是支持該驗(yàn)證流程的地區(qū),可能在直接訪問上受限。唉,又close上了。
在OpenAl,我們認(rèn)真對待我們的責(zé)任,確保AI既廣泛可及又安全使用。不幸的是,一小部分開發(fā)者故意違反我們的使用政策,使用OpenAl的API。我們正在添加驗(yàn)證流程,以減少A的不安全使用,同時(shí)繼續(xù)向更廣泛的開發(fā)者社區(qū)提供先進(jìn)模型。
超越GPT-4.5:性能、調(diào)用、可靠性全面升級
GPT-4.1 的出現(xiàn),直接讓 GPT-4.5 失寵。
OpenAI 明確表示,GPT-4.1 是一款高性價(jià)比的旗艦?zāi)P?,在多個(gè)關(guān)鍵能力上不輸甚至優(yōu)于 GPT-4.5,而成本和延遲卻更低。因此,OpenAI 已計(jì)劃在 2025 年 7 月 14 日從 API 中移除 GPT-4.5,全面轉(zhuǎn)向 GPT-4.1 系列。
換言之,GPT-4.1 的出現(xiàn)讓 OpenAI 主動(dòng)淘汰了自家最大最貴的模型,可見其對 GPT-4.1 實(shí)力與效率的信心。
調(diào)用方式上,GPT-4.1 僅提供 API 版本,暫未整合入 ChatGPT。這也說明了它的定位:為開發(fā)者和企業(yè)構(gòu)建的“工具模型”,而非日常聊天助手。
這意味著:
- 開發(fā)者可以將 GPT-4.1 靈活嵌入網(wǎng)站、應(yīng)用、服務(wù);
- 一次性傳入整個(gè)代碼庫、產(chǎn)品文檔、審計(jì)日志等進(jìn)行分析,無需切分上下文;
- 構(gòu)建 AI Agent、自動(dòng)化系統(tǒng)更進(jìn)一步。
GPT-4.1 為“編程體”而生
GPT-4.1 在編碼任務(wù)方面的表現(xiàn)顯著優(yōu)于 GPT-4o,具體體現(xiàn)在以下幾個(gè)方面:
- 主動(dòng)解決編碼任務(wù):GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升了 21.4 個(gè)百分點(diǎn),顯示出其在軟件工程任務(wù)中的領(lǐng)先能力。
- 前端編碼能力增強(qiáng):模型在處理前端開發(fā)任務(wù)時(shí)表現(xiàn)出更高的準(zhǔn)確性和效率,能夠更好地理解和生成相關(guān)代碼。
- 減少不必要的編輯:GPT-4.1 在生成代碼時(shí),能夠避免多余的修改,保持代碼的簡潔性和可讀性。
- 遵循 diff 格式:模型能夠準(zhǔn)確地生成符合 diff 格式的代碼更改,方便開發(fā)者進(jìn)行版本控制和代碼審查。
- 確保工具使用的一致性:GPT-4.1 在使用開發(fā)工具和庫時(shí),能夠保持一致性,減少因工具使用不當(dāng)導(dǎo)致的錯(cuò)誤。
在 AI 編程賽道硝煙正濃之際,OpenAI 正在悄然推進(jìn)“Agent”策略。
OpenAI 向 TechCrunch 表示,“GPT-4.1 的優(yōu)化完全基于開發(fā)者的實(shí)際反饋,改進(jìn)聚焦在他們最關(guān)心的領(lǐng)域:前端開發(fā)、更少的無關(guān)修改、格式和響應(yīng)結(jié)構(gòu)的可靠遵循、一致的工具使用等等。所有這些改進(jìn),都讓開發(fā)者能夠構(gòu)建出在真實(shí)軟件工程任務(wù)中表現(xiàn)更優(yōu)的 AI Agent?!?/p>
訓(xùn)練出能夠勝任復(fù)雜軟件工程任務(wù)的 AI 編程模型,已成為包括 OpenAI 在內(nèi)的眾多科技巨頭的目標(biāo)。正如 OpenAI 首席財(cái)務(wù)官 Sarah Friar 上個(gè)月在倫敦的一場技術(shù)峰會(huì)中所言,公司最終的愿景是打造出“具備代理能力的軟件工程師”(agentic software engineer)。
OpenAI 堅(jiān)信,未來的模型將能夠端到端地構(gòu)建完整應(yīng)用,包括質(zhì)量保障、bug 測試乃至文檔撰寫等環(huán)節(jié)。
寫在最后
AI 編程革命的新時(shí)代已經(jīng)開啟。GPT-4.1 所體現(xiàn)的,不僅是模型參數(shù)和性能的提升,更是 AI 應(yīng)用思路的轉(zhuǎn)變:從追求“大而全”的通用智能,走向強(qiáng)調(diào)高效可靠、可用性強(qiáng)的專精模型。
對于開發(fā)者而言,GPT-4.1 如同裝上了“超級引擎”的新工具,將幫助他們以前所未有的速度構(gòu)建軟件、分析數(shù)據(jù)、解決問題。AI 作為開發(fā)助手的邊界可能將被顛覆。
另外,昨天奧特曼還在線招聘,希望有技術(shù)人員加入到更大規(guī)模的計(jì)算構(gòu)建中去。那么,OpenAI的下一步,值得期待嗎?
圖片
參考鏈接
1.https://venturebeat.com/security/openais-new-gpt-4-1-models-can-process-a-million-tokens-and-solve-coding-problems-better-than-ever/
2.https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/