自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4.1淘汰了4.5！全系列百萬(wàn)上下文，主打一個(gè)性價(jià)比

作者：量子位 2025-04-15 09:50:06

人工智能新聞

新模型系列更新，一共帶來(lái)三個(gè)版本：GPT-4.1，GPT-4.1 mini、GPT-4.1 nano。

4.1與4.5孰大？OpenAI剛剛給出答案：

發(fā)布GPT-4.1，比GPT-4.5強(qiáng)的那種。

新模型系列更新，一共帶來(lái)三個(gè)版本：GPT-4.1，GPT-4.1 mini、GPT-4.1 nano——

與通常中杯大杯超大杯的設(shè)置不同，這回翻譯過(guò)來(lái)，是中杯、小杯、超小杯。

OpenAI表示，4.1系列是API專供，不過(guò)列位非開(kāi)發(fā)者先別急哈，人家也補(bǔ)充了，在ChatGPT里，4.1的能力將主要通過(guò)“融入最新版本的GPT-4o”體現(xiàn)。

能力方面，總結(jié)起來(lái)4.1系列紙面上最突出的優(yōu)勢(shì)有兩點(diǎn)：

長(zhǎng)上下文，3個(gè)型號(hào)均擁有100萬(wàn)token上下文窗口；

性價(jià)比，用內(nèi)部老哥的說(shuō)法就是：

現(xiàn)在你可以用4%的價(jià)格，暢享GPT-4o模型品質(zhì)。

OpenAI還表示，GPT-4.1系列會(huì)在API里取代GPT-4.5 Preview，后者將于今年（2025年）7月14日下架。

GPT-4.1：主打性價(jià)比

展開(kāi)來(lái)看，OpenAI整體上是把GPT-4.1和GPT-4o拿來(lái)對(duì)比的。

以延遲為橫軸，以智能為縱軸，可以看到，GPT-4.1比GPT-4o強(qiáng)了一丟丟，而4.1 mini則超出了4o mini一大截。

定量比較的結(jié)果是，編碼方面，GPT-4.1在衡量真實(shí)世界軟件工程技能的SWE-bench Verified上得分為54.6%，比GPT-4o的分?jǐn)?shù)提高了21.4%，比GPT-4.5強(qiáng)了26.6%。

指令遵循方面，在MultiChallenge基準(zhǔn)中，GPT-4.1得分38.3%，而GPT-4o的得分是27.8%。

長(zhǎng)上下文方面，在多模態(tài)長(zhǎng)下文理解基準(zhǔn)Video-MME上，GPT-4.1刷新SOTA，在長(zhǎng)篇無(wú)字幕類別中得分72.0%，比GPT-4o高了6.7%。

值得注意的是，GPT-4.1 mini在多項(xiàng)基準(zhǔn)測(cè)試中超過(guò)了GPT-4o。

比如在智能評(píng)估基準(zhǔn)MMLU上，GPT-4.1 mini的得分為87.5%，超過(guò)了GPT-4o的85.7%，同時(shí)延遲降低一半，成本降低83%。

GPT-4.1 nano則被定位為OpenAI“目前速度最快、成本最低”的模型。并且在部分測(cè)試中有超出GPT-4o mini的表現(xiàn)。

編碼能力

OpenAI著重強(qiáng)調(diào)了GPT-4.1的編碼能力。除了在各種編程任務(wù)上都超過(guò)GPT-4o，OpenAI還演示了其在前端編程方面的實(shí)際優(yōu)勢(shì)：

能夠創(chuàng)建功能更強(qiáng)大、更美觀的Web應(yīng)用。
人類評(píng)分的結(jié)果顯示，在80%的對(duì)比測(cè)試中，GPT-4.1的網(wǎng)站都比GPT-4o的網(wǎng)站更受歡迎。

比如給出同一段提示詞：

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

GPT-4o生成的網(wǎng)站長(zhǎng)這樣：

而4.1的結(jié)果明顯更美觀：

手快的網(wǎng)友則已經(jīng)搞出了大家更想看的——小球測(cè)試。

BTW，OpenAI提到，GPT-4.1會(huì)在API里取代GPT-4.5，GPT-4.5 Preview將在3個(gè)月后（2025年7月14日）徹底關(guān)閉，但這位老哥表示：我還是更喜歡4.5啊啊啊。

不過(guò)，老哥也坦承：4.5雖好，但4.1確實(shí)便宜太多啦（30倍價(jià)差）。

百萬(wàn)長(zhǎng)上下文

再來(lái)看一眼長(zhǎng)上下文方面，GPT-4.1的具體表現(xiàn)。

大海撈針實(shí)驗(yàn)中，面對(duì)100萬(wàn)token上下文檢索，3個(gè)型號(hào)均能100%過(guò)關(guān)。

OpenAI還開(kāi)源了一個(gè)新的評(píng)估平臺(tái)OpenAI-MRCR，以測(cè)試模型檢索和理解多條信息、并理解信息之間相互關(guān)系的能力。也就是說(shuō)更接近實(shí)際應(yīng)用中，大家對(duì)長(zhǎng)上下文的真實(shí)需求。

結(jié)果如下：

還發(fā)布了一個(gè)用于評(píng)估多跳上下文推理的數(shù)據(jù)集Graphwalks。所謂多跳，即在長(zhǎng)上下文中進(jìn)行多次邏輯跳躍，比如編寫(xiě)代碼時(shí)在多個(gè)文件之間跳轉(zhuǎn)。

在這個(gè)基準(zhǔn)上，GPT-4.1與o1性能相當(dāng)，輕松擊敗了GPT-4o。

性價(jià)比仍不如DeepSeek R1

價(jià)格方面，相對(duì)于自家貴得要命的模型，GPT-4.1系列無(wú)疑是便宜的。

尤其是對(duì)比要被替代的GPT-4.5 Preview，2刀/百萬(wàn)tokens vs 75刀/百萬(wàn)tokens，價(jià)格屬于大砍一刀只剩零頭了。

但精明的網(wǎng)友們發(fā)現(xiàn)，還是比不上DeepSeek R1：

△圖源：x@bongrandp

One More Thing

以上，你覺(jué)得GPT-4.1如何？

反正這個(gè)命名方式確實(shí)是蠻值得吐槽的。

但沒(méi)準(zhǔn)兒，OpenAI的意思是…4.10＞4.5？

至少奧特曼本尊有被說(shuō)服到（doge）。

他還自嘲了一波：

我們能不能在今天夏天之前搞定我們的模型命名？在此之前每個(gè)人都可以再花幾個(gè)月時(shí)間來(lái)取消我們（我們活該）。

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="fpbqm"></blockquote>

<sub id="fpbqm"></sub>