自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="xgnfy"><li id="xgnfy"><pre id="xgnfy"></pre></li></p>

<sub id="xgnfy"><p id="xgnfy"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4.5被DeepSeek 500倍吊打！基準(zhǔn)測(cè)試全班墊底，OpenAI痛失護(hù)城河

作者：新智元 2025-03-03 08:00:00

人工智能新聞

GPT-4.5上線一天，已經(jīng)引起了集體群嘲：這個(gè)模型徹頭徹尾失敗了，OpenAI已經(jīng)陷入嚴(yán)重困境，失去護(hù)城河！有人算出，GPT-4.5比DeepSeek V3貴了500倍，性能卻更差。有的權(quán)威AI預(yù)測(cè)者看完GPT-4.5，氣得直接把AGI預(yù)測(cè)時(shí)間推后了……當(dāng)然了，OpenAI并不這么認(rèn)為。

自從OpenAI發(fā)布GPT-4.5之后，Ilya這張圖又開(kāi)始火了。

GPT-4.5令人失望的表現(xiàn)，再次印證了Ilya這句話的含金量：預(yù)訓(xùn)練已經(jīng)達(dá)到極限，推理Scaling才是未來(lái)有希望的范式。

GPT-4.5在基準(zhǔn)測(cè)試上并沒(méi)有提升，推理沒(méi)有增強(qiáng)，只是變成了一個(gè)更易于合作、更有創(chuàng)造性、幻覺(jué)更少的模型。

GPT-4.5的「失敗」更加證明，Ilya是對(duì)的。

現(xiàn)在，各方評(píng)測(cè)都已經(jīng)出爐，結(jié)果顯示，OpenAI實(shí)在是太打臉了。

從ARC-AGC的評(píng)估上來(lái)看，GPT-4.5幾乎跟GPT-4o處于同一水平，智能上似乎沒(méi)有任何提升。

紐約大學(xué)教授馬庫(kù)斯直接發(fā)長(zhǎng)文痛批：GPT-4.5就是個(gè)空心漢堡。

一位AI初創(chuàng)CEO更是直言：在自己心目中最實(shí)用評(píng)估基準(zhǔn)Aider Polyglot上，OpenAI的「鎮(zhèn)國(guó)之寶」GPT-4.5，比DeepSeek-V3貴了500倍，但表現(xiàn)反而更差。

如果這個(gè)結(jié)果準(zhǔn)確，那OpenAI將陷入嚴(yán)重困境，甚至是徹底失去護(hù)城河！

與此同時(shí)，國(guó)內(nèi)這邊DeepSeek連續(xù)6天給人們帶來(lái)了開(kāi)源暴擊，R1模型直接減價(jià)75%。

總之，在DeepSeek、xAI Grok 3、Anthropic首個(gè)混合模型Cluade 3.7 Sonnet等的前后夾擊之下，OpenAI這位昔日明星，如今顯然已風(fēng)光不再。

「GPT-4.5真這么差？我不會(huì)看錯(cuò)了吧」

正如上文所提，剛剛那位AI初創(chuàng)CEO在看到下面這張圖表后，感覺(jué)實(shí)在難以置信，因?yàn)镚PT-4.5 Preview的表現(xiàn)，直接全班墊底。

為此，他還求證了表格制作者，對(duì)方表示自己仔細(xì)檢查了性能數(shù)據(jù)，進(jìn)行了多次運(yùn)行，能保證每個(gè)結(jié)果都是對(duì)的。

GPT-4.5比GPT-4基礎(chǔ)模型多出了10倍的預(yù)訓(xùn)練計(jì)算量，但卻什么都不擅長(zhǎng)，這合理嗎？

有人猜測(cè)說(shuō)，GPT-4.5可能并沒(méi)有經(jīng)過(guò)太多的監(jiān)督微調(diào)，因?yàn)镺penAI本來(lái)是打算將其作為未來(lái)模型（如GPT-5）的基礎(chǔ)模型或教師模型，用于進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)的。

可能是這個(gè)原因，導(dǎo)致它在代碼的指令遵循上不算特別強(qiáng)。

或者，問(wèn)題可能出在了數(shù)據(jù)混合上，因?yàn)镺penAI這次采用了一種全新的訓(xùn)練機(jī)制，所以可能有某種「成長(zhǎng)痛」。

不過(guò)令人心涼的是：OpenAI內(nèi)部許多能做到這件事的人，如今已經(jīng)走了。

有人直接開(kāi)麥表示：「如果DeepSeek能有OpenAI的資金量，那我們就完蛋了」。

還有人調(diào)侃道，這可能就是所謂的「用智商換情商」吧。

不管怎么說(shuō)，在大家眼中，OpenAI的先發(fā)優(yōu)勢(shì)已經(jīng)不復(fù)存在了。

馬庫(kù)斯：OpenAI徹底失去護(hù)城河

馬庫(kù)斯轉(zhuǎn)發(fā)了這個(gè)結(jié)果驚人的研究后表示，不管OpenAI在兩年前有什么優(yōu)勢(shì)，如今他們已經(jīng)徹底失去了護(hù)城河。

雖然他們現(xiàn)在仍擁有響亮的名字、大量數(shù)據(jù)和眾多用戶，但相對(duì)競(jìng)爭(zhēng)對(duì)手并未擁有任何決定性的優(yōu)勢(shì)。

Scaling并沒(méi)有讓他們走到AGI的終點(diǎn)。GPT-4.5非常昂貴，GPT-5也失敗了。

所有人都開(kāi)始疑問(wèn)：OpenAI能拿出的，就只有這么多了？

現(xiàn)在，DeepSeek已經(jīng)引發(fā)了一場(chǎng)價(jià)格戰(zhàn)，削減了大模型的潛在利潤(rùn)。而且，目前還沒(méi)有任何殺手級(jí)應(yīng)用出現(xiàn)。

在每一次模型的響應(yīng)中，OpenAI都在虧損。公司的燒錢(qián)速度如此之快，但資金鏈卻有限，連微軟也不再完全支持他們了。

如果不能快速轉(zhuǎn)型為非營(yíng)利組織，一大筆投資就會(huì)變成債務(wù)。

而且，Ilya、Murati、Schulman……許多頂尖人物已經(jīng)離開(kāi)。

如果孫正義改變主意，OpenAI就會(huì)立刻面臨嚴(yán)重的現(xiàn)金問(wèn)題（馬斯克有一句話說(shuō)對(duì)了，星際之門(mén)的很大一部分資金，他們并沒(méi)有拿到手）。

總之，在推出ChatGPT上，奧特曼確實(shí)是那個(gè)正確的CEO，但他并沒(méi)有足夠的技術(shù)遠(yuǎn)見(jiàn)，帶領(lǐng)OpenAI邁向下一個(gè)階段。

在這篇《GPT-4.5是個(gè)空心漢堡》中，馬庫(kù)斯也再次強(qiáng)調(diào)：Scaling已經(jīng)撞墻了。

在GPT-4.5發(fā)布前，他就預(yù)測(cè)將是一場(chǎng)空歡喜，而LLM的純粹Scaling（無(wú)論是增加數(shù)據(jù)量還是計(jì)算）已經(jīng)撞墻。

在某些方面，GPT-4.5還不如Claude上一個(gè)版本的模型。

甚至第一次出現(xiàn)了這種情況：頗受尊敬的AI預(yù)測(cè)師感到極度失望，以至于推遲了自己對(duì)于AGI何時(shí)到來(lái)的預(yù)測(cè)時(shí)間。

而奧特曼在產(chǎn)品發(fā)布上的異常冷靜，就更耐人尋味了。

他沒(méi)有像往常那樣大肆宣傳AGI，而是承認(rèn)了大規(guī)模模型的成本，卻對(duì)AGI完全避而不提。

總之，馬庫(kù)斯表示，自己在2024年的預(yù)測(cè)依然強(qiáng)勁——

耗費(fèi)五千億美元后，依然沒(méi)人找到可行的商業(yè)模式，除了英偉達(dá)和一些咨詢公司之外，沒(méi)人獲得了可觀的利益。

沒(méi)有GPT-5，沒(méi)有護(hù)城河。

「Scaling是一個(gè)假設(shè)，我們投入了相當(dāng)于阿波羅計(jì)劃兩倍的資金，但至今并未取得太多實(shí)質(zhì)性成果?！?/span>

GPT-4.5：不求最好，但求最貴

總之，從輸入價(jià)格來(lái)看，GPT-4.5可謂是貴到離譜：

o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍

但正如前文所說(shuō)，作為「最貴」模型的GPT-4.5，在表現(xiàn)上卻不是「最好」的。

跑分一個(gè)第1都沒(méi)有

由知名華裔億萬(wàn)富翁Alexandr Wang創(chuàng)辦的Scale AI，定期會(huì)更新一套基于私有數(shù)據(jù)集的LLM排行榜SEAL，目前首頁(yè)上共有15個(gè)。

然而，在這波最新的排名中，GPT-4.5 Preview竟然沒(méi)有一項(xiàng)取得第一！

全場(chǎng)最佳成績(jī)，是智能工具使用（Chat）項(xiàng)目的亞軍——略強(qiáng)于Claude 3.7 Sonnet，但次于上一代GPT-4o。

接下來(lái)，GPT-4.5在EnginmaEval，Agentic Tool Use（Enterprise）兩個(gè)項(xiàng)目上，取得第3。

其中，前者需要?jiǎng)?chuàng)造性地解決問(wèn)題和綜合不同領(lǐng)域信息的能力；后者評(píng)估模型工具使用的熟練程度，特點(diǎn)是需要將多個(gè)工具組合在一起。

分別輸給了自家的o1/o1-preview和競(jìng)爭(zhēng)對(duì)手最新的Claude 3.7 Sonnet（Thingking）。

在MultiChallenge中，排名第4，輸給了o1、Claude 3.5 Sonnet和3.7 Sonnet。

榜單MultiChallenge用于評(píng)估LLM與人類用戶進(jìn)行多輪對(duì)話的能力，考察LLM的指令保留、用戶信息推理記憶、可靠版本編輯和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人類最后一次考試」中，排在第5。

這次，它不僅輸給了Anthropic的Claude，就連Gemini也騎在了它的頭上。甚至，還是Flash版本。

顧名思義，這里測(cè)試的是LLM推理深度（例如，世界級(jí)數(shù)學(xué)問(wèn)題）及其學(xué)科領(lǐng)域的知識(shí)廣度，提供對(duì)模型能力的精確測(cè)量。目前，還沒(méi)有模型的真確率能達(dá)到10%。

千萬(wàn)不要用來(lái)編程

根據(jù)Aider的LLM編程排行榜，OpenAI旗下AI模型性價(jià)比都不高，而GPT-4.5是性價(jià)比最差的。

創(chuàng)立AI公司的Enrico則表示，除非你愿意做「冤大頭」或「人傻錢(qián)多」，否則在編程中不要使用GPT-4.5。

但其實(shí)，這些現(xiàn)象或許也在情理之中，畢竟按照OpenAI的說(shuō)法，這次既不看智商也不看性能，而是強(qiáng)調(diào)「啥都懂」和「情商高」。

OpenAI首席研究官：我們還能Scaling！

雖然外面的爭(zhēng)論異常激烈，但在OpenAI首席研究官M(fèi)ark Chen看來(lái)，GPT-4.5的發(fā)布正是說(shuō)明模型在規(guī)模上的Scaling還沒(méi)達(dá)到極限。

同時(shí)，對(duì)OpenAI而言，GPT-4.5也是對(duì)那些質(zhì)疑「Scaling模型規(guī)?？梢岳^續(xù)取得進(jìn)展」的回應(yīng)：

「GPT-4.5實(shí)實(shí)在在地證明了我們可以繼續(xù)沿用Scaling Law，并且代表著我們已經(jīng)邁入了下一個(gè)數(shù)量級(jí)的發(fā)展階段。」

預(yù)訓(xùn)練和推理，兩條路并行

如今，OpenAI正沿著兩個(gè)不同的維度進(jìn)行Scaling。

GPT-4.5是團(tuán)隊(duì)在無(wú)監(jiān)督學(xué)習(xí)上最新的擴(kuò)展實(shí)驗(yàn)，與此同時(shí)，團(tuán)隊(duì)也在推進(jìn)推理能力的進(jìn)展。

這兩種方法，是相輔相成的：「為了構(gòu)建推理能力，你首先需要知識(shí)基礎(chǔ)。模型不能盲目地從零開(kāi)始學(xué)習(xí)推理?！?/span>

相比起推理模型，擁有更多世界知識(shí)的GPT-4.5，在「智能」的體現(xiàn)方式上完全不同。

使用規(guī)模更大的語(yǔ)言模型時(shí)，雖然需要更多時(shí)間處理和思考用戶提出的問(wèn)題，但它依然能夠提供及時(shí)的反饋。這一點(diǎn)與GPT-4的體驗(yàn)非常相似。而當(dāng)使用像o1這樣的推理模型時(shí)，它需要先思考幾分鐘甚至幾分鐘，才會(huì)作答。

對(duì)于不同的場(chǎng)景，你可以選擇一個(gè)能夠立即回應(yīng)、不需要長(zhǎng)時(shí)間思考但能給出更優(yōu)質(zhì)答案的語(yǔ)言模型；或者選擇一個(gè)需要一段時(shí)間思考后才能給出答案的推理模型。

根據(jù)OpenAI的說(shuō)法，在創(chuàng)意寫(xiě)作等領(lǐng)域，更大規(guī)模的傳統(tǒng)語(yǔ)言模型，在表現(xiàn)上會(huì)顯著優(yōu)于推理模型。

此外，相比于上一代GPT-4o，用戶在60%的日常使用場(chǎng)景中也更喜歡GPT-4.5；對(duì)于生產(chǎn)力和知識(shí)工作，這一比例更是上升到了近70%。

GPT-4.5符合預(yù)期，沒(méi)有特別困難

Mark Chen表示，OpenAI在研究方法上非常嚴(yán)謹(jǐn)，會(huì)基于所有之前訓(xùn)練的LLM創(chuàng)建預(yù)測(cè)，以確定預(yù)期的性能表現(xiàn)。

對(duì)于GPT-4.5來(lái)說(shuō)，它在傳統(tǒng)基準(zhǔn)測(cè)試上展現(xiàn)出的改進(jìn)，和GPT-3.5到GPT-4的躍升可以說(shuō)十分類似。

除此之外，GPT-4.5還具備了很多新的能力。比如制作早期模型都無(wú)法完成的——ASCII Art。

值得一提的是，Mark Chen特別指出——GPT-4.5在開(kāi)發(fā)過(guò)程中并沒(méi)有特別困難。

「我們所有基礎(chǔ)模型的開(kāi)發(fā)都是實(shí)驗(yàn)性的。這通常意味著在某些節(jié)點(diǎn)停止，分析發(fā)生了什么，然后重新啟動(dòng)運(yùn)行。這并非GPT-4.5特有的情況，而是OpenAI在開(kāi)發(fā)GPT-4和o系列時(shí)都采用的方法?！?/span>

責(zé)任編輯：張燕妮來(lái)源：新智元

OpenAI 模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="z5tlx"></style>

<blockquote id="z5tlx"><p id="z5tlx"></p></blockquote>