自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="ag1is"></pre>

<sub id="ag1is"><p id="ag1is"></p></sub>

<blockquote id="ag1is"><i id="ag1is"></i></blockquote>

<style id="ag1is"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

滿血o3降智和幻覺(jué)倍增的原因可能找到了

作者：AI寒武紀(jì) 2025-04-22 09:18:57

人工智能新聞

OpenAI隆重推出O3模型時(shí)，公布了一個(gè)當(dāng)時(shí)看來(lái)非常驚人的成績(jī)：在專門針對(duì)數(shù)學(xué)問(wèn)題的挑戰(zhàn)性基準(zhǔn)測(cè)試 FrontierMath 上，O3的得分超過(guò)了?25%！

OpenAI推出的滿血O3“跑分”（Benchmark）貌似又被獨(dú)立測(cè)試揭穿是刷榜了，而奇怪的測(cè)試基準(zhǔn)數(shù)據(jù)可能就是o3降智和幻覺(jué)倍增的原因？

你可能要問(wèn)了，一個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試，與降智和幻覺(jué)有什么關(guān)系？

事情要從去年12月說(shuō)起。OpenAI隆重推出O3模型時(shí)，公布了一個(gè)當(dāng)時(shí)看來(lái)非常驚人的成績(jī)：在專門針對(duì)數(shù)學(xué)問(wèn)題的挑戰(zhàn)性基準(zhǔn)測(cè)試 FrontierMath 上，O3的得分超過(guò)了 25%！

這個(gè)成績(jī)有多厲害？要知道，當(dāng)時(shí)的頂尖模型在這個(gè)榜單上也只能勉強(qiáng)達(dá)到約 2%。OpenAI O3的這個(gè)數(shù)字，基本上是斷崖式領(lǐng)先。

真實(shí)成績(jī)只有10%...？

然而，Epoch AI （ FrontierMath測(cè)試基準(zhǔn)公司）這兩天發(fā)布了他們對(duì) 滿血版O3 的獨(dú)立測(cè)試結(jié)果。

這一測(cè)不要緊，結(jié)果卻讓人大跌眼鏡：Epoch發(fā)現(xiàn)，滿血O3在同一基準(zhǔn)測(cè)試上的得分竟然只有約 10%！ 這個(gè)分?jǐn)?shù)，雖然相對(duì)其他模型依然有優(yōu)勢(shì)，但和OpenAI最初那個(gè)25%+的“王牌”表現(xiàn)相比，差距可不是一點(diǎn)半點(diǎn)。Epoch直言，這個(gè)分?jǐn)?shù)遠(yuǎn)低于OpenAI最初公布的最高成績(jī)，測(cè)試成績(jī)放在o3mini high和o4 mini當(dāng)中看起來(lái)很奇怪，滿血的o3竟然不如早先發(fā)布的o3 mini high。

為什么會(huì)有這么大的差距？原因找到了

根據(jù)Epoch和相關(guān)方的說(shuō)法，主要有幾點(diǎn)：

測(cè)試環(huán)境與方法不同： Epoch 提到，OpenAI最初公布的那個(gè)高分，可能是在更強(qiáng)大的內(nèi)部計(jì)算環(huán)境、或使用了更復(fù)雜的測(cè)試時(shí)間計(jì)算資源（比如多輪思考、內(nèi)部推理鏈等）下得出的。這就像運(yùn)動(dòng)員平時(shí)訓(xùn)練時(shí)有教練指導(dǎo)、使用輔助器材，和正式比賽時(shí)的表現(xiàn)可能不一樣。

測(cè)試數(shù)據(jù)集不同： FrontierMath 基準(zhǔn)測(cè)試本身也在更新。OpenAI最初可能使用了包含180道問(wèn)題的舊版數(shù)據(jù)集進(jìn)行測(cè)試，而Epoch測(cè)試的是包含290道問(wèn)題的新版數(shù)據(jù)集。題目難度和數(shù)量變了，分?jǐn)?shù)自然可能不一樣。

模型版本不同： 這是最關(guān)鍵的一點(diǎn)！據(jù)ARC Prize基金會(huì)等機(jī)構(gòu)透露（他們也測(cè)試過(guò)O3的預(yù)發(fā)布版本），OpenAI 公開(kāi)發(fā)布給用戶使用的 O3 模型，特別是針對(duì)聊天和產(chǎn)品應(yīng)用進(jìn)行過(guò)優(yōu)化的版本，與OpenAI最初用于跑分的那個(gè)性能更強(qiáng)的預(yù)發(fā)布版本是“不同的模型”。簡(jiǎn)單來(lái)說(shuō)，公開(kāi)版的計(jì)算層級(jí)（可以理解為模型的“大小”或“算力”）更小。通常來(lái)說(shuō)，計(jì)算層級(jí)更大的模型能獲得更好的跑分成績(jī)。

定位不同： OpenAI技術(shù)人員Wenda Zhou也在一次直播中解釋說(shuō)，公開(kāi)發(fā)布的O3是針對(duì)成本效率和通用性進(jìn)行了優(yōu)化，以便更好地服務(wù)于實(shí)際應(yīng)用。因此，它的表現(xiàn)可能與純粹追求最高跑分、不計(jì)成本的演示版本存在“基準(zhǔn)測(cè)試差異”。

寫在最后

看起來(lái)這個(gè)所謂的滿血版的o3也是一個(gè)優(yōu)化的版本，一切都可以說(shuō)通了，本來(lái)滿血o3是要被整合到GPT5里邊的，但是由于deepseek的沖擊，還有成本等原因，最終奧特曼還是改變了注意，優(yōu)化版o3還是單獨(dú)推出了，有可能更好的模型被雪藏了，個(gè)人揣測(cè)這可能就是o3降智和幻覺(jué)增加的原因。

責(zé)任編輯：張燕妮來(lái)源： AI寒武紀(jì)

OpenAI 模型測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="pjpze"></u>