自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

滿血o3降智和幻覺(jué)倍增的原因可能找到了

人工智能 新聞
OpenAI隆重推出O3模型時(shí),公布了一個(gè)當(dāng)時(shí)看來(lái)非常驚人的成績(jī):在專門針對(duì)數(shù)學(xué)問(wèn)題的挑戰(zhàn)性基準(zhǔn)測(cè)試 FrontierMath 上,O3的得分超過(guò)了?25%!

OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨(dú)立測(cè)試揭穿是刷榜了,而奇怪的測(cè)試基準(zhǔn)數(shù)據(jù)可能就是o3降智和幻覺(jué)倍增的原因?

圖片

你可能要問(wèn)了,一個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試,與降智和幻覺(jué)有什么關(guān)系?

事情要從去年12月說(shuō)起。OpenAI隆重推出O3模型時(shí),公布了一個(gè)當(dāng)時(shí)看來(lái)非常驚人的成績(jī):在專門針對(duì)數(shù)學(xué)問(wèn)題的挑戰(zhàn)性基準(zhǔn)測(cè)試 FrontierMath 上,O3的得分超過(guò)了 25%

這個(gè)成績(jī)有多厲害?要知道,當(dāng)時(shí)的頂尖模型在這個(gè)榜單上也只能勉強(qiáng)達(dá)到約 2%。OpenAI O3的這個(gè)數(shù)字,基本上是斷崖式領(lǐng)先。

真實(shí)成績(jī)只有10%...?

然而,Epoch AI ( FrontierMath測(cè)試基準(zhǔn)公司)這兩天發(fā)布了他們對(duì) 滿血版O3 的獨(dú)立測(cè)試結(jié)果。

這一測(cè)不要緊,結(jié)果卻讓人大跌眼鏡:Epoch發(fā)現(xiàn),滿血O3在同一基準(zhǔn)測(cè)試上的得分竟然只有約 10%! 這個(gè)分?jǐn)?shù),雖然相對(duì)其他模型依然有優(yōu)勢(shì),但和OpenAI最初那個(gè)25%+的“王牌”表現(xiàn)相比,差距可不是一點(diǎn)半點(diǎn)。Epoch直言,這個(gè)分?jǐn)?shù)遠(yuǎn)低于OpenAI最初公布的最高成績(jī),測(cè)試成績(jī)放在o3mini high和o4 mini當(dāng)中看起來(lái)很奇怪,滿血的o3竟然不如早先發(fā)布的o3 mini high。

圖片

為什么會(huì)有這么大的差距?原因找到了

根據(jù)Epoch和相關(guān)方的說(shuō)法,主要有幾點(diǎn):

測(cè)試環(huán)境與方法不同: Epoch 提到,OpenAI最初公布的那個(gè)高分,可能是在更強(qiáng)大的內(nèi)部計(jì)算環(huán)境、或使用了更復(fù)雜的測(cè)試時(shí)間計(jì)算資源(比如多輪思考、內(nèi)部推理鏈等)下得出的。這就像運(yùn)動(dòng)員平時(shí)訓(xùn)練時(shí)有教練指導(dǎo)、使用輔助器材,和正式比賽時(shí)的表現(xiàn)可能不一樣。

測(cè)試數(shù)據(jù)集不同: FrontierMath 基準(zhǔn)測(cè)試本身也在更新。OpenAI最初可能使用了包含180道問(wèn)題的舊版數(shù)據(jù)集進(jìn)行測(cè)試,而Epoch測(cè)試的是包含290道問(wèn)題的新版數(shù)據(jù)集。題目難度和數(shù)量變了,分?jǐn)?shù)自然可能不一樣。

模型版本不同: 這是最關(guān)鍵的一點(diǎn)!據(jù)ARC Prize基金會(huì)等機(jī)構(gòu)透露(他們也測(cè)試過(guò)O3的預(yù)發(fā)布版本),OpenAI 公開(kāi)發(fā)布給用戶使用的 O3 模型,特別是針對(duì)聊天和產(chǎn)品應(yīng)用進(jìn)行過(guò)優(yōu)化的版本,與OpenAI最初用于跑分的那個(gè)性能更強(qiáng)的預(yù)發(fā)布版本是“不同的模型”。簡(jiǎn)單來(lái)說(shuō),公開(kāi)版的計(jì)算層級(jí)(可以理解為模型的“大小”或“算力”)更小。通常來(lái)說(shuō),計(jì)算層級(jí)更大的模型能獲得更好的跑分成績(jī)。

定位不同: OpenAI技術(shù)人員Wenda Zhou也在一次直播中解釋說(shuō),公開(kāi)發(fā)布的O3是針對(duì)成本效率和通用性進(jìn)行了優(yōu)化,以便更好地服務(wù)于實(shí)際應(yīng)用。因此,它的表現(xiàn)可能與純粹追求最高跑分、不計(jì)成本的演示版本存在“基準(zhǔn)測(cè)試差異”。

寫在最后

看起來(lái)這個(gè)所謂的滿血版的o3也是一個(gè)優(yōu)化的版本,一切都可以說(shuō)通了,本來(lái)滿血o3是要被整合到GPT5里邊的,但是由于deepseek的沖擊,還有成本等原因,最終奧特曼還是改變了注意,優(yōu)化版o3還是單獨(dú)推出了,有可能更好的模型被雪藏了,個(gè)人揣測(cè)這可能就是o3降智和幻覺(jué)增加的原因。

責(zé)任編輯:張燕妮 來(lái)源: AI寒武紀(jì)
相關(guān)推薦

2025-04-21 16:25:58

OpenAI測(cè)試模型

2025-04-17 08:59:59

2025-04-21 09:27:00

2020-03-02 19:51:40

戴爾

2023-11-07 14:58:26

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-04-16 09:35:03

2025-04-17 06:10:57

2022-02-12 00:08:28

安卓iOS

2012-03-13 16:55:02

2023-09-25 18:36:55

AI

2018-02-07 14:31:57

顯卡顯存價(jià)格

2025-01-24 16:52:32

2025-02-07 09:05:36

2025-04-07 07:18:48

2023-04-25 07:48:01

顯示器屏幕數(shù)字化

2017-11-02 13:05:12

PC3D NAND內(nèi)存

2022-07-04 09:12:09

AI技術(shù)論文

2025-04-18 11:18:51

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)