自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o3被曝成績「造假」,60多位數(shù)學泰斗集體被耍!OpenAI暗中操控,考卷提前看光

人工智能
又爆大瓜!FrontierMath的o3驚人表現(xiàn),竟是因OpenAI資助了Epoch AI而提前獲得大部分試題訪問權(quán)。OpenAI模型的性能究竟幾分是真,幾分炒作,愈來愈變得撲朔迷離。

不久前,OpenAI在「圣誕12連更」中發(fā)布的最強推理模型「o3」,毫無疑問地驚艷了所有人。

尤其是對于新近發(fā)布的數(shù)學基準FrontierMath,其準確率相比o1直接翻了12倍。

圖片圖片

要知道FrontierMath可是Epoch AI聯(lián)合六十余位全世界的數(shù)學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出的。

其包括數(shù)百個原創(chuàng)的、格外具有挑戰(zhàn)性的數(shù)學問題,每個問題就算是專業(yè)數(shù)學家,也得需要數(shù)小時或數(shù)天的時間才能解決。

圖片圖片

正因如此的高難度,o3這種對于FrontierMath驚人的突破才讓大家都對其推理能力而感到不同凡響。

但是,近日曝出一則消息,o3之所以能在短時間之內(nèi)就相比于o1提升12倍的準確率,是因為OpenAI資助了FrontierMath,并且可以訪問大部分數(shù)據(jù)集。

但那些為評測集創(chuàng)建問題和解答的數(shù)學家們卻完全被蒙在鼓里,根本不知道OpenAI是項目資助方并將獲得數(shù)據(jù)訪問權(quán)。

圖片圖片

簡單來說就是:

  • 我們無從得知OpenAI是否用這個評測集訓練了o3,因此他們宣稱的結(jié)果可信度值得質(zhì)疑
  • 數(shù)學家們被有意隱瞞了真相,而大多數(shù)人甚至從未懷疑過會有一家AI公司在背后提供資金支持

對此,Epoch AI解釋稱:「我們承認OpenAI確實可以訪問大部分FrontierMath的問題和解決方案,但有一個OpenAI未見過的保留集使我們能夠獨立驗證模型能力。我們有口頭協(xié)議這些材料不會用于模型訓練。 」

但是這所謂與OpenAI達成的「口頭協(xié)議」——呵,現(xiàn)在還有誰會相信OpenAI的承諾?

圖片圖片

根據(jù)網(wǎng)上的各種報道,F(xiàn)rontierMath中的難題本應都是未公開的,目的就是防止AI公司利用這些數(shù)據(jù)訓練模型。

然而現(xiàn)在看來,「AI公司根本接觸不到這個數(shù)據(jù)集」這一點,實際上卻是Epoch AI和OpenAI刻意制造出的假象。

但考慮到OpenAI前科累累的欺騙和誤導行為——從蒙騙自家董事會,到強迫前員工簽署秘密的不誹謗協(xié)議,應有盡有。

所以這次的事件,多少有種「意料之外,情理之中」的意味了。

Epoch AI首席數(shù)學家回應

消息曝出后,Epoch AI首席數(shù)學家Elliot Glazer對此進行了回應。

他首先是承認了自己的錯誤,并對因為沒有被告知真相而自主做出貢獻的數(shù)學家致以歉意。

而對于o3那驚人的25.2%的準確率,他只是個人層面上表示相信,卻沒有一個真實可靠、有理有據(jù)的保證。

圖片圖片

Epoch AI聯(lián)創(chuàng)Tamay Besiroglu也正式發(fā)布了博客作為回應。

對于此次事件,Tamay給出的解釋是:「我們的合同明確禁止披露資金來源信息以及OpenAI可以訪問大部分(但不是全部)數(shù)據(jù)集的事實?!?/p>

現(xiàn)在回想起來,我們應該更積極地爭取向評測集貢獻者及時公開相關信息的權(quán)利。我們對此承擔責任,并承諾未來會做得更好。

雖然我們確實向部分數(shù)學家告知了來自lab的資金支持,但這種溝通并不系統(tǒng),也沒有具體說明合作方。

這種不一致的溝通方式是我們的疏忽。我們應該一開始就堅持爭取公開合作關系的權(quán)利,尤其是對那些創(chuàng)建問題的數(shù)學家們。

僅在o3發(fā)布前后才獲得披露OpenAI參與的許可是遠遠不夠的。參與項目的數(shù)學家們有權(quán)知道誰可能會接觸到他們的工作。

盡管我們受到合同條款的限制,但我們應該將對貢獻者的透明度作為與OpenAI合作的基本前提。

同時,對于FrontierMath他仍然聲稱:「OpenAI完全支持我們維護獨立的未見測試集的決定——這是防止過擬合和確保準確評估進展的重要保障?!?/p>

在交流中,OpenAI的員工將FrontierMath稱為「嚴格保留」的評估集,這種公開表述與我們的理解一致。

而且,我想強調(diào)的是,擁有真正未被訓練數(shù)據(jù)污染的測試集對各個lab都很重要。

從項目伊始,F(xiàn)rontierMath就被設計和定位為一個評估工具,我們相信當前的安排完全符合這一初衷。

對于未來的合作,我們將致力于提高透明度,確保貢獻者能在項目初期就清楚了解資金來源、數(shù)據(jù)訪問權(quán)限和使用目的等信息。

圖片圖片

總結(jié)來看,Epoch AI的確意識到了這次事件的嚴重性,但是很多回應依然停留在「公關套詞」層面,并且全程都在甩鍋稱自己不說是因為「合同」的限制。

圖片圖片

已有端倪,激起熱議

一石激起千層浪,紐約大學教授Gary Marcus,亞利桑那州立大學計算機教授Subbarao Kambhampati等大佬,紛紛發(fā)文對OpenAI這一的行為表示譴責。

圖片圖片

圖片圖片

圖片圖片

圖片圖片

其實,在去年12月剛發(fā)布時,便有參與o3-mini早期測試的研究人員發(fā)現(xiàn)了這一端倪。

比如Open Vision Engineering的創(chuàng)始人Akshay Narisetti在推上po出的發(fā)現(xiàn),就從側(cè)面印證了這次的爆料:

  • o3-mini在ARC-AGI中的正確率為156/400
  • o3-mini在Frontiermath上的表現(xiàn)并不理想

根據(jù)實測結(jié)果,模型擅長解決特定類型的問題,但泛化能力還未完全成熟。在結(jié)構(gòu)化任務上表現(xiàn)優(yōu)異,但在需要多維度推理能力的問題上仍有明顯短板。

圖片圖片

對此,谷歌DeepMind的研究員「Ted Xiao」分析認為,這種影響可以有兩個極端的解釋:

1. 糟糕,OpenAI正在操縱benchmark,還把測試題目泄漏進訓練數(shù)據(jù)里了!2. OpenAI只是用FrontierMath的私有題庫來指導新訓練數(shù)據(jù)的整體設計方向和目標,以及設計推理路徑。

當然了,也有沒那么極端的。比如,稍微改改題目內(nèi)容創(chuàng)建新的訓練數(shù)據(jù),這樣從技術角度來說,確實沒有直接用測試數(shù)據(jù)中的token來訓練。

圖片圖片

如今,SOTA模型之間的競爭已經(jīng)白熱化。如果使用這種投機取巧的方式,模型在實際應用場景中就會原形畢露(缺乏泛化能力)。

這種冒險頂尖AI實驗室可承擔不起,因此于理來說,OpenAI更可能采用第二種方式。

但即便如此,這一行為依然讓o1和o3在FrontierMath上,表現(xiàn)得比在其他未經(jīng)優(yōu)化的復雜推理領域中更亮眼。

不過,這種差距應該不會像某些在MMLU上采用第一種手段的「小語言模型」那樣——評測分數(shù)和實際能力簡直是天壤之別。

對于那些堅信OpenAI用了第一種方法、偷偷把測試數(shù)據(jù)混進去的人,我建議:不妨等等看o3在實際應用場景和其他評測中,跟下一代重點強化推理能力的頂尖模型相比,表現(xiàn)如何。

到時就知道,o3是不是只在FrontierMath上特別強,在其他地方就不行了。

參考資料:

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-01-20 13:17:11

2025-01-20 09:15:16

2024-12-09 11:06:31

2025-02-14 10:47:40

2025-04-21 16:32:29

視覺模型AI

2025-04-21 08:22:25

2024-12-24 16:15:04

2025-04-22 09:18:57

2024-12-23 07:40:00

AI模型數(shù)學

2025-01-20 15:22:55

2023-09-06 12:56:23

智能訓練

2025-04-23 08:30:05

2025-02-07 09:05:36

2024-11-11 13:12:03

2025-04-17 06:10:57

2024-11-14 18:40:57

2024-09-26 08:21:41

2009-04-03 08:37:45

FacebookCEO祖克伯格

2009-10-10 14:07:56

2025-04-18 11:18:51

點贊
收藏

51CTO技術棧公眾號