自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="tufyi"><style id="tufyi"><rp id="tufyi"></rp></style></xmp>

<style id="tufyi"></style>

<cite id="tufyi"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

o3被曝成績「造假」，60多位數(shù)學泰斗集體被耍！OpenAI暗中操控，考卷提前看光

作者：新智元 2025-01-20 12:09:18

又爆大瓜！FrontierMath的o3驚人表現(xiàn)，竟是因OpenAI資助了Epoch AI而提前獲得大部分試題訪問權(quán)。OpenAI模型的性能究竟幾分是真，幾分炒作，愈來愈變得撲朔迷離。

不久前，OpenAI在「圣誕12連更」中發(fā)布的最強推理模型「o3」，毫無疑問地驚艷了所有人。

尤其是對于新近發(fā)布的數(shù)學基準FrontierMath，其準確率相比o1直接翻了12倍。

圖片

要知道FrontierMath可是Epoch AI聯(lián)合六十余位全世界的數(shù)學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出的。

其包括數(shù)百個原創(chuàng)的、格外具有挑戰(zhàn)性的數(shù)學問題，每個問題就算是專業(yè)數(shù)學家，也得需要數(shù)小時或數(shù)天的時間才能解決。

圖片

正因如此的高難度，o3這種對于FrontierMath驚人的突破才讓大家都對其推理能力而感到不同凡響。

但是，近日曝出一則消息，o3之所以能在短時間之內(nèi)就相比于o1提升12倍的準確率，是因為OpenAI資助了FrontierMath，并且可以訪問大部分數(shù)據(jù)集。

但那些為評測集創(chuàng)建問題和解答的數(shù)學家們卻完全被蒙在鼓里，根本不知道OpenAI是項目資助方并將獲得數(shù)據(jù)訪問權(quán)。

圖片

簡單來說就是：

我們無從得知OpenAI是否用這個評測集訓練了o3，因此他們宣稱的結(jié)果可信度值得質(zhì)疑
數(shù)學家們被有意隱瞞了真相，而大多數(shù)人甚至從未懷疑過會有一家AI公司在背后提供資金支持

對此，Epoch AI解釋稱：「我們承認OpenAI確實可以訪問大部分FrontierMath的問題和解決方案，但有一個OpenAI未見過的保留集使我們能夠獨立驗證模型能力。我們有口頭協(xié)議這些材料不會用于模型訓練。」

但是這所謂與OpenAI達成的「口頭協(xié)議」——呵，現(xiàn)在還有誰會相信OpenAI的承諾？

圖片

根據(jù)網(wǎng)上的各種報道，F(xiàn)rontierMath中的難題本應都是未公開的，目的就是防止AI公司利用這些數(shù)據(jù)訓練模型。

然而現(xiàn)在看來，「AI公司根本接觸不到這個數(shù)據(jù)集」這一點，實際上卻是Epoch AI和OpenAI刻意制造出的假象。

但考慮到OpenAI前科累累的欺騙和誤導行為——從蒙騙自家董事會，到強迫前員工簽署秘密的不誹謗協(xié)議，應有盡有。

所以這次的事件，多少有種「意料之外，情理之中」的意味了。

Epoch AI首席數(shù)學家回應

消息曝出后，Epoch AI首席數(shù)學家Elliot Glazer對此進行了回應。

他首先是承認了自己的錯誤，并對因為沒有被告知真相而自主做出貢獻的數(shù)學家致以歉意。

而對于o3那驚人的25.2%的準確率，他只是個人層面上表示相信，卻沒有一個真實可靠、有理有據(jù)的保證。

圖片

Epoch AI聯(lián)創(chuàng)Tamay Besiroglu也正式發(fā)布了博客作為回應。

對于此次事件，Tamay給出的解釋是：「我們的合同明確禁止披露資金來源信息以及OpenAI可以訪問大部分（但不是全部）數(shù)據(jù)集的事實?！?/p>

現(xiàn)在回想起來，我們應該更積極地爭取向評測集貢獻者及時公開相關信息的權(quán)利。我們對此承擔責任，并承諾未來會做得更好。

雖然我們確實向部分數(shù)學家告知了來自lab的資金支持，但這種溝通并不系統(tǒng)，也沒有具體說明合作方。

這種不一致的溝通方式是我們的疏忽。我們應該一開始就堅持爭取公開合作關系的權(quán)利，尤其是對那些創(chuàng)建問題的數(shù)學家們。

僅在o3發(fā)布前后才獲得披露OpenAI參與的許可是遠遠不夠的。參與項目的數(shù)學家們有權(quán)知道誰可能會接觸到他們的工作。

盡管我們受到合同條款的限制，但我們應該將對貢獻者的透明度作為與OpenAI合作的基本前提。

同時，對于FrontierMath他仍然聲稱：「OpenAI完全支持我們維護獨立的未見測試集的決定——這是防止過擬合和確保準確評估進展的重要保障?！?/p>

在交流中，OpenAI的員工將FrontierMath稱為「嚴格保留」的評估集，這種公開表述與我們的理解一致。

而且，我想強調(diào)的是，擁有真正未被訓練數(shù)據(jù)污染的測試集對各個lab都很重要。

從項目伊始，F(xiàn)rontierMath就被設計和定位為一個評估工具，我們相信當前的安排完全符合這一初衷。

對于未來的合作，我們將致力于提高透明度，確保貢獻者能在項目初期就清楚了解資金來源、數(shù)據(jù)訪問權(quán)限和使用目的等信息。

圖片

總結(jié)來看，Epoch AI的確意識到了這次事件的嚴重性，但是很多回應依然停留在「公關套詞」層面，并且全程都在甩鍋稱自己不說是因為「合同」的限制。

圖片

已有端倪，激起熱議

一石激起千層浪，紐約大學教授Gary Marcus，亞利桑那州立大學計算機教授Subbarao Kambhampati等大佬，紛紛發(fā)文對OpenAI這一的行為表示譴責。

圖片

圖片

圖片

圖片

其實，在去年12月剛發(fā)布時，便有參與o3-mini早期測試的研究人員發(fā)現(xiàn)了這一端倪。

比如Open Vision Engineering的創(chuàng)始人Akshay Narisetti在推上po出的發(fā)現(xiàn)，就從側(cè)面印證了這次的爆料：

o3-mini在ARC-AGI中的正確率為156/400
o3-mini在Frontiermath上的表現(xiàn)并不理想

根據(jù)實測結(jié)果，模型擅長解決特定類型的問題，但泛化能力還未完全成熟。在結(jié)構(gòu)化任務上表現(xiàn)優(yōu)異，但在需要多維度推理能力的問題上仍有明顯短板。

圖片

對此，谷歌DeepMind的研究員「Ted Xiao」分析認為，這種影響可以有兩個極端的解釋：

1. 糟糕，OpenAI正在操縱benchmark，還把測試題目泄漏進訓練數(shù)據(jù)里了！2. OpenAI只是用FrontierMath的私有題庫來指導新訓練數(shù)據(jù)的整體設計方向和目標，以及設計推理路徑。

當然了，也有沒那么極端的。比如，稍微改改題目內(nèi)容創(chuàng)建新的訓練數(shù)據(jù)，這樣從技術角度來說，確實沒有直接用測試數(shù)據(jù)中的token來訓練。

圖片

如今，SOTA模型之間的競爭已經(jīng)白熱化。如果使用這種投機取巧的方式，模型在實際應用場景中就會原形畢露（缺乏泛化能力）。

這種冒險頂尖AI實驗室可承擔不起，因此于理來說，OpenAI更可能采用第二種方式。

但即便如此，這一行為依然讓o1和o3在FrontierMath上，表現(xiàn)得比在其他未經(jīng)優(yōu)化的復雜推理領域中更亮眼。

不過，這種差距應該不會像某些在MMLU上采用第一種手段的「小語言模型」那樣——評測分數(shù)和實際能力簡直是天壤之別。

對于那些堅信OpenAI用了第一種方法、偷偷把測試數(shù)據(jù)混進去的人，我建議：不妨等等看o3在實際應用場景和其他評測中，跟下一代重點強化推理能力的頂尖模型相比，表現(xiàn)如何。

到時就知道，o3是不是只在FrontierMath上特別強，在其他地方就不行了。

參考資料：

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

責任編輯：武曉燕來源：新智元

OpenAI AI Epoch AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="xugdq"></blockquote>