自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o3數(shù)學成績作弊大瓜!提前讓測試機構(gòu)給真題,60多名數(shù)學大牛全被蒙在鼓里

人工智能
對于o3的成績,Ellot表示Epoch.ai無法給出承諾,但他個人相信OpenAI的報告是準確的,因為在他看來OpenAI“沒有撒謊的動機”。

OpenAI o3還沒上線,就被曝數(shù)學成績是靠作弊得來?!

Benchmark發(fā)布機構(gòu)內(nèi)部人員爆料稱,OpenAI給了他們經(jīng)費贊助。

就連包括陶哲軒在內(nèi)參與出題的60余名數(shù)學家,在消息曝光之前也都和普通公眾一樣蒙在鼓里。

直到o3發(fā)布,這一消息才被公開。這意味著嚴格保密的題目,OpenAI提前拿到了手中。

圖片圖片

這套數(shù)據(jù)集名叫FrontierMath,包含了由陶哲軒等60多名權(quán)威數(shù)學家命制的高難度題目。

陶哲軒就表示,這些題目足夠困擾AI幾年的時間;1998年菲爾斯獎得主Gowers也說,能解決其中的一個問題就已經(jīng)超越現(xiàn)在的能力范圍了。

當時也正是因為在這一測試基準上大幅領先,o3的能力更進一步被得到認可。

圖片圖片

Epoch.ai這邊,聯(lián)合創(chuàng)始人Tamay Besiroglu也回應并承認了秘密贊助和OpenAI提前拿到題目的傳聞,但否認題目被OpenAI拿來作弊。

圖片圖片

但有些網(wǎng)友并不買賬,表示OpenAI如果不使用這些信息還要訪問權(quán)限干什么,并推測有可能被用來訓練。

圖片圖片

專家被要求嚴格保密,但OpenAI卻能拿到題

這家名叫Epoch.ai的機構(gòu),開發(fā)了一款名為FrontierMath的數(shù)學測試基準,論文第一版預印本于去年11月7日(協(xié)調(diào)世界時,北京時間為8日凌晨)發(fā)布。

包括第一版在內(nèi),F(xiàn)rontierMath的論文在近兩個月的時間里一共發(fā)布了五個版本,但直到最后12月20日的第五版才披露了OpenAI的資助。

圖片圖片

不過也只是在腳注中提了一句,感謝OpenAI對構(gòu)建Benchmark的支持。

圖片圖片

并且12月20日剛好是OpenAI發(fā)布o3的日子,并且Besiroglu也透露,之前沒有公開正是由于OpenAI的保密要求

在o3推出之前,我們一直被限制披露合作關系,事后看來,我們應該更加努力地談判,以便能夠盡快向基準貢獻者保持透明。

如果不看OpenAI這場風波,F(xiàn)rontierMath是一套含金量非常高的測試基準,由全球六十余位數(shù)學家聯(lián)手命題,包括教授、IMO命題人、菲爾茲獎獲得者,其中就有大牛陶哲軒等人。

而且難度也非常高,包括數(shù)百個極具挑戰(zhàn)性的數(shù)學問題,在o3之前的模型解決率不到2%

哪怕o3真的作了弊,得分也才20多分。

圖片圖片

像下面的這道題目,在FrontierMath當中算是難度最低的一檔:

圖片圖片

正常來說,F(xiàn)rontierMath里的題目和答案是嚴格保密的,就連出題的數(shù)學家也被要求簽訂保密協(xié)議,甚至不能使用Overleaf、Colab或電子郵件傳輸有關題目的信息。

諷刺的是,這樣“嚴格保密”的題目卻被OpenAI拿到,而出題專家對OpenAI的情況毫不知情。

斯坦福博士、MIT羅德獎學金得主Carina Hong(洪樂潼)就表示,至少有六名專家能夠證實這一點,并且大部分專家表示不確定如果知道(OpenAI的獨家訪問權(quán))是否還會選擇貢獻。

圖片圖片

后來她表示,(和出題人)簽保密協(xié)議確實是為了防止數(shù)據(jù)污染,對OpenAI的目的則不做猜測。

圖片圖片

聯(lián)創(chuàng)承認錯誤,但否認OpenAI作弊

內(nèi)部爆料和外部質(zhì)疑之下,Epoch.ai聯(lián)創(chuàng)Besiroglu也承認了和OpenAI存在秘密協(xié)議,并表示沒有公開透明確實是“犯了一個錯誤”。

但Epoch.ai否認了OpenAI作弊的說法,表示一方面OpenAI拿到的數(shù)據(jù)并不是全部,另一方面OpenAI也口頭承諾拿到的數(shù)據(jù)不會用于模型訓練。

Besiroglu回應全文如下(中文為機翻):

圖片圖片

但對于Besiroglu提到的“口頭承諾”,有網(wǎng)友表示至少要有個書面的協(xié)議,但猜測OpenAI不會愿意提供,還有人補充說哪怕有書面材料也很難監(jiān)督實施。

不過到現(xiàn)在,確實是所有的回應都來自Epoch.ai這邊,OpenAI還沒給出說明。

圖片圖片

另外Epoch.ai首席數(shù)學家Ellot Glazer也承諾,之后會對受到的資助進行說明。

對于o3的成績,Ellot表示Epoch.ai無法給出承諾,但他個人相信OpenAI的報告是準確的,因為在他看來OpenAI“沒有撒謊的動機”。

同時他說Epoch.ai正在開發(fā)一個保留數(shù)據(jù)集,能夠確保OpenAI在測試之前無法事先接觸。

圖片圖片

不過有網(wǎng)友對“沒有動機”的說法表示懷疑,Ellot也進行了解釋,表示OpenAI沒有傻到搬起石頭砸自己的腳。

圖片圖片

話又說回來,o3到現(xiàn)在依然是個黑盒,到底是名副其實還是炒作噱頭,等到發(fā)布的那天就揭曉答案了。

參考鏈接:
[1]https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform

[2]https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/

[3]https://www.reddit.com/r/singularity/comments/1i4n0r5/this_is_so_disappointing_epoch_ai_the_startup/

[4]https://x.com/CarinaLHong/status/1880820323597357273

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-01-20 12:09:18

2025-01-20 09:15:16

2019-06-10 16:03:15

主流游戲本指標

2012-08-28 14:42:44

2023-05-12 07:17:55

電腦內(nèi)存通道

2024-12-23 07:40:00

AI模型數(shù)學

2025-04-22 09:18:57

2025-02-08 11:44:03

2015-06-26 10:21:15

數(shù)據(jù)中心數(shù)據(jù)中心設計

2025-04-21 08:22:25

2012-08-28 10:27:19

黑客

2024-08-09 12:50:02

2025-04-21 16:32:29

視覺模型AI

2017-04-17 08:35:12

Python數(shù)學算法

2025-04-17 06:10:57

2023-11-16 12:36:00

AI數(shù)據(jù)

2024-11-12 09:14:52

2024-05-09 08:33:33

2024-12-24 16:15:04

2025-02-14 10:47:40

點贊
收藏

51CTO技術(shù)棧公眾號