自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o1 pro挑戰(zhàn)美國(guó)本科生最難數(shù)學(xué)競(jìng)賽,30分鐘交卷卻被「大佬」現(xiàn)場(chǎng)打臉!

人工智能 新聞
美國(guó)本科生最難數(shù)學(xué)競(jìng)賽,o1 pro竟然只用半小時(shí)就全部做出來(lái)了?要知道,參賽學(xué)生的正常答題時(shí)長(zhǎng)是6小時(shí)。不過(guò)網(wǎng)友們仔細(xì)看它的解題過(guò)程后發(fā)現(xiàn),錯(cuò)誤率似乎高達(dá)100%,12道題沒(méi)有一道完全正確?

一年一次的北美最難本科數(shù)學(xué)競(jìng)賽,剛在MIT沃克紀(jì)念堂(Walker Memorial)落幕。

圖片

這場(chǎng)普特南數(shù)學(xué)競(jìng)賽(Putnam Exam),每年匯聚了來(lái)自北美數(shù)百所高校的3500多名學(xué)生前來(lái)參賽。

既有個(gè)體,也有團(tuán)體,他們需要在總時(shí)長(zhǎng)為6小時(shí)的時(shí)間內(nèi)完成作答。

在這場(chǎng)比賽還未開(kāi)始之前,來(lái)自IBM研究員曾暗示,在公開(kāi)題目發(fā)布后,會(huì)有人對(duì)大模型(AlphaProof、o1、Gemini)進(jìn)行題目測(cè)試。

圖片

恰好,OpenAI最近發(fā)布了滿(mǎn)血版o1,以及最強(qiáng)o1 pro,不知它們?cè)谶@場(chǎng)考試表現(xiàn)如何?

圖片

相較于o1-preview,o1數(shù)學(xué)性能提升27%,o1 pro提升36%

o1 Pro半小時(shí)做出全部賽題

令人吃驚的是,有網(wǎng)友把此次普特南考試的考題給了OpenAI o1 pro。

圖片

圖片

圖片

6個(gè)小時(shí)的賽題,它居然半小時(shí)就做出來(lái)了!

圖片

用時(shí)最長(zhǎng)的一道題花了6分52秒,最短的只用了1分12秒(上下滑動(dòng)查看)

詳細(xì)看了答案的網(wǎng)友們表示松了一口氣:o1 pro還遠(yuǎn)未達(dá)到普特南考試的水平。

比如對(duì)于A1這道題,雖然它只用了1分鐘58秒就做了出來(lái),總體思路也是正確的,但仍有很多錯(cuò)誤。

圖片

圖片

上下滑動(dòng)查看

A2也沒(méi)有完全解決。

如果在普特南答卷上寫(xiě)「……等等強(qiáng)烈表明我是對(duì)的」,顯然你不會(huì)得分。

圖片

圖片

A3的答案,是錯(cuò)誤的。

網(wǎng)友直接給出了正確的解題思路:可以利用鴿巢原理(抽屜原理)來(lái)證明在給定約束條件下,只存在唯一一個(gè)有效雙射函數(shù),并由此可以推導(dǎo)出不存在滿(mǎn)足題目要求的a、b、c、d值。

圖片

圖片

上下滑動(dòng)查看

對(duì)于B1,答案在n和k的形式上是正確的,但整個(gè)證明方法完全站不住腳。

圖片

圖片

上下滑動(dòng)查看

總之,o1 pro似乎沒(méi)有一道題是正確的。

這個(gè)結(jié)果屬實(shí)有點(diǎn)驚人,因?yàn)槠渲幸恍﹩?wèn)題難度沒(méi)有那么高,比一些AIME競(jìng)賽題容易。

圖片

當(dāng)然,如果從做出題目的數(shù)量來(lái)說(shuō),o1 pro的表現(xiàn)還是可圈可點(diǎn)。

目前來(lái)說(shuō),o1 pro做出的題目都是錯(cuò)誤且不完整的。如果我們不以數(shù)學(xué)家的角度評(píng)判,可以認(rèn)為它們很聰明。

圖片

更多評(píng)測(cè)

CodeSignal創(chuàng)始人Tigran Sloyan開(kāi)啟了兩輪大測(cè)試,讓o1 pro分別去解決普特南數(shù)學(xué)競(jìng)賽A1題,以及IMO試題。

顯然,在普特南數(shù)學(xué)競(jìng)賽測(cè)試中,o1 pro成功做對(duì)了第一題。

得分+10,就已經(jīng)超越了30%的參賽者。

圖片

如下,是o1 pro的全部解題過(guò)程。

圖片

圖片

而在IMO測(cè)試中,o1 pro完美解決了2006年測(cè)試集中最難的Q3題,僅僅用了6分48秒。

相較之下,在2006年全球大約500名19歲以下頂尖數(shù)學(xué)天才中,只有28人能在4個(gè)半小時(shí)內(nèi)完全解出這道題。而美國(guó)隊(duì)的6名成員,卻無(wú)一人做到。

圖片

這是o1 pro的分析過(guò)程,雖然很簡(jiǎn)潔,好像省略了很多證明步驟。

Sloyan特別要求讓其展示第4、5步的具體證明過(guò)程,o1 pro隨后擴(kuò)展出的思維過(guò)程同樣令人印象深刻。

而且,他還測(cè)試其他模型(包括o1),嘗試做這道題目,卻都失敗了。

圖片

沒(méi)想到,這個(gè)結(jié)果驚動(dòng)了xAI科學(xué)家Hieu Pham。

他表示,o1 pro的答案完全是胡說(shuō)八道。如果在IMO競(jìng)賽中提交這樣的解答,最多也只能給1分(滿(mǎn)分7分)。如果遇到寬松的評(píng)判員,最多給2分,不會(huì)再多了。

圖片

他接著稱(chēng),訓(xùn)練數(shù)據(jù)問(wèn)題是一部分,這個(gè)答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的題目和解答就像是數(shù)學(xué)CoT的黃金訓(xùn)練數(shù)據(jù)集,所以這些模型一會(huì)被反復(fù)訓(xùn)練無(wú)數(shù)遍。

圖片

另一位研究員Jason Li測(cè)試后驚嘆道,o1似乎已經(jīng)解決掉了一半的問(wèn)題(60分/滿(mǎn)分120),這在普特南競(jìng)賽的歷史排名中大約能沖進(jìn)前2%的參賽者之列。

圖片

o1挑戰(zhàn)23年賽題

今年9月,o1發(fā)布不久后,AI評(píng)估平臺(tái)HoneyHive曾讓新模型去挑戰(zhàn)了23年普特南數(shù)學(xué)競(jìng)賽的題目。

當(dāng)時(shí),OpenAI公開(kāi)的測(cè)試結(jié)果顯示,o1的數(shù)學(xué)性能大幅超越了GPT-4o,飆升43.3%實(shí)現(xiàn)了質(zhì)的飛升。

圖片

在這場(chǎng)比賽中,o1-preview拿下了79分(滿(mǎn)分120)位列第9,o1-mini取得了73,排名第19。

圖片

圖片

2023年普特南數(shù)學(xué)競(jìng)賽問(wèn)題集,如下所示:

圖片

HoneyHive的評(píng)估方法是,每個(gè)模型重復(fù)運(yùn)行2次,并讓GPT-4o作為標(biāo)準(zhǔn)的判斷者,以評(píng)估模型的答案,最終再由人類(lèi)專(zhuān)家進(jìn)行驗(yàn)證。

下面是讓GPT-4o承擔(dān)「評(píng)估者」角色的提示示例。

圖片

研究人員發(fā)現(xiàn),第二次運(yùn)行時(shí),o1-preview得分從51提高到79,o1-mini從54提高到73,GPT-4o也從43提高到57。

在第二輪中,所有的模型都在努力給出證明,具體來(lái)說(shuō):

o1-preview完全解決了問(wèn)題A1、A3、B4,部分解決了問(wèn)題B2,但證明不足。

o1-mini的結(jié)果,與o1-preview類(lèi)似。GPT-4o僅是完全解決了A1問(wèn)題。

有趣的是,這些模型的結(jié)果雖然是正確的,但解決方案缺乏詳細(xì)的分步解釋?zhuān)貏e是對(duì)于證明類(lèi)的問(wèn)題。

比如,o1-preview和o1-mini在問(wèn)題B2上都因證據(jù)不足、不夠嚴(yán)謹(jǐn)失掉了一些分?jǐn)?shù),盡管最終結(jié)果是正確的。

圖片

他們認(rèn)為,這可能是因?yàn)锳I模型在表達(dá)或訪問(wèn)其內(nèi)部「思維鏈」時(shí),存在一定的局限性。

不過(guò),IBM研究員表示,能夠拿下一定的高分,當(dāng)然也存在了數(shù)據(jù)泄露的可能性。

圖片

比賽介紹

普特南數(shù)學(xué)競(jìng)賽(全稱(chēng)William Lowell Putnam Mathematical Competition)專(zhuān)為美國(guó)和加拿大的本科生設(shè)立,每年于12月舉辦一屆,今年是第85屆年賽。

每年競(jìng)賽一共分為兩場(chǎng)考試,分別是上午A試,下午B試,各三小時(shí)。

這場(chǎng)比賽可以追溯到1938年,最初只是各個(gè)高校數(shù)學(xué)系之間的友好較量。如今,它已經(jīng)發(fā)展成為世界上最具權(quán)威的大學(xué)數(shù)學(xué)競(jìng)賽。

圖片

每年12月,數(shù)百所大學(xué)數(shù)學(xué)尖子生在為期6小時(shí)數(shù)學(xué)中展現(xiàn)自己的數(shù)學(xué)才華。

盡管考生需要獨(dú)立完成試卷,但比賽同時(shí)設(shè)立了團(tuán)隊(duì)的環(huán)節(jié)。

普特南數(shù)學(xué)競(jìng)賽不僅僅是一場(chǎng)知識(shí)的較量,更是一個(gè)榮譽(yù)的殿堂。排名最高的團(tuán)隊(duì)的數(shù)學(xué)系可以獲得現(xiàn)金獎(jiǎng)勵(lì),學(xué)生成員還將被授予「普特南研究員」的稱(chēng)號(hào)。

與此同時(shí),比賽還設(shè)立了「The Elizabeth Lowell Putnam Prize」獎(jiǎng)項(xiàng),專(zhuān)為表現(xiàn)卓越的女性數(shù)學(xué)家頒獎(jiǎng)。

去年第84屆比賽中,個(gè)體獲獎(jiǎng)?wù)?名全部來(lái)自MIT,團(tuán)體獲獎(jiǎng)?wù)咔拔迕卜謩e來(lái)自世界高校:MIT、哈佛、杜克、斯坦福、多倫多大學(xué)。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-10 07:00:00

2025-02-24 13:00:00

2024-11-25 12:50:14

2017-01-10 09:07:53

tcpdumpGET請(qǐng)求

2017-06-09 11:20:47

高考AI教育

2013-05-03 10:57:09

泛型泛型教程

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2019-06-17 09:00:00

代碼開(kāi)發(fā)工具

2024-12-23 10:20:00

數(shù)據(jù)訓(xùn)練模型

2020-05-22 10:20:27

Shiro架構(gòu)字符串

2020-09-29 15:38:16

WeChat禁令企業(yè)

2017-07-18 11:10:45

2018-06-20 09:23:07

AI專(zhuān)業(yè)科技

2016-10-28 14:34:26

MacBook Pro蘋(píng)果升級(jí)

2024-12-06 08:36:31

2013-06-28 14:30:26

棱鏡計(jì)劃棱鏡棱鏡監(jiān)控項(xiàng)目

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區(qū)塊鏈

2013-12-11 10:00:14

C++新特性C
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)