我用GPT-4參加阿里數學競賽!官方:今年歡迎,七萬獎金憑本事拿走
大模型要在數學競賽上跟人類同場競技啦!
最新消息,阿里巴巴全球數學競賽,今日官宣開啟報名。依然不限年齡、國籍、職業(yè),有意思的是,這次甚至突破了碳基硅基的限制——
首次向AI開放,誠邀全球大模型參賽。
不僅如此,獲勝AI最高還可獲得10000美元(約合7.2萬元人民幣)獎金。
如此因崔斯汀的消息,當即引起了網友們的關注。
我們還打聽到,國內外有不少高校研究團隊和大模型創(chuàng)業(yè)公司已經表達出濃厚興趣,準備參賽。
新設「AI挑戰(zhàn)賽」
具體來看規(guī)則。
2024阿里全球數賽,在預選賽階段增設了一場AI挑戰(zhàn)賽。
和參加常規(guī)賽的人類選手一樣,大模型們也要對同一套預賽試題作出解答,考核內容的難度相當于數學本科一年級水平,重點考察AI的數學邏輯推理與問題解決的能力。
賽制方面,數賽官網已在今天(3月14日)開放統一報名通道,大模型參賽團隊須在報名頁勾選AI參賽選項。
完成報名后,官方會提供歷屆數賽初賽的真題和答案,讓大模型選手們可以在正式比賽前先刷刷題練練手。
4月13日-15日,官網將開啟初賽考試通道,參賽選手需要在此期間完成答題,并在系統中提交人類評委看得懂的答卷。
組委會將根據大模型在此過程中展現出的創(chuàng)新性、解題效率、解題過程的邏輯性等因素綜合評分,并給出具體評語。
最終得分排名前三的AI將依次獲得10000美元、5000美元和2000美元的獎金。如果所有AI均不能有效作答,則獎金會累積滾動到下屆賽事的獎金池。
值得一提的是,AI挑戰(zhàn)賽允許人類使用提示詞工程來調教大模型。
但為了確保公平競賽,避免人類替考,參賽者需要在開賽前就提交模型代碼或Prompt,以供校驗復現。
(這波是反向防作弊了)
大模型挑戰(zhàn)數學競賽·實測版
正式比賽尚未開始,但顯然,面對數學競賽題,AI具體會有怎樣的表現,已經成為這屆阿里數學競賽的關注焦點之一。
為了滿足大家伙兒(包括我們自己)的好奇心,量子位已經率先要到了歷屆初賽的真題和參考答案,咱們就請出當前最強的兩位通用大模型選手——GPT-4和Claude 3,來個真題演練,先睹為快。
Round 1:選擇題
開胃小菜。先來這道2023年阿里數學競賽初賽的一道圖論題:
還是先來看GPT-4的表現。
在代碼解釋器的加持之下,GPT-4成功選對了C選項,即90≤S≤100。并且,GPT-4也給出了具體的解釋:
它通過簡化模型估算出等待總時間最小可能值是81,考慮到實際線路中可能出現更多必須直行和左轉的情況,結合選項,S值會更接近90而小于100。
△GPT-4真的很話癆
同樣的題目拋給Claude 3:
Claude 3成功判斷了題型,但很遺憾回答錯誤。
不過如果我們稍稍給點提示,比如:是否能將小明行駛的路線看成一個100邊形,來嘗試解題。
Claude 3瞬間就get到了思路,這次計算正確:S=96,選C。
這么看來,大模型的表現還是可圈可點的。它們在工具加持又或者在人類點撥的情況下,能夠給出正確答案的同時,還能給出具體的解題思路。
Round 2:證明題
選擇題之外,證明題也是阿里數學競賽必出的題型。我們也挑選了一道題來進行測試。
先說正確結論:對于第一問,答案是存在;對于第二問,答案是不存在。
來看GPT-4的答題情況:
Claude 3的答案:
這一次,打分權交給你,你覺得GPT-4和Claude 3各能得幾分?
總結一下,從測試結果來看,大模型們挑戰(zhàn)阿里數學競賽題,還是難度不小。
盡管基礎知識豐富,能夠初步判斷出所考題型;計算速度也飛快,但也常會出現胡言亂語的狀況,仍需要人類的指正和點撥。
“AI改變數學的時代正在到來”
在我們的初步測試中,大模型的解題表現雖然不如那些能闖入決賽的人類選手,但已經可以想見,在這種新的碰撞中,我們可以期待看到更多AI在抽象思維、邏輯思辨和巧妙解題方面能力的展示。
對此,阿里全球數學競賽組委會也做出了闡釋:
我們希望通過引入AI參賽,可以推動人工智能在數學領域的研究和應用創(chuàng)新,特別是探索AI在解決復雜數學問題方面的潛力,催生新的模型和訓練方法。
雖然我們預計今年AI還可能不及人類選手的水平,但是未來差距無疑會不斷縮短,甚至于超越。這一旦發(fā)生,會倒逼競賽難度提升,也會讓人類選手迸發(fā)更大潛能。
此外,數學本身就是AI的基礎,我們也會去解讀一些優(yōu)秀AI背后的數學原理,向公眾展示數學對于AI的重要性和應用前景,希望能夠提升大眾,特別是青少年對基礎學科的興趣。
早在ChatGPT剛開始流行之時,以陶哲軒等人為代表的數學家們,就對大模型保持高度關注。
陶哲軒本人不僅將多種AI工具都納入了自己的工作流,還大膽預言:
當與形式證明驗證器、互聯網搜索和數學符號包等工具整合時,2026年的AI,如果使用得當,將成為數學研究中值得信賴的共同作者,并且在許多其他領域也是如此。
而《紐約時報》更是在對多位知名數學家進行采訪后,給出了這樣的評論:
AI改變數學的時代正在到來。
AI is coming for mathematics, too.
現在,阿里全球數學競賽這樣備受關注的賽事主動擁抱AI,再次印證了這一新趨勢。
背后透露出的,還有數學界面對新一輪技術變革所產生的期待。
對于人類選手而言,AI與數學更深入的結合趨勢已經顯現,這樣的比賽,可以作為新一類接觸的橋梁。
對于數學家和AI研究者們而言,這樣的平臺為AI for Math提供了一個測試研究成果的基準,有助于推動更多數學與AI的前沿研究。
而對于大眾,這也是進一步理解AI能力,和數學魅力的一扇窗口。
據說,此次大賽主辦方還將聯合魔搭社區(qū),準備招募更多的開發(fā)者來參與;到時候一些國內主流的開源數學模型也出來打配合,同開發(fā)者一道與一眾數學愛好者們同場競技!
哦莫,已經可預見的是,數學界的人機混戰(zhàn)一觸即發(fā)~
所以廣大開發(fā)者們也不要光看了,趕緊來試試,沒準兒還能賺點生活費……
你說是吧~