小小井字棋難倒大模型??大神卡帕西被OpenAI在線踢館了
寶可夢之后,讓大模型玩井字棋又成了一個(gè)新的熱門挑戰(zhàn)。
起因是網(wǎng)友在X上吐槽大模型寶可夢玩得不夠好,結(jié)果被大神Karpathy翻了牌子:
別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。
結(jié)果Karpathy的話引發(fā)了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經(jīng)典的話含金量還在上升:
對人類而言很簡單的任務(wù),對機(jī)器來說反而很難;對人類而言難的任務(wù),對機(jī)器來說反而簡單。
不過也有人表示不服,其中就包括OpenAI的Noam Brown,他表示讓o3玩井字棋完全沒問題,甚至還能看圖下棋。
大模型挑戰(zhàn)井字棋
我們也嘗試了一下,用不同的方式和o3對戰(zhàn)。
第一種方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局輸入給o3,并要求其用同樣的方式輸出。
思考約12秒之后,o3首先占據(jù)了棋盤中央的位置,我們落子之后,o3又思考了23秒,放置了第二顆X棋子。
接下來的兩個(gè)回合情況是這樣,其實(shí)當(dāng)o3占據(jù)對角線上兩個(gè)位置的時(shí)候就已經(jīng)鎖定了勝局。
不過有意思的是,直到已經(jīng)連成一條線,o3都沒發(fā)現(xiàn)自己已經(jīng)贏了。
由于沒有提示,我們誤以為游戲還在繼續(xù),又放了一顆O旗之后o3才發(fā)現(xiàn)原來自己獲勝了。
第二輪,交換先后手,我們先占據(jù)中間位置,然后o3選擇了頂角……
最終,這輪游戲以平局結(jié)束。
接下來換一種方式,仿照Noam的做法把殘局寫在紙上拍給o3。
一開始看上去是在正常對弈,并且會以平局收場,但如果讓o3自己分析接下來的趨勢,竟然發(fā)現(xiàn)它開啟了耍賴模式。
當(dāng)然,在糾正了它的錯(cuò)誤認(rèn)識后,最終還是成功分析出了平局的必然結(jié)果。
順便提一句,如果是4o,過程中可能會直接把我們下棋之后的棋局復(fù)制一遍,看到這就沒有繼續(xù)進(jìn)行下去的必要了。
(之所以改用感嘆號,是因?yàn)?會被識別成Markdown符號導(dǎo)致棋局無法正常顯示,且在4o中Markdown關(guān)閉失敗)
實(shí)際上,OpenAI在之前的o3-mini時(shí),就已經(jīng)拿下了井字棋游戲,Noam還聲稱這是首個(gè)“始終正確回答”井字棋問題的模型。
在Karpathy的評論區(qū),還有人曬圖稱Gemini也能正確處理井字棋問題。
今年2月,還有人搞了個(gè)大模型井字棋對戰(zhàn),并按照大模型競技場一樣計(jì)算ELO評分,當(dāng)時(shí)o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。
Karpathy也cue到了這位網(wǎng)友,希望他能重啟這個(gè)榜單,同時(shí)表示自己認(rèn)為井字棋(對大模型而言)仍然是一個(gè)較難的任務(wù)。
寶可夢·藍(lán)全部徽章被Gemini拿下
看完井字棋,再來說說引發(fā)Karpathy評論的原帖中提到的寶可夢。
之前很多民間團(tuán)隊(duì)都在嘗試用大模型挑戰(zhàn)寶可夢游戲,今年被Claude帶火。
甚至還搞了線上直播。
不過現(xiàn)在的最新情況是,Claude已經(jīng)被后來居上的Gemini反超——后者已經(jīng)取得了《寶可夢·紅》中的幾乎所有勛章。
同時(shí),從OpenAI跳槽到谷歌做AI Studio產(chǎn)品負(fù)責(zé)人的Logan Kilpatrick也宣稱,Gemini在另一款寶可夢游戲《寶可夢·藍(lán)》當(dāng)中已經(jīng)取得了最后的八個(gè)徽章。
按照Logan的說法,Gemini 2.5 Pro目前是世界上(玩寶可夢)最強(qiáng)的模型。
當(dāng)然除了通用模型,還有團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)方法訓(xùn)練小模型專門挑戰(zhàn)《寶可夢·紅》。
團(tuán)隊(duì)介紹,其研究在2020年就已經(jīng)開始,并在今年2月成功用參數(shù)量不到1000萬的模型成功實(shí)現(xiàn)。
學(xué)術(shù)界當(dāng)中,也有來自佐治亞理工學(xué)院的華人學(xué)者利用上下文強(qiáng)化學(xué)習(xí)技術(shù),研發(fā)出了“寶可夢智能體”。
它可以在天梯對戰(zhàn)中與人類玩家一較高下,對戰(zhàn)專業(yè)玩家勝率達(dá)到了56%。
寶可夢、井字棋之后,下一個(gè)會被大模型當(dāng)做Benchmark的游戲會是什么呢?