自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小小井字棋難倒大模型??大神卡帕西被OpenAI在線踢館了

人工智能 新聞
別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。

寶可夢之后,讓大模型玩井字棋又成了一個(gè)新的熱門挑戰(zhàn)。

起因是網(wǎng)友在X上吐槽大模型寶可夢玩得不夠好,結(jié)果被大神Karpathy翻了牌子:

別盯著寶可夢了,讓大模型玩井字棋會更有趣,它們不會。

圖片

結(jié)果Karpathy的話引發(fā)了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經(jīng)典的話含金量還在上升:

對人類而言很簡單的任務(wù),對機(jī)器來說反而很難;對人類而言難的任務(wù),對機(jī)器來說反而簡單。

圖片

不過也有人表示不服,其中就包括OpenAI的Noam Brown,他表示讓o3玩井字棋完全沒問題,甚至還能看圖下棋。

圖片

大模型挑戰(zhàn)井字棋

我們也嘗試了一下,用不同的方式和o3對戰(zhàn)。

第一種方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局輸入給o3,并要求其用同樣的方式輸出。

思考約12秒之后,o3首先占據(jù)了棋盤中央的位置,我們落子之后,o3又思考了23秒,放置了第二顆X棋子。

圖片

接下來的兩個(gè)回合情況是這樣,其實(shí)當(dāng)o3占據(jù)對角線上兩個(gè)位置的時(shí)候就已經(jīng)鎖定了勝局。

不過有意思的是,直到已經(jīng)連成一條線,o3都沒發(fā)現(xiàn)自己已經(jīng)贏了。

圖片

由于沒有提示,我們誤以為游戲還在繼續(xù),又放了一顆O旗之后o3才發(fā)現(xiàn)原來自己獲勝了。

圖片

第二輪,交換先后手,我們先占據(jù)中間位置,然后o3選擇了頂角……

圖片

最終,這輪游戲以平局結(jié)束。

圖片

接下來換一種方式,仿照Noam的做法把殘局寫在紙上拍給o3。

一開始看上去是在正常對弈,并且會以平局收場,但如果讓o3自己分析接下來的趨勢,竟然發(fā)現(xiàn)它開啟了耍賴模式。

圖片

當(dāng)然,在糾正了它的錯(cuò)誤認(rèn)識后,最終還是成功分析出了平局的必然結(jié)果。

圖片

順便提一句,如果是4o,過程中可能會直接把我們下棋之后的棋局復(fù)制一遍,看到這就沒有繼續(xù)進(jìn)行下去的必要了。

(之所以改用感嘆號,是因?yàn)?會被識別成Markdown符號導(dǎo)致棋局無法正常顯示,且在4o中Markdown關(guān)閉失敗)

圖片

實(shí)際上,OpenAI在之前的o3-mini時(shí),就已經(jīng)拿下了井字棋游戲,Noam還聲稱這是首個(gè)“始終正確回答”井字棋問題的模型。

圖片

在Karpathy的評論區(qū),還有人曬圖稱Gemini也能正確處理井字棋問題。

圖片

今年2月,還有人搞了個(gè)大模型井字棋對戰(zhàn),并按照大模型競技場一樣計(jì)算ELO評分,當(dāng)時(shí)o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。

Karpathy也cue到了這位網(wǎng)友,希望他能重啟這個(gè)榜單,同時(shí)表示自己認(rèn)為井字棋(對大模型而言)仍然是一個(gè)較難的任務(wù)。

圖片

寶可夢·藍(lán)全部徽章被Gemini拿下

看完井字棋,再來說說引發(fā)Karpathy評論的原帖中提到的寶可夢。

之前很多民間團(tuán)隊(duì)都在嘗試用大模型挑戰(zhàn)寶可夢游戲,今年被Claude帶火。

圖片

甚至還搞了線上直播。

圖片

不過現(xiàn)在的最新情況是,Claude已經(jīng)被后來居上的Gemini反超——后者已經(jīng)取得了《寶可夢·紅》中的幾乎所有勛章。

圖片

同時(shí),從OpenAI跳槽到谷歌做AI Studio產(chǎn)品負(fù)責(zé)人的Logan Kilpatrick也宣稱,Gemini在另一款寶可夢游戲《寶可夢·藍(lán)》當(dāng)中已經(jīng)取得了最后的八個(gè)徽章。

按照Logan的說法,Gemini 2.5 Pro目前是世界上(玩寶可夢)最強(qiáng)的模型。

圖片

當(dāng)然除了通用模型,還有團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)方法訓(xùn)練小模型專門挑戰(zhàn)《寶可夢·紅》。

團(tuán)隊(duì)介紹,其研究在2020年就已經(jīng)開始,并在今年2月成功用參數(shù)量不到1000萬的模型成功實(shí)現(xiàn)。

圖片

學(xué)術(shù)界當(dāng)中,也有來自佐治亞理工學(xué)院的華人學(xué)者利用上下文強(qiáng)化學(xué)習(xí)技術(shù),研發(fā)出了“寶可夢智能體”。

圖片

它可以在天梯對戰(zhàn)中與人類玩家一較高下,對戰(zhàn)專業(yè)玩家勝率達(dá)到了56%。

圖片

寶可夢、井字棋之后,下一個(gè)會被大模型當(dāng)做Benchmark的游戲會是什么呢?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-02-19 13:45:14

OpenAIGPT-2模型

2025-03-03 08:25:00

模型AI訓(xùn)練

2025-02-11 08:53:57

2024-11-12 09:14:52

2025-02-06 16:40:09

2024-07-17 09:17:50

2024-05-10 12:58:08

2023-11-14 17:53:39

模型訓(xùn)練

2015-09-23 10:43:09

P4語言OpenFlowSDN

2023-11-03 07:47:12

機(jī)器資源大模型:

2023-05-16 20:47:38

2025-03-25 09:43:03

2024-09-30 12:51:56

谷歌AI模型

2023-06-25 15:04:09

2024-11-11 17:35:11

2023-10-26 08:40:15

模型隱私推理

2023-09-19 12:45:36

2024-06-25 12:40:10

2009-04-23 10:17:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號