AI在《我的世界》PK蓋樓,新舊Claude差距過于明顯,網(wǎng)友:審美也是智力的一種
測評大模型Agent能力,從未如此直觀。
新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓,差距不要太明顯,引來大量圍觀。
圖片
如果讓AI不斷迭代,甚至能蓋出一片建筑群。
為了避免Claude團隊糟糕的命名方式造成混淆,下面跟隨adi暫且把“新版Claude 3.5 Sonnet”稱為“Sonnet 3.6”。
圖片
作者adi戲稱其為目前“唯一可靠的評測基準”。
Aidan Bench作者Aidan McLau認為評測基準界正需要這個,審美也與智力顯著相關。
他甚至愿意提供資金,把這個項目擴展成完整的評測。
圖片
總之在開源社區(qū)幫助下,代碼迅速上架GitHub,更多模型測試結果陸續(xù)出爐中。
圖片
比如以慢思考著稱的OpenAI o1系列,o1-preivew確實蓋的更慢,但結構也更完整。o1-mini則無法勝任這個任務。
圖片
最終在人類喜好評估(2000+網(wǎng)友投票)中,Sonnet 3.6小贏了一手創(chuàng)意性。
如果不比創(chuàng)意比模仿真實建筑泰姬陵,o1-preview就占很大優(yōu)勢了。
圖片
照這個趨勢下去,這款經(jīng)典游戲很快就要從《別人的世界》變成《AI的世界》了……
新型MC Bench火了,競技場模式開發(fā)中
大模型在《我的世界》里蓋樓,并不是靠接管鼠標鍵盤,也不需要視覺理解能力。
而是通過文本提供上下文,并生成下一步操作指令,或許可以理解成根據(jù)棋盤行列編號下盲棋。
具體到游戲中,AI會控制一個角色,玩家只需要在聊天框中打字說明想要AI建造什么就可以了。
圖片
網(wǎng)友Mckay Wrigley制作了視頻教程,在15分鐘內(nèi)就可以使用開源代碼設置好測試環(huán)境。(地址在文末獲?。?/span>
圖片
使用mineflayer開源庫,可以把大模型生成的指令解析成可操作的API調(diào)用。
圖片
mindcraft開源庫中則提供了適合任意模型玩《我的世界》的通用提示詞,和少量in-context learning示例。
圖片
目前,MC Bench開源項目組打算進一步完善,做成類似Lmsys大模型競技場一樣的天梯機制,人類用戶投票,使用Elo算法記分排名。
圖片
與此同時,更多其他模型的測試結果也在持續(xù)更新中。
更多AI作品
Claude Sonnet非常擅長以塔為主題自由發(fā)揮,只需給到足夠算力。
圖片
圖片
o1-preview則可以發(fā)揮慢思考能力,用不同顏色的方塊排列出太陽系。
不僅天體的順序是正確的,連相對體積都有所體現(xiàn),當然如果太陽按真實比例會讓游戲崩潰……
圖片
小模型難以規(guī)劃復雜的建筑,但理解和還原簡單指令方面,gemini-1.5-flash勝過gpt-4o-mini。
圖片
讓開源大模型Llama 3 405B蓋一個反應它自己個性的東西,AI選擇了火坑上的鉆石墻。
圖片
整體看下來,最有意思的或許還是這個:
讓o1-preview自由發(fā)揮,隨便蓋一個酷的東西。
AI選擇搭了一個機器人形象,并拼出GPT三個字母。
圖片
作者透露,接下來會繼續(xù)測試一眾中等大小開源模型。
圖片
目前初步結果,阿里Qwen 2.5-14B表現(xiàn)不錯。
圖片
視頻教程:https://x.com/mckaywrigley/status/1849613686098506064
開源代碼:https://github.com/kolbytn/mindcrafthttps://github.com/mc-bench/orchestrator