自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<dl id="jdkyn"></dl>

<blockquote id="jdkyn"><p id="jdkyn"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AI在《我的世界》PK蓋樓，新舊Claude差距過于明顯，網(wǎng)友：審美也是智力的一種

2024-11-15 13:22:07

測評大模型Agent能力，從未如此直觀。新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓，差距不要太明顯，引來大量圍觀。

測評大模型Agent能力，從未如此直觀。

新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓，差距不要太明顯，引來大量圍觀。

圖片

如果讓AI不斷迭代，甚至能蓋出一片建筑群。

為了避免Claude團隊糟糕的命名方式造成混淆，下面跟隨adi暫且把“新版Claude 3.5 Sonnet”稱為“Sonnet 3.6”。

圖片

作者adi戲稱其為目前“唯一可靠的評測基準”。

Aidan Bench作者Aidan McLau認為評測基準界正需要這個，審美也與智力顯著相關。

他甚至愿意提供資金，把這個項目擴展成完整的評測。

圖片

總之在開源社區(qū)幫助下，代碼迅速上架GitHub，更多模型測試結果陸續(xù)出爐中。

圖片

比如以慢思考著稱的OpenAI o1系列，o1-preivew確實蓋的更慢，但結構也更完整。o1-mini則無法勝任這個任務。

圖片

最終在人類喜好評估（2000+網(wǎng)友投票）中，Sonnet 3.6小贏了一手創(chuàng)意性。

如果不比創(chuàng)意比模仿真實建筑泰姬陵，o1-preview就占很大優(yōu)勢了。

圖片

照這個趨勢下去，這款經(jīng)典游戲很快就要從《別人的世界》變成《AI的世界》了……

新型MC Bench火了，競技場模式開發(fā)中

大模型在《我的世界》里蓋樓，并不是靠接管鼠標鍵盤，也不需要視覺理解能力。

而是通過文本提供上下文，并生成下一步操作指令，或許可以理解成根據(jù)棋盤行列編號下盲棋。

具體到游戲中，AI會控制一個角色，玩家只需要在聊天框中打字說明想要AI建造什么就可以了。

圖片

網(wǎng)友Mckay Wrigley制作了視頻教程，在15分鐘內(nèi)就可以使用開源代碼設置好測試環(huán)境。（地址在文末獲?。?/span>

圖片

使用mineflayer開源庫，可以把大模型生成的指令解析成可操作的API調(diào)用。

圖片

mindcraft開源庫中則提供了適合任意模型玩《我的世界》的通用提示詞，和少量in-context learning示例。

圖片

目前，MC Bench開源項目組打算進一步完善，做成類似Lmsys大模型競技場一樣的天梯機制，人類用戶投票，使用Elo算法記分排名。

圖片

與此同時，更多其他模型的測試結果也在持續(xù)更新中。

更多AI作品

Claude Sonnet非常擅長以塔為主題自由發(fā)揮，只需給到足夠算力。

圖片

圖片

o1-preview則可以發(fā)揮慢思考能力，用不同顏色的方塊排列出太陽系。

不僅天體的順序是正確的，連相對體積都有所體現(xiàn)，當然如果太陽按真實比例會讓游戲崩潰……

圖片

小模型難以規(guī)劃復雜的建筑，但理解和還原簡單指令方面，gemini-1.5-flash勝過gpt-4o-mini。

圖片

讓開源大模型Llama 3 405B蓋一個反應它自己個性的東西，AI選擇了火坑上的鉆石墻。

圖片

整體看下來，最有意思的或許還是這個：

讓o1-preview自由發(fā)揮，隨便蓋一個酷的東西。

AI選擇搭了一個機器人形象，并拼出GPT三個字母。

圖片

作者透露，接下來會繼續(xù)測試一眾中等大小開源模型。

圖片

目前初步結果，阿里Qwen 2.5-14B表現(xiàn)不錯。

圖片

視頻教程：https://x.com/mckaywrigley/status/1849613686098506064

開源代碼：https://github.com/kolbytn/mindcraft https://github.com/mc-bench/orchestrator

責任編輯：武曉燕來源：量子位

AI Claude Agent

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<blockquote id="fxuz1"><i id="fxuz1"></i></blockquote>}