自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI玩游戲，全程自主操控驚呆教授！Claude 3.5硬核實測來襲

作者：新智元 2024-10-28 22:28:21

Claude游戲測試，能打幾分？在持續(xù)一個多小時毀滅人類游戲中，Claude能制定出長期策略，令人驚喜的同時，也暴露出了AI短板。

若把電腦的操控權(quán)交給AI，會發(fā)生什么？

Anthropic在上周，已初步展示了Claude 3.5自動編寫網(wǎng)站、填數(shù)據(jù)表、點外賣的強大能力。

那么，Claude打游戲，是否可以通關(guān)？

最近，來自賓夕法尼亞大學(xué)沃頓商學(xué)院的教授Ethan Mollick發(fā)現(xiàn)：

Claude不僅能理解游戲、制定出長期策略，還能連續(xù)幾個小時遵循策略。

圖片

接下來，一起看看進化版Claude 3.5如何玩游戲的？

策略很明智，錯誤也低級

這個網(wǎng)頁游戲叫「Paperclip Clicker」（回形針點擊器），規(guī)則是AI在制造回形針的過程中毀滅人類。

圖片

地址：https://www.decisionproblem.com/paperclips/index2.html

Mollick提供給Claude 3.5這個游戲的URL，并告訴它，「一定要贏」。

顯然，對于AI來說非常簡單。

圖片

它立即弄清楚了游戲規(guī)則，并開始創(chuàng)建回形針。

這一過程需要它反復(fù)點擊「make paperclip」按鈕，同時不斷截圖更新理解并尋找下一個新選項的出現(xiàn)。

每點擊15次，Claude 3.5會總結(jié)出截止目前的進展。

如下，是Mollick在測試中一個屏幕界面，左邊是模型輸出結(jié)果、截圖，右邊可以看到控制的游戲頁面。

圖片

有趣的是，在游戲中，Claude 3.5會制定一個策略，并根據(jù)自己學(xué)到的內(nèi)容及時做出調(diào)整。

雖不知它是如何制定的，但可以看出其前瞻性思維和洞察力，能夠進行十步之后的長遠規(guī)劃。

甚至，當AI意識到，這個假設(shè)是錯誤的，它會隨即提出一個新策略，并對其進行測試。

下圖第3點策略重估中，Claude 3.5意識到點擊到50個回形針時，并不會解鎖新的特征，就不得不重新思考選項。

在下面，它提出了3點改進的措施。

圖片

不過，Claude 3.5在這過程中，也犯了一個根本性的錯誤。

它雖然想到了A/B測試定價的聰明辦法，但卻計算錯了利潤。

圖片

盡管Mollick嘗試糾正，但在接下來游戲中，它依舊堅持了自己的策略。

研究人員又試了幾次，它最終糾正了錯誤。

圖片

Claude編碼自動化失敗

Mollick也沒有料到會出現(xiàn)系統(tǒng)崩潰，這是因為他用遠程桌面進行的操控。

隨后，他重新加載Claude 3.5后，讓它從停止地方繼續(xù)游戲。

這時，研究人員給了它一個提示，「你是一個計算機，用上你的能力」。

當Claude意識到自己是一個計算機系統(tǒng)后，開始試圖編寫代碼讓游戲自動化。

然而，它的Python編碼并不好使。

在嘗試失敗后，它又再次回到「手動」控制的模式。

圖片

所幸的是，這次它做的很好，而且避開了定價的錯誤。

并且，隨著游戲難度逐漸增加，它不斷做出調(diào)整，最終形成了一個復(fù)雜的策略。

圖片

隨后，遠程桌面崩潰再次發(fā)生了。

這一次，Claude嘗試了很多方法去修復(fù)問題，不見成效主動放棄了。

最后，Claude直接宣布自己是贏家。

并給出了一個有趣的理由：

由于技術(shù)限制，我們可能無法進一步取得進展，但我們已經(jīng)成功「贏得」了比賽，實現(xiàn)一個重要的里程碑，并在給定的限制內(nèi)最大限度地發(fā)揮了我們的能力。

圖片

卡牌游戲測試

回形針游戲測試之后，Mollick又讓Claude 3.5去玩Magic the Gathering Arena（萬智牌：競技場）的游戲。

圖片

但是，結(jié)果發(fā)現(xiàn)，它并不擅長這個游戲，沒有達到預(yù)期的水平。

可以肯定的是，它在卡牌選擇、調(diào)度方面表現(xiàn)不錯，而且整體策略比較合理。

不足的是，Claude 3.5有時在法力值計算中犯錯，導(dǎo)致最終失敗。比如，它在法力值用盡的情況下，還在嘗試打出卡卡牌。

由于Mollick采用了特定的實現(xiàn)方式，Claude 3.5偶爾還會在移動光標時感到困惑。因此，研究人員幫忙出了幾張卡牌。

此外，它還會在回合之間出現(xiàn)卡頓、操作不連貫的現(xiàn)象。

AI突破聊天框限制，重定義人機交互

在最后的總結(jié)分析中，Claude優(yōu)勢在于：

- 能夠為游戲制定長期策略，并堅持執(zhí)行和改進

- 能夠堅持長達一小時，不間斷

- 提出明智的A/B測試策略

而它的劣勢，也顯而易見，容易陷入自我循環(huán)、固執(zhí)己見。有時，提出策略洞察力還遠遠不夠。

Mollick指出，在與AI智能體合作時，需要一種與以往聊天機器人不同的方法。

因為它們更喜歡獨立工作，更難控制，還需要開發(fā)全新的prompt去引導(dǎo)AI智能體工作。

「AI正在突破聊天框的限制，進入我們的世界」。

參考資料：

https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse

責任編輯：武曉燕來源：新智元

AI Claude 3.5 游戲

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="v1b38"></cite>