自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="sj6pg"><li id="sj6pg"></li></p>

^{<blockquote id="sj6pg"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大猩猩也會玩《我的世界》了，看一遍視頻就能get新技能

作者：機器之心 2023-08-14 07:49:42

人工智能新聞

訓(xùn)練大猩猩和訓(xùn)練AI有不少通用的技巧。這項與人類玩家一起進(jìn)行的測試被工作人員稱為「多人」模式，接下來，他們又讓 Kanzi 挑戰(zhàn)了《我的世界》中其他的環(huán)境類型，包括鄉(xiāng)村、沙漠神殿、下界傳送門等等。Kanzi 一路通關(guān)，走到了游戲終點。

在教會 GPT-4 玩《我的世界》（Minecraft）之后，人類也教會了大猩猩玩這款游戲。

圖中的這個大猩猩名叫 Kanzi，是一個 42 歲的倭黑猩猩（bonobo）。它會通過點擊觸摸屏來玩游戲：點擊屏幕中央向前移動；觸摸側(cè)面環(huán)顧四周。如果表現(xiàn)出色，研究人員會給予獎勵，比如花生或其他零食。

或許是因為之前玩過一些游戲，Kanzi 剛坐到屏幕前就進(jìn)入了狀態(tài)，幾秒鐘就學(xué)會了如何操作角色前進(jìn)。只要它能到達(dá)指定區(qū)域，屏幕上就會出現(xiàn)零食的圖案，同時工作人員也會給它對應(yīng)零食。在這樣的獎勵機制下，Kanzi 很快學(xué)會了如何在游戲里行走。

接下來的測試任務(wù)是在游戲里使用工具（屏幕上方的某個按鍵）擊碎一些積木塊。這對 Kanzi 來說有點難度，因為這個操作沒有在 Kanzi 之前玩的任何游戲中出現(xiàn)過。為了給 Kanzi 提示，工作人員一直指著屏幕上方的按鈕，但 Kanzi 依然不得要領(lǐng)。

無奈之下，工作人員只好換了一種方法：讓 Kanzi 看一遍人類示范。

Kanzi 看得很認(rèn)真，也在積木被擊碎時拿到了零食。于是，工作人員決定讓它自己試一下。

終于，在走到積木前時，Kanzi 找到了上方的按鈕，成功把積木擊碎，這引得工作人員一陣歡呼。

經(jīng)過這兩個任務(wù)，Kanzi 已經(jīng)掌握了兩項基本技能：在環(huán)境中收集零食以及把積木打碎。工作人員接下來的目標(biāo)是讓 Kanzi 在一個全新的環(huán)境中利用這些技能并讓網(wǎng)線另一端的一位人類玩家相信它是真人。

在此之前，Kanzi 被安排在一個特制的洞穴環(huán)境中強化技能，只有打破一道一道的積木墻，Kanzi 才能到達(dá)洞穴盡頭。

在一路打怪升級的路上，Kanzi 熟悉了剛剛才學(xué)到的新技能。不過，它也有被卡在墻角的時候，這種情況下它會尋求工作人員幫助，并在脫困后徑直走向積木墻繼續(xù)通關(guān)。

最終，在幾乎沒有多少幫助的情況下，Kanzi 順利通過，達(dá)到了洞穴盡頭。這也意味著，Kanzi 已經(jīng)做好了去迷惑人類玩家的準(zhǔn)備。

在測試過程中，人類玩家被告知他將與一個特殊的玩家一起玩游戲。當(dāng)然，他也注意到了一些不尋常的行為，例如，Kanzi 在游戲中的移動速度較慢，而且他的操作方式與普通玩家有所不同。但他萬萬沒想到，自己的游戲伙伴是一只大猩猩。因此，當(dāng)真相揭曉時，Tommy 的反應(yīng)既震驚又興奮。

這項與人類玩家一起進(jìn)行的測試被工作人員稱為「多人」模式，接下來，他們又讓 Kanzi 挑戰(zhàn)了《我的世界》中其他的環(huán)境類型，包括鄉(xiāng)村、沙漠神殿、下界傳送門等等。Kanzi 一路通關(guān)，走到了游戲終點。

這個視頻在國外視頻網(wǎng)站引起了很多人關(guān)注。視頻制作者、YouTube 博主 ChrisDaCow 的本意是呼吁人類關(guān)注野生動物，看到這些動物有趣的一面。

視頻鏈接：https://www.youtube.com/watch?v=UKpFoYqN9-0

不過，在 AI 研究者眼中，這不僅僅是有趣那么簡單。他們觀察到了一些與智能相關(guān)的東西。

英偉達(dá) AI 高級科學(xué)家 Jim Fan 表示，他觀察到，教 AI 玩《我的世界》和教大猩猩有很多類似的技巧，包括：

In-context 強化學(xué)習(xí)：當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時，他會得到水果或花生作為獎勵，激勵他遵循游戲內(nèi)的指導(dǎo)。
人類反饋強化學(xué)習(xí)（RLHF）：Kanzi 并不完全理解語言，但他能看到訓(xùn)練師為他加油，他偶爾也會回應(yīng)加油！這為他提供了一個強烈的信號，表明他走在正確的道路上。
模仿學(xué)習(xí)：訓(xùn)練師向 Kanzi 展示了一個任務(wù)的示范做法，而且只展示了一次，它就理解了其中的概念。這比僅僅使用獎勵更加高效。
課程學(xué)習(xí)：他們從非常簡單的環(huán)境開始，逐漸教會 Kanzi 控制技能。最終，Kanzi 能夠在復(fù)雜的洞穴、迷宮和下界之間前行。

「大猩猩的視覺系統(tǒng)如此強大也讓我感到驚訝。Kanzi 一生都沒見過《我的世界》，他的祖先肯定也沒見過。但他很快就適應(yīng)了《我的世界》里與自然世界截然不同的紋理和物理。這種泛化水平遠(yuǎn)遠(yuǎn)超出了我們今天最強大的視覺模型所能做的。我們又一次陷入了莫拉維克悖論：我們最好的人工智能在理解語言方面接近人類的水平，但在解析像素方面遠(yuǎn)遠(yuǎn)落后于動物。」Jim Fan 評價說。

莫拉維克悖論是由人工智能和機器人學(xué)者所發(fā)現(xiàn)的一個和常識相左的現(xiàn)象。和傳統(tǒng)假設(shè)不同，人類所獨有的高階智慧能力只需要非常少的計算能力，例如推理。但是無意識的技能和直覺卻需要極大的運算能力。這個理念是由漢斯?莫拉維克、布魯克斯、馬文?閔斯基等人于 1980 年代所闡釋。如莫拉維克所寫：「要讓電腦如成人般地下棋是相對容易的，但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的?！?/span>

但有人對此提出了質(zhì)疑，認(rèn)為 Kanzi 其實只是為了得到獎勵才一直繼續(xù)，「它根本不知道發(fā)生了什么，」也并沒有真正學(xué)會玩《我的世界》。

對此，有人反駁說，「這被稱為刺激反應(yīng)學(xué)習(xí)，或操作性條件反射。這是包括你在內(nèi)的所有動物學(xué)習(xí)的基本方式之一。這是很容易理解的。這并不是貶低學(xué)習(xí)，這是學(xué)習(xí)的本質(zhì)?！?/span>

這個實驗有趣的地方還在于，它讓人腦洞大開：現(xiàn)在 ChatGPT 和大猩猩都會玩《我的世界》了，如果未來腦機接口發(fā)展順利還會發(fā)生什么？

責(zé)任編輯：張燕妮來源：機器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="jrsiu"><p id="jrsiu"></p></blockquote>

<cite id="jrsiu"><track id="jrsiu"></track></cite>

<cite id="jrsiu"></cite>

<legend id="jrsiu"><track id="jrsiu"></track></legend>

<blockquote id="jrsiu"><p id="jrsiu"></p></blockquote>

<sub id="jrsiu"><p id="jrsiu"></p></sub>