自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大猩猩也會玩《我的世界》了,看一遍視頻就能get新技能

人工智能 新聞
訓(xùn)練大猩猩和訓(xùn)練AI有不少通用的技巧。這項與人類玩家一起進(jìn)行的測試被工作人員稱為「多人」模式,接下來,他們又讓 Kanzi 挑戰(zhàn)了《我的世界》中其他的環(huán)境類型,包括鄉(xiāng)村、沙漠神殿、下界傳送門等等。Kanzi 一路通關(guān),走到了游戲終點。

在教會 GPT-4 玩《我的世界》(Minecraft)之后,人類也教會了大猩猩玩這款游戲。

圖片

圖中的這個大猩猩名叫 Kanzi,是一個 42 歲的倭黑猩猩(bonobo)。它會通過點擊觸摸屏來玩游戲:點擊屏幕中央向前移動;觸摸側(cè)面環(huán)顧四周。如果表現(xiàn)出色,研究人員會給予獎勵,比如花生或其他零食。

或許是因為之前玩過一些游戲,Kanzi 剛坐到屏幕前就進(jìn)入了狀態(tài),幾秒鐘就學(xué)會了如何操作角色前進(jìn)。只要它能到達(dá)指定區(qū)域,屏幕上就會出現(xiàn)零食的圖案,同時工作人員也會給它對應(yīng)零食。在這樣的獎勵機制下,Kanzi 很快學(xué)會了如何在游戲里行走。

接下來的測試任務(wù)是在游戲里使用工具(屏幕上方的某個按鍵)擊碎一些積木塊。這對 Kanzi 來說有點難度,因為這個操作沒有在 Kanzi 之前玩的任何游戲中出現(xiàn)過。為了給 Kanzi 提示,工作人員一直指著屏幕上方的按鈕,但 Kanzi 依然不得要領(lǐng)。

無奈之下,工作人員只好換了一種方法:讓 Kanzi 看一遍人類示范。

圖片

Kanzi 看得很認(rèn)真,也在積木被擊碎時拿到了零食。于是,工作人員決定讓它自己試一下。

終于,在走到積木前時,Kanzi 找到了上方的按鈕,成功把積木擊碎,這引得工作人員一陣歡呼。

經(jīng)過這兩個任務(wù),Kanzi 已經(jīng)掌握了兩項基本技能:在環(huán)境中收集零食以及把積木打碎。工作人員接下來的目標(biāo)是讓 Kanzi 在一個全新的環(huán)境中利用這些技能并讓網(wǎng)線另一端的一位人類玩家相信它是真人。

在此之前,Kanzi 被安排在一個特制的洞穴環(huán)境中強化技能,只有打破一道一道的積木墻,Kanzi 才能到達(dá)洞穴盡頭。

在一路打怪升級的路上,Kanzi 熟悉了剛剛才學(xué)到的新技能。不過,它也有被卡在墻角的時候,這種情況下它會尋求工作人員幫助,并在脫困后徑直走向積木墻繼續(xù)通關(guān)。

最終,在幾乎沒有多少幫助的情況下,Kanzi 順利通過,達(dá)到了洞穴盡頭。這也意味著,Kanzi 已經(jīng)做好了去迷惑人類玩家的準(zhǔn)備。

在測試過程中,人類玩家被告知他將與一個特殊的玩家一起玩游戲。當(dāng)然,他也注意到了一些不尋常的行為,例如,Kanzi 在游戲中的移動速度較慢,而且他的操作方式與普通玩家有所不同。但他萬萬沒想到,自己的游戲伙伴是一只大猩猩。因此,當(dāng)真相揭曉時,Tommy 的反應(yīng)既震驚又興奮。

這項與人類玩家一起進(jìn)行的測試被工作人員稱為「多人」模式,接下來,他們又讓 Kanzi 挑戰(zhàn)了《我的世界》中其他的環(huán)境類型,包括鄉(xiāng)村、沙漠神殿、下界傳送門等等。Kanzi 一路通關(guān),走到了游戲終點。

圖片

這個視頻在國外視頻網(wǎng)站引起了很多人關(guān)注。視頻制作者、YouTube 博主 ChrisDaCow 的本意是呼吁人類關(guān)注野生動物,看到這些動物有趣的一面。

圖片

視頻鏈接:https://www.youtube.com/watch?v=UKpFoYqN9-0

不過,在 AI 研究者眼中,這不僅僅是有趣那么簡單。他們觀察到了一些與智能相關(guān)的東西。

英偉達(dá) AI 高級科學(xué)家 Jim Fan 表示,他觀察到,教 AI 玩《我的世界》和教大猩猩有很多類似的技巧,包括:

  • In-context 強化學(xué)習(xí):當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時,他會得到水果或花生作為獎勵,激勵他遵循游戲內(nèi)的指導(dǎo)。
  • 人類反饋強化學(xué)習(xí)(RLHF):Kanzi 并不完全理解語言,但他能看到訓(xùn)練師為他加油,他偶爾也會回應(yīng)加油!這為他提供了一個強烈的信號,表明他走在正確的道路上。
  • 模仿學(xué)習(xí):訓(xùn)練師向 Kanzi 展示了一個任務(wù)的示范做法,而且只展示了一次,它就理解了其中的概念。這比僅僅使用獎勵更加高效。
  • 課程學(xué)習(xí):他們從非常簡單的環(huán)境開始,逐漸教會 Kanzi 控制技能。最終,Kanzi 能夠在復(fù)雜的洞穴、迷宮和下界之間前行。

「大猩猩的視覺系統(tǒng)如此強大也讓我感到驚訝。Kanzi 一生都沒見過《我的世界》,他的祖先肯定也沒見過。但他很快就適應(yīng)了《我的世界》里與自然世界截然不同的紋理和物理。這種泛化水平遠(yuǎn)遠(yuǎn)超出了我們今天最強大的視覺模型所能做的。我們又一次陷入了莫拉維克悖論:我們最好的人工智能在理解語言方面接近人類的水平,但在解析像素方面遠(yuǎn)遠(yuǎn)落后于動物。」Jim Fan 評價說。

莫拉維克悖論是由人工智能 和機器人學(xué)者所發(fā)現(xiàn)的一個和常識相左的現(xiàn)象。和傳統(tǒng)假設(shè)不同,人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理。但是無意識的技能和直覺卻需要極大的運算能力。這個理念是由漢斯?莫拉維克、布魯克斯、馬文?閔斯基等人于 1980 年代所闡釋。如莫拉維克所寫:「要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的?!?/span>

但有人對此提出了質(zhì)疑,認(rèn)為 Kanzi 其實只是為了得到獎勵才一直繼續(xù),「它根本不知道發(fā)生了什么,」也并沒有真正學(xué)會玩《我的世界》。

圖片

對此,有人反駁說,「這被稱為刺激反應(yīng)學(xué)習(xí),或操作性條件反射。這是包括你在內(nèi)的所有動物學(xué)習(xí)的基本方式之一。這是很容易理解的。這并不是貶低學(xué)習(xí),這是學(xué)習(xí)的本質(zhì)?!?/span>

圖片

這個實驗有趣的地方還在于,它讓人腦洞大開:現(xiàn)在 ChatGPT 和大猩猩都會玩《我的世界》了,如果未來腦機接口發(fā)展順利還會發(fā)生什么?

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-08-12 10:36:18

order byMySQL數(shù)據(jù)庫

2021-06-15 07:15:15

Oracle底層explain

2022-01-17 20:59:37

開發(fā)group by思路

2021-12-01 07:26:13

IO模型異步

2025-02-13 09:06:27

2021-10-07 20:12:03

MVCC事務(wù)原理

2023-09-12 07:31:45

HashMap線程

2024-03-26 07:59:32

IO模型多路復(fù)用

2024-03-12 08:20:57

零拷貝存儲開發(fā)

2020-02-09 17:30:54

反轉(zhuǎn)鏈表程序員節(jié)點

2022-08-26 10:41:03

指針C語言

2019-09-19 08:04:40

網(wǎng)絡(luò)七層模型TCPUDP

2022-05-08 23:05:38

Route-Poli路由策略

2021-11-25 08:16:46

Wi-FiWi-Fi 6路由Wi-Fi 5

2019-03-19 14:11:44

VLANLANMAC

2014-08-15 16:50:34

玻璃

2024-05-21 08:40:21

分庫分表源碼

2021-03-11 07:14:01

Epoll原理線程

2021-07-08 22:55:39

Python單詞統(tǒng)計

2021-07-09 09:31:04

getPython代碼
點贊
收藏

51CTO技術(shù)棧公眾號