自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強化學習AI能帶你1打5嗎?MIT新研究:AI并不是人類的最佳隊友

新聞 深度學習
MIT最近研究表明,AI和人類玩家之間的配合可以說是沒有配合了,根本看不懂隊友給的各種暗示信息!

[[433351]]

 強化學習的AI在圍棋、星際爭霸、王者榮耀等游戲以絕對的優(yōu)勢碾壓了人類玩家,也證明了思維能力可以通過模擬來得到。

但如果這么強的AI成為了你的隊友,能被帶飛嗎?

MIT林肯實驗室的研究人員最近的在紙牌游戲Hanabi(花火)中人類和AI agenet之間的合作研究結果表明,盡管RL agent的個人表現能力十分出色,但當跟人類玩家一起匹配的時候,卻只會讓人直呼太坑。

強化學習AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊友">

https://arxiv.org/pdf/2107.07630.pdf

Hanabi是一個需要玩家之間互相溝通合作取勝的游戲,在這個游戲中,人類玩家更喜歡可預測的基于規(guī)則的AI系統(tǒng),而非黑盒的神經網絡模型。

強化學習AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊友">

一般來說,最先進的游戲機器人使用的算法都是深度強化學習(deep reinforcement learning)。首先通過在游戲中提供一個agent和一組可能的候選action集合,通過來自環(huán)境的反饋機制來進行學習。在訓練過程中,還會采用隨機的探索action來最大化目標,從而獲得最優(yōu)的action序列。

深增強學習的早期研究依靠人類玩家提供的游戲數據進行學習。最近研究人員已經能夠在沒有人類數據的情況下,純粹依靠自我博弈來開發(fā)RL agent。

MIT 林肯實驗室的研究人員更關注讓如此強大的AI 如何成為隊友,這項工作也能讓我們進一步了解是什么阻礙了強化學習的應用只能局限于電子游戲,而無法擴大到現實應用中。

強化學習AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊友">

最近的強化學習研究大多應用于單人游戲(Atari Breakout 打磚塊)或者對抗性游戲(星際爭霸,圍棋),其中AI 主要的對手是人類玩家或者是其他的AI 機器人。

在這些對抗中,強化學習取得了空前的成功,因為機器人對這些游戲并沒有一些先入為主的偏見和假設,而是從零開始學習打游戲,并以最好的玩家數據進行訓練。

事實上,AI學會打游戲以后,甚至還會自己創(chuàng)造一些技巧。一個有名的例子是DeepMind的alphago在它的比賽中下了一步棋,但分析師當時認為這一步棋是一個錯誤,因為它違背了人類專家的直覺。

但同樣的舉動卻帶來了不一樣的結果,AI最后憑借這手成功擊敗了人類。所以當RL agent與人類合作時,研究人員認為同樣的聰明才智也可以發(fā)揮作用。

[[433353]]最佳隊友">

在MIT研究人員的實驗中選擇了紙牌游戲Hanabi,其中包括兩到五名玩家,他們必須合作以特定的順序出牌。Hanabi 很簡單,但它也是一個需要合作和有限的信息的游戲。

Hanabi游戲發(fā)明于2010年,由二到五個玩家參與,玩家需以正確的順序一起打出五種不同顏色的牌。游戲特點:所有玩家都可以看到對方的牌,但卻看不到自己的牌。

根據游戲規(guī)則,玩家可以互相提示自己手里的牌(但僅限于牌的顏色或數字),讓其他玩家可以推斷他們應該出什么牌,但提示的次數是有限制的。

正是這種高效溝通的行為使Hanabi具備了一種科學魅力。例如,人類可以很自然地理解其他玩家的提示,哪張卡片是可出的,但是機器本質上無法理解這些提示。

到目前為止人工智能程序已經可以在玩Hanabi花火游戲時贏得很高分數,但只限于與其他類似的智能機器人一起玩。在不熟悉其他玩家的游戲風格或者有「臨時」(從未一起玩過的)玩家的情況下,對程序的挑戰(zhàn)最大,也更接近真實情況。

近年來,幾個研究團隊探討了可以玩Hanabi的AI機器人的發(fā)展,其中一些強化學習agent使用符號AI。

AI的評估主要采用他們的性能,包括self-play(和自己玩),cross-play(和其他類型的agent一起玩),Human-play(和人類合作)。

強化學習AI能帶你1打5嗎?MIT新研究:AI并不是人類的<span><span><span><i style=最佳隊友">

和人類玩家之間的cross-play,對于衡量人與機器之間的合作尤為重要,也是論文實驗的基礎。

為了檢驗人工智能協(xié)作的有效性,研究人員使用了SmartBot,這是一種基于規(guī)則的self-play人工智能系統(tǒng),還有一種在跨游戲和RL算法中排名最高的模型Hanabi機器人Other-Play。

在實驗中,人類參與者與AI agent一起玩了幾次Hanabi游戲,每次隊友的AI都不相同,實驗人員并不知道在和哪個模型一起玩。

研究人員根據客觀和主觀指標評估了人類AI合作的水平??陀^指標包括分數、錯誤率等。主觀指標包括人類玩家的經驗,包括他們對AI團隊成員的信任和舒適程度,以及他們理解AI動機和預測其行為的能力。

兩種人工智能模型的客觀表現無顯著差異。但研究人員預計,人類玩家對Other-Play有更積極的主觀體驗,因為他們接受過與其他玩家合作的訓練。

根據對參與者的調查,與基于規(guī)則的SmartBot Agent相比,經驗豐富的Hanabi玩家在其他游戲RL算法方面的經驗較少,成功的一個關鍵點是為其他玩家提供偽裝線索的技能。

例如,說「一個方塊」卡放在桌子上,你的隊友手里拿著兩個方塊。當你指著卡片說「這是兩張」或「這是一個正方形」時,你暗地里告訴你的隊友玩這張卡片,而不告訴他關于卡片的全部信息。一個經驗豐富的玩家會立刻就能夠領會這個提示。但向AI 隊友提供相同類型的信息證明要困難得多。

一個參與者表示,我已經給了隊友很明顯的提示了,但他根本就沒用,我不知道為什么。

一個有趣的現實是,Other-play一直在避免創(chuàng)建「秘密」的約定,他們只是在執(zhí)行self-play時開發(fā)的這些預定規(guī)則。這使得Other-play成為其他AI算法的最佳隊友,盡管AI算法并不是其訓練計劃的一部分。但研究人員認為,這是他在訓練過程中已經假設了會遇到哪些類型的隊友。

值得注意的是,Other-play假設隊友也針對zero-shot 協(xié)調進行了優(yōu)化。相比之下,人類Hanabi玩家通常不會使用這種假設進行學習。

游戲前常規(guī)設置和游戲后復盤是人類Hanabi玩家的常見做法,使人類學習更容易獲得few-shot協(xié)調的能力。

研究人員表示,目前的研究結果表明,人工智能的客觀任務表現(self-play和cross-play)在與其他AI模型合作時,可能與人類的信任和偏好無關。

這就產生了一個問題:哪些客觀指標與主觀的人類偏好相關?

[[433354]]最佳隊友">

鑒于訓練基于RL的agent所需的數據量巨大,訓練環(huán)中的人是不可行的。因此,如果我們想訓練被人類合作者接受和評估的AI agent,我們需要找到可訓練的,可以替代或與人類偏好密切相關的目標函數。

同時,研究人員也說明,不要將Hanabi實驗的結果外推到他們無法測試的其他環(huán)境、游戲或領域。

論文還承認了實驗中的一些局限性,研究人員正在努力解決這些局限性。例如,受試者群體很?。ㄖ挥?9名參與者),并且偏向于精通Hanabi的人,這意味著他們已經預先定義了AI團隊成員的行為期望,并且更有可能對RL agent有負面體驗。

然而,研究結果對未來加強學習研究具有重要意義。

如果最先進的RL agent甚至不能在一個限制性和窄范圍的游戲中成為一個可以接受的合作者,那么我們真的應該期待同樣的RL技術在應用于更復雜、更微妙、更具后果性的游戲和現實世界的情況時只是可以用。

在技術和學術領域,關于強化學習的爭論很多,而且確實如此,研究結果也表明不應將RL系統(tǒng)的顯著性能視為在所有可能的應用中都能獲得相同的高性能。

在學習型智能體在復雜的人類機器人交互等情況下成為有效的合作者之前,需要更多的理論和應用工作。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-10-18 22:18:09

2024-09-23 15:04:16

2025-03-03 09:12:00

2019-01-31 10:42:04

框架AI開發(fā)

2024-09-03 13:30:00

2018-02-25 19:20:13

軟件定義SD-WAN廣域網

2022-11-27 12:50:01

AI算法MIT

2023-06-01 17:26:25

人工智能

2022-03-13 23:19:04

元宇宙區(qū)塊鏈數字貨幣

2022-05-09 11:23:43

人工智能機器學習推理

2011-07-26 13:47:06

AndroidLinux

2015-12-17 11:04:00

云開支云計算

2015-05-08 07:29:42

OpenStack云方案云服務成本

2021-07-15 06:43:12

SQLSelect命令

2021-10-11 09:51:38

谷歌人工智能強化學習

2024-08-09 12:46:04

2011-07-28 09:45:59

云計算

2011-08-31 15:52:26

微軟

2021-06-24 08:20:15

MySQL數據庫索引

2023-05-25 09:00:00

人工智能ChatGPTOpenAI
點贊
收藏

51CTO技術棧公眾號