自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

理性強化學習遭遇瓶頸,進化算法會成為接替者嗎?

開發(fā) 開發(fā)工具 算法
人工智能和博弈論的交集催生了強化學習,但在博弈論基礎(chǔ)上的問題求解通常依賴于理性和完美信息假設。在多智能體博弈環(huán)境下,這種條件的滿足幾乎是不可能的。

人工智能和博弈論的交集催生了強化學習,但在博弈論基礎(chǔ)上的問題求解通常依賴于理性和完美信息假設。在多智能體博弈環(huán)境下,這種條件的滿足幾乎是不可能的。作者分析了傳統(tǒng)強化學習在這方面的局限,并討論了進化強化學習作為替代方案的可能性。

[[233562]]

人工智能(AI)的研究領(lǐng)域充滿了無法回答的問題以及無法被分配給正確問題的答案。在過去,人工智能為它堅持「錯誤」的做法付出了代價,經(jīng)歷了一段時間的停滯,也就是所謂的「人工智能的寒冬」。然而,人工智能的日歷剛剛翻入了春天,相關(guān)的應用領(lǐng)域正在蓬勃發(fā)展。

時至今日,人工智能的一個分支長期以來一直被人忽視,這里說的是強化學習。強化學習最近在 AlphaGo 和 Atari 游戲中展示了令人印象深刻的結(jié)果。但說實話,這些都不是強化學習的勝利。在這些例子中,發(fā)揮更深層作用的是深度神經(jīng)網(wǎng)絡,而不是強化學習,強化學習的研究水平仍然維持在它幾十年前所達到的深度上。

當人們將強化學習應用到現(xiàn)實生活問題中時,情況就更糟了。如果訓練一個機器人使其能在繩子上保持平衡聽起來很困難,那么不妨試試訓練一隊機器人去贏得一場足球比賽,或者訓練一隊無人機來監(jiān)視移動的目標。

在我們失去分支(強化學習)甚至是整棵大樹(人工智能)前,我們必須提升對這些應用的理解。博弈論是用于研究擁有共同目標的參與者(player)團隊在對弈中的應對策略的最常見方法。它能夠賦予我們在這樣的環(huán)境下指引機器學習算法的工具。

但是,需要注意的是這種常見的方法并不是一種與常識相符的方法,我們來看看為什么。

消除錯誤和建立新真理或事實一樣好,甚至有時比它們更好。

——Charles Darwin

首先,讓我們從了解一些術(shù)語和這些領(lǐng)域的基礎(chǔ)知識開始探索其奧秘。

博弈論

1. 一些常用術(shù)語

  • 博弈:正如人們通常所理解的游戲,它可能是任何環(huán)境,其中參與者采取行動,并且博弈的結(jié)果取決于行動。
  • 參與者:在博弈中做出決策的人。
  • 策略:在給定一系列可能在博弈中出現(xiàn)的情況下,一個參與者采用的完整的行動方案。
  • 收益:參與者從博弈的特定結(jié)果中獲得的收益。
  • 均衡:在一場博弈中,參與者都做出了他們的決策并且得到了結(jié)果的狀態(tài)。
  • 納什均衡:一種如果其它參與者的策略保持不變,任何參與者都不能通過改變他們自己的策略獲得收益的均衡狀態(tài)。
  • 占優(yōu)均衡:無論一個參與者的對手如何選擇策略,該參與者的策略都比其對手好的一種均衡狀態(tài)。

2. 囚徒困境

這可能是文獻中最著名的博弈案例。其收益矩陣如下圖所示。對于「收益矩陣」(又名支付矩陣)的介紹可能需要一千字的篇幅。對于一個有經(jīng)驗的人來說,一個收益矩陣就已經(jīng)足夠提供描述一場博弈所必需的所有信息了?,F(xiàn)在,讓我們稍微了解一下什么是「囚徒困境」。

囚徒困境的收益矩陣

囚徒困境的收益矩陣

警方逮捕了兩名犯罪嫌疑人,嫌疑人 A 和嫌疑人 B。盡管臭名昭著,但由于缺乏證據(jù),這兩名嫌疑人不能因正在被調(diào)查的犯罪事實而入獄。但他們可以以較輕的罪名被拘留。

他們被囚禁的時間取決于他們將在審訊室中說些什么,而這就恰好引發(fā)了一場博弈。每位嫌疑犯(參與者)都有機會對另一名嫌疑犯保持沉默或告密。收益矩陣描述了每一名參與者將根據(jù)博弈的結(jié)果被囚禁多少年。例如,如果嫌疑人 A 保持沉默,而嫌疑人 B 告發(fā)了他們,嫌疑人 A 將服刑 3 年(收益為 -3),嫌疑人 B 則將不用服刑(收益為 0)。

如果你仔細研究這個收益矩陣,你會發(fā)現(xiàn):參與者合理的行動應該是背叛另一個人,或者從博弈論的角度來說,背叛他人是占優(yōu)策略。然而,如果每個人都選擇背叛他人,將導致博弈走向納什均衡,這意味著每個參與者都會得到 -2 的收益。

不覺得有什么奇怪的嗎?是的,或許說至少本來就應該是這樣。如果兩位參與者都同意保持沉默,他們都會得到更高的獎勵「-1」。囚徒困境是說明有時「合理的行動導致的結(jié)果比合作更差」的一個博弈的例子。

3. 一些歷史上的評價

博弈論起源于經(jīng)濟學,但是時至今日已經(jīng)發(fā)展為一個跨學科的研究領(lǐng)域。博弈論之父,約翰. 馮諾伊曼(你可以看到馮諾伊曼在這個領(lǐng)域有著很好的職業(yè)前景)是第一個對「博弈」的一般概念進行嚴格形式化定義的人。為了便于分析,他把自己對博弈的研究限制在包含兩個參與者(player)的情況。

之后,他與 Oskar Morgenstern 合著了一本書,這本書奠定了期望效用理論的基礎(chǔ),并逐漸形成了博弈論的課程。也正是大約在那個時候,John Nash 引入了納什均衡的概念,這有助于描述博弈的結(jié)果。

二、強化學習

不久后,人們就意識到博弈論可能存在的應用范圍是如此廣闊:從游戲到生物學、哲學,再到不久后誕生的人工智能。現(xiàn)如今的博弈論與多個參與者通過強化學習進行訓練的情況密切相關(guān),這是一個被稱為多智能體強化學習的領(lǐng)域。一個在這種情況下的應用實例是:假設我們有一隊機器人(參與者),其中的每個機器人(參與者)都必須學會如何做才能有利于它的團隊。

1. 一些常用術(shù)語

  • 智能體:相當于參與者。
  • 獎勵:相當于收益
  • 狀態(tài):用于描述智能體所處情況的所需要的全部信息。
  • 動作:相當于博弈中的行動。
  • 策略:與博弈論中的策略相類似,它定義了一個智能體在特定的狀態(tài)下將采取的動作。
  • 環(huán)境:在學習過程中與智能體交互的所有事物。

2. 應用

不妨想象一下如下的場景:一隊無人機被釋放到森林中,以便盡早預測和定位火災,讓消防員能及時做出反應。無人機是自動控制的,它們必須探索森林、學到可能引起火災的條件,并且相互合作,這樣一來它們就可以在消耗很少的電量并且進行較少的通信的情況下覆蓋廣闊的森林區(qū)域。

該應用屬于環(huán)境監(jiān)測領(lǐng)域,其中人工智能將技術(shù)的預測能力可以被用于指導人類的干預行為。我們所處的這個世界中的技術(shù)正在變得越來越復雜、而物理世界正面臨著前所未有的挑戰(zhàn),現(xiàn)在我們可以將 Kipling 的名言「上帝不可能無處不在,所以他創(chuàng)造了母親」改寫為「人類不可能無處不在,所以他創(chuàng)造了無人機」。

去中心化的架構(gòu)是另一個有趣的應用領(lǐng)域。像物聯(lián)網(wǎng)和區(qū)塊鏈這樣的技術(shù)創(chuàng)造了巨大的網(wǎng)絡。信息和處理過程分布在不同的物理實體中,這種架構(gòu)被公認為能夠提供隱私性、高效性和民主性。

無論你想使用傳感器來最小化一個國家的家庭能源消耗,還是想更換銀行系統(tǒng),去中心化都是一個新的吸引人的解決方案。

然而,讓這些網(wǎng)絡變得智能化是具有挑戰(zhàn)性的。因為大多數(shù)我們引以為傲的算法都缺少訓練數(shù)據(jù)并且渴望更大的計算能力。而強化學習算法正好可以用于高效的數(shù)據(jù)處理,并且使網(wǎng)絡能夠適應其環(huán)境中的變化。在這種情況下,為了提高整體的效率,研究各個算法如何協(xié)作是十分有趣的。

我們該使用深度學習還是集體學習呢?人工智能研究已經(jīng)將其成果建立在越來越深的網(wǎng)絡上,但對于挑戰(zhàn)性問題的答案卻可能來自于集體知識,而不是基于深度學習的個體。我們錯過了一片大森林嗎?

三、不僅僅是博弈

將人工智能問題轉(zhuǎn)化成類似于囚徒困境的簡單博弈是很吸引人的。這是測試新技術(shù)時常用的方法,因為它提供了一個計算成本低并且直觀的測試平臺。然而,重要的是不要忽略噪聲、延遲、有限的內(nèi)存等實際的特征對算法的影響。

也許,人工智能研究中最具誤導性的假設莫過于與迭代靜態(tài)博弈的交互表征的假設。例如,假設智能體一直沒有經(jīng)過學習、沒有被改變,一個算法可以在每當它想要做出決策和規(guī)劃時應用囚徒困境博弈。但是學習對智能體的表現(xiàn)又有何影響呢?與其它智能體的互動不會影響它的策略嗎?

這一領(lǐng)域的研究集中在合作進化上,Robert Axelrod 曾經(jīng)研究過囚徒困境的迭代版本中出現(xiàn)的最優(yōu)策略。Axelrod 組織的錦標賽說明:適應時間和互動的策略(即使聽起來和以牙還牙的策略一樣簡單)是非常有效的。在最近的進展中(https://arxiv.org/abs/1803.00162),人工智能社區(qū)研究了在「順序囚徒困境」下的學習情況,但這方面的研究尚處于起步階段。

多智能體學習和單智能體學習的區(qū)別在于大大提高的復雜性。訓練一個深度神經(jīng)網(wǎng)絡已經(jīng)足夠痛苦了,而當我們再加入新的網(wǎng)絡作為智能體的一部分時,這個問題的難度就以指數(shù)形式增長。

一個不太明顯但是更重要的問題是,這類問題缺乏理論性質(zhì)。單智能體強化學習是一個被充分理解了的研究領(lǐng)域,因為 Richard Bellman 和 Christopher Watkins 已經(jīng)提出了學習所需的算法并進行了證明。然而,在多智能體學習的情況下,這種證明就失效了。

為了說明出現(xiàn)的一些令人困惑的問題:一個智能體執(zhí)行一個學習算法去學習如何對它所處的環(huán)境做出最佳的反應。在我們提出的例子中,環(huán)境包括其他同樣執(zhí)行這個學習算法的智能體。因此,算法必須在它行動之前考慮其動作的影響。

四、早期的關(guān)注點

從博弈論創(chuàng)立之初(在經(jīng)濟學中)就產(chǎn)生的關(guān)注點。讓我們從研究經(jīng)典博弈論下的系統(tǒng)所做的一些假設開始。

  • 理性:一般在博弈論中,為了達到納什均衡,假設存在完全的理性。這大致意味著智能體總是以自己的利益為出發(fā)點采取行動。
  • 完美信息:每個智能體都了解關(guān)于博弈的一切信息,這些信息包括規(guī)則、其他的參與者所了解的信息,以及其它參與者的策略是什么。
  • 共同知識:當所有的智能體都知道 P,并且所有的智能體都知道「所有的智能體知道 P」,所有的智能體都知道「所有的智能體知道『所有的智能體知道 P』」... 以此無休止地循環(huán)下去,這就是存在的共同知識。有一些有趣的謎題,比如藍眼睛島民之謎(http://mesosyn.com/mental1-2.html),描述了共同知識對一個問題的影響。

Kenn Arrow 在 1986 年表達了他對經(jīng)典博弈論的保留意見:

在本文(http://dieoff.org/_Economics/RationalityOfSelfAndOthersArrow.pdf)中,我希望研究清楚理性假設在經(jīng)濟學理論中使用的一些意義。特別是,我想強調(diào),盡管理性通常以個人形式呈現(xiàn),但它不僅僅是個人的特性。相反,理性不僅僅聚集它自身的力量,還從它所處的社會環(huán)境中聚集了它的意義。在非常理想的條件下,這是最合理的觀點。當這些條件不能被滿足時,理性假設變得難以成立,甚至可能自相矛盾。

如果你覺得 Arrow 對于經(jīng)典博弈論的假設有些苛刻的話,你認為你上次購買東西有多理性?或者說,你今天花了多少心思和努力在吃飯上?

但是 Arrow 并不太關(guān)心理性的假設本身。他關(guān)心的是理性假設所帶來的影響。對于一個理性的智能體來說,你需要為它們提供做決策做需要的所有信息。這就需要無所不知的參與者,這樣做有兩個壞處:首先,它對參與者的信息存儲和處理提出了不切實際的要求。其次,由于你可以通過一個中央的控制者的規(guī)則來取代所有的參與者的博弈(這哪里有趣呢?),博弈論不再是一個「多方對抗的博弈的理論」。

這個觀點中,信息價值是另一個有趣的地方。我們已經(jīng)討論過,擁有所有的信息是不可行的。但是如果假設參與者都擁有的是有限的知識,會怎樣呢?這樣做有幫助嗎?

你可以去請教任何涉足這個領(lǐng)域的人,但是一言以蔽之,在不確定性條件下的優(yōu)化是很困難的。是的,還好我們有古老的納什均衡。但是問題是,這個過程是無限循環(huán)的。博弈論并沒有為你提供評價它們的依據(jù)。因此,即使你達到了一個納什均衡,也沒有什么大不了的。

五、強化學習的關(guān)注點

在這里,你應該認為人工智能應用比傳統(tǒng)的博弈論所涉及的例子要復雜得多。就拿在機器人應用中使用納什均衡方法的一些障礙來說:想象一下,你現(xiàn)在是機器人世界杯上的一隊足球機器人的隊長。你的隊員和對手有多快、多強、多聰明?對手的隊伍會采取什么策略?你該如何獎勵你的隊員?進球是慶祝的唯一理由嗎?還是說表揚一次好的傳球也能提升整支隊伍的表現(xiàn)呢?顯然,僅僅熟悉足球的規(guī)則也不會讓你贏得比賽。

如果博弈論幾十年來一直被爭論不休,如果它是建立在不切實際的假設之上處理現(xiàn)實的任務的,如果它提出的解決方案是復雜、難以理解的,那么為什么我們還要繼續(xù)研究它呢?很明顯,這是我們在群體推理中唯一得到的研究成果。如果我們真正了解群體是如何進行交互和合作從而達到它們的目標,那么心理學和政治中的一些問題就會清楚的多。

多智能體強化學習領(lǐng)域的研究人員要么徹底地展開關(guān)于他們算法的理論性質(zhì)的討論(并且通常展現(xiàn)出好的結(jié)果),或者根據(jù)傳統(tǒng)方法研究納什均衡的存在。后一種方法似乎在這個領(lǐng)域的年輕研究者眼中,看起來像是一種證明:在嚴格的、不切實際的假設下,理論上存在的那種無限循環(huán)的、本身價值值得懷疑的解決方案,將永遠不會在實踐中被利用。

六、進化博弈論

進化博弈論的創(chuàng)立并不是最近發(fā)生的事,但是它在人工智能領(lǐng)域的廣泛應用卻經(jīng)歷了很長時間才被承認。它起源于生物學,在 1973 年由 John M.Smith 和 George R.Price 作為經(jīng)典博弈論的替代者提出。這種改變是巨大的,我們可以說是討論了一種全新的方法。

推理的主體不再是參與者本身,而是參與者組成的群體。因此,概率化的策略被定義為做出決策的參與者的百分比,而不是像在經(jīng)典的博弈論中一個參與者選擇一個動作的概率。隨著策略進化為行為模式,理性的、無所不知的智能體便不再是必不可少的了。進化的過程類似于達爾文的學說。參與者遵循適者生存和隨機突變的原則繁衍,這一過程可以通過一系列微分方程優(yōu)雅地描述,被稱為「復制器動力學」。

在下面的示意圖中,我們可以看到這個系統(tǒng)的三個重要組成部分。群體代表智能體的團隊,其特征為策略的組合。博弈規(guī)則決定了群體的收益,這也可以看作演化算法的適應度的值。最后,復制器規(guī)則描述了群體如何根據(jù)適應度值和進化過程的數(shù)學特性來進化。

圖片來自于維基百科:(https://creativecommons.org/licenses/by-sa/3.0)

納什均衡的概念以及對它的目標被「進化穩(wěn)定策略」所取代。如果一種策略能抵御遵循另一種策略的群體的入侵(入侵的群體規(guī)模很小),它就滿足「進化穩(wěn)定策略」的特性。因此,可以在充分了解的動態(tài)系統(tǒng)的穩(wěn)定性方面對團隊行為進行研究,例如「Lyapunov stability」。

達到平衡狀態(tài)需要一個不平衡的過程。理性行為在不平衡的狀態(tài)中意味著什么呢?個體在平衡的過程中是否會對平衡狀態(tài)進行推測?如果他們這樣做了,不平衡可以在某種程度上被視為一個高階均衡過程嗎?

在上文中,Arrow 似乎在努力地尋找博弈的動態(tài)特性。那么進化博弈論能否給他一個答案呢?

最近,著名的強化學習算法,比如「Q 學習」,在這種新的方法的指導下被研究,并且取得了重要的研究成果。如何使用這種新的工具最終取決于應用場景。

我們可以采用前饋方法,推導出學習算法的動態(tài)模型?;蛘叻催^來,我們從一些期望得到的動態(tài)特性出發(fā),設計一個能體現(xiàn)它們的學習算法。

我們可以描述性地使用復制器動力學,以可視化收斂過程?;蛘咭?guī)范地對算法調(diào)優(yōu),以收斂到最優(yōu)解。通過消除盲目調(diào)參的需要,后者可以極大地減小我們現(xiàn)在為所面對的艱巨任務訓練深度網(wǎng)絡時所引起的計算復雜度。

七、結(jié)論

追溯博弈論和人工智能何時以及為何交織在一起并不難。然而,不可忽視的是人工智能,尤其是多智能體增強學習在遵循經(jīng)典博弈論方法時所面臨的限制。

進化博弈論的論述聽起來十分有前景,它提供了理論工具,具有實踐的優(yōu)勢,但我們在自己動手嘗試它之前不會真正知道其奧秘。由此看來,策略的進化并不是自然產(chǎn)生的,而是研究團體為了改進而進行的有意識的努力。但這難道不正是進化的本質(zhì)嗎?

擺脫一直推動你前進的思維慣性需要付出巨大的努力。但是,盡管強化學習在人工智能領(lǐng)域取得了廣泛的成功,仍然急需得到提升。

原文鏈接:

https://medium.freecodecamp.org/game-theory-and-ai-where-it-all-started-and-where-it-should-all-stop-82f7bd53a3b4

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2013-12-23 11:39:20

數(shù)據(jù)中心Unix接替

2017-03-28 10:15:07

2020-09-02 10:36:52

機器人人工智能系統(tǒng)

2023-06-25 11:30:47

可視化

2022-11-02 14:02:02

強化學習訓練

2024-03-25 11:37:40

機器學習人工智能進化算法

2024-10-12 17:14:12

2020-05-06 16:07:05

百度飛槳

2017-01-15 18:12:17

大數(shù)據(jù)人工智能AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2017-07-18 10:16:27

強化學習決策問題監(jiān)督學習

2019-05-28 11:11:27

強化學習AI深度學習

2015-01-14 10:46:22

APP開發(fā)

2020-12-02 13:24:07

強化學習算法

2022-02-17 12:27:29

機器學習數(shù)據(jù)安全網(wǎng)絡攻擊

2023-11-07 07:13:31

推薦系統(tǒng)多任務學習

2025-03-25 09:12:00

LIMAI模型

2023-01-24 17:03:13

強化學習算法機器人人工智能

2021-01-26 12:20:53

比特幣加密貨幣數(shù)字貨幣
點贊
收藏

51CTO技術(shù)棧公眾號