強化學(xué)習(xí)的起源:從老鼠走迷宮到AlphaGo戰(zhàn)勝人類
?談到強化學(xué)習(xí),很多研究人員的腎上腺素便不受控制地飆升!它在游戲AI系統(tǒng)、現(xiàn)代機器人、芯片設(shè)計系統(tǒng)和其他應(yīng)用中發(fā)揮著十分重要的作用。
強化學(xué)習(xí)算法有很多不同的類型,但主要分為兩類:「基于模型的」和「無模型的」。
在與TechTalks的對話中,神經(jīng)科學(xué)家、 「智能的誕生」一書的作者Daeyeol Lee分別討論了人類和動物強化學(xué)習(xí)的不同模式、人工智能和自然智能,以及未來的研究方向。?
無模型的強化學(xué)習(xí)
19世紀(jì)后期,心理學(xué)家Edward Thorndike提出的「效應(yīng)定律」成為了無模型強化學(xué)習(xí)的基礎(chǔ)。 Thorndike提出,在特定情境中具有積極影響的行為,在該情境中更有可能再次發(fā)生,而產(chǎn)生負(fù)面影響的行為則不太可能再發(fā)生。
Thorndike在一個實驗中探索了這一「效應(yīng)定律」。 他把一只貓放在一個迷宮盒子中,并測量貓從盒中逃脫所需的時間。為了逃脫,貓必須操作一系列小工具,如繩子和杠桿。Thorndike觀察到,當(dāng)貓與謎盒互動時,它學(xué)會了有助于逃跑的行為。隨著時間的推移,貓?zhí)与x盒子的速度越來越快。 Thorndike的結(jié)論是,貓可以從其行為提供的獎勵和懲罰中進(jìn)行學(xué)習(xí)。 「效應(yīng)定律」后來為行為主義鋪平了道路。行為主義是心理學(xué)的一個分支,試圖從刺激和反應(yīng)的角度來解釋人類和動物的行為。 「效應(yīng)定律」也是無模型強化學(xué)習(xí)的基礎(chǔ)。在無模型強化學(xué)習(xí)中,通過主體感知世界,然后采取行動,同時衡量獎勵。
在無模型強化學(xué)習(xí)中,并不存在直接的知識或世界模型。RL代理必須通過反復(fù)試驗,直接去體驗每個動作的結(jié)果。
基于模型的強化學(xué)習(xí)
Thorndike的「效應(yīng)定律」一直流行到20世紀(jì)30年代。當(dāng)時另一位心理學(xué)家Edward Tolman在探索老鼠如何快速學(xué)會走迷宮時發(fā)現(xiàn)了一個重要的見解。在他的實驗中,Tolman意識到動物可以在沒有強化的情況下了解他們的環(huán)境。
例如,當(dāng)一只老鼠在迷宮中被放出來時,它會自由地探索隧道,并逐漸了解環(huán)境的結(jié)構(gòu)。如果隨后將這只老鼠重新放進(jìn)相同的環(huán)境,并提供強化信號,如尋找食物或?qū)ふ页隹冢敲此梢员葲]有探索過迷宮的動物更快地到達(dá)目標(biāo)。 Tolman稱之為「潛在學(xué)習(xí)」,這成為基于模型的強化學(xué)習(xí)的基礎(chǔ)。 「潛在學(xué)習(xí)」使動物和人類對他們的世界形成一種心理表征,在他們的頭腦中模擬假設(shè)的場景,并預(yù)測結(jié)果。
基于模型的強化學(xué)習(xí)的優(yōu)點是它消除了agent在環(huán)境中進(jìn)行試錯的需要。 值得強調(diào)的一點是:基于模型的強化學(xué)習(xí)在開發(fā)能夠掌握國際象棋和圍棋等棋盤游戲的人工智能系統(tǒng)方面尤其成功,可能的原因是這些游戲的環(huán)境是確定的。
基于模型 VS 無模型
通常來說,基于模型的強化學(xué)習(xí)會非常耗時,在對時間極度敏感的時候,可能會發(fā)生致命的危險。 Lee說:「在計算上,基于模型的強化學(xué)習(xí)要復(fù)雜得多。首先你必須獲得模型,進(jìn)行心理模擬,然后你必須找到神經(jīng)過程的軌跡,再采取行動。不過,基于模型的強化學(xué)習(xí)不一定就比無模型的RL復(fù)雜。」 當(dāng)環(huán)境十分復(fù)雜時,倘若可以用一個相對簡單的模型(該模型可以快速獲得)進(jìn)行建模,那么模擬就會簡單得多,而且具有成本效益。?
多種學(xué)習(xí)模式
其實,無論是基于模型的強化學(xué)習(xí)還是無模型的強化學(xué)習(xí)都不是一個完美的解決方案。無論你在哪里看到一個強化學(xué)習(xí)系統(tǒng)解決一個復(fù)雜的問題,它都有可能是同時使用基于模型和無模型的強化學(xué)習(xí),甚至可能更多形式的學(xué)習(xí)。 神經(jīng)科學(xué)的研究表明,人類和動物都有多種學(xué)習(xí)方式,而大腦在任何特定時刻都在這些模式之間不斷切換。 ?最近幾年,人們對創(chuàng)造結(jié)合多種強化學(xué)習(xí)模式的人工智能系統(tǒng)越來越感興趣。 加州大學(xué)圣地亞哥分校的科學(xué)家最近的研究表明,將無模型強化學(xué)習(xí)和基于模型的強化學(xué)習(xí)結(jié)合起來,可以在控制任務(wù)中取得卓越的表現(xiàn)。 Lee表示:「如果你看看像AlphaGo這樣復(fù)雜的算法,它既有無模型的RL元素,也有基于模型的RL元素,它根據(jù)棋盤配置學(xué)習(xí)狀態(tài)值,這基本上是無模型的 RL,但它同時也進(jìn)行基于模型的前向搜索。」
盡管取得了顯著的成就,強化學(xué)習(xí)的進(jìn)展仍然緩慢。一旦RL模型面臨復(fù)雜且不可預(yù)測的環(huán)境,其性能就會開始下降。?
Lee說:「我認(rèn)為我們的大腦是一個學(xué)習(xí)算法的復(fù)雜世界,它們已經(jīng)進(jìn)化到可以處理許多不同的情況。」
除了在這些學(xué)習(xí)模式之間不斷切換之外,大腦還設(shè)法一直保持和更新它們,即使是在它們沒有積極參與決策的情況下。
心理學(xué)家Daniel Kahneman表示:「維護(hù)不同的學(xué)習(xí)模塊并同時更新它們是有助于提高人工智能系統(tǒng)的效率和準(zhǔn)確性?!?nbsp;
我們還需要清楚另一件事——如何在AI系統(tǒng)中應(yīng)用正確的歸納偏置,以確保它們以具有成本效益的方式學(xué)習(xí)正確的東西。 數(shù)十億年的進(jìn)化為人類和動物提供了有效學(xué)習(xí)所需的歸納偏置,同時使用盡可能少的數(shù)據(jù)。 歸納偏置可以理解為,從現(xiàn)實生活觀察到的現(xiàn)象中,總結(jié)出規(guī)則,然后對模型做一定的約束,從而可以起到模型選擇的作用,即從假設(shè)空間中選擇出更符合現(xiàn)實規(guī)則的模型。 Lee說:「我們從環(huán)境中獲得的信息非常少。使用這些信息,我們必須進(jìn)行概括。原因是大腦存在歸納偏置,并且存在可以從一小組示例中概括出來的偏置。這是進(jìn)化的產(chǎn)物,越來越多的神經(jīng)科學(xué)家對此感興趣?!?nbsp;然而,雖然歸納偏置在物體識別任務(wù)中很容易理解,但在構(gòu)建社會關(guān)系等抽象問題中就變得晦澀難懂。 未來,需要我們了解的還有很多~~~?
參考資料:
https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning?