谷歌DeepMind最新突破:讓機器像人腦一樣保留學習記憶,向類人智能更進一步
導讀:和人腦不同,計算機程序學習執(zhí)行一項任務后,通常也會很快地忘記它們。而DeepMind這項***研究通過修改學習規(guī)則,程序在學習一個新任務時,還能記得起老任務。這樣的程序,能夠持續(xù)地、自適應地學習,無疑這是程序邁向更加智能化的重要一步。
計算機程序學習執(zhí)行一項任務后,通常也會很快地忘記它們。相比之下,我們的大腦以非常不同的方式工作。我們能夠逐步學習,一次獲得一個技能,并在學習新任務時運用我們以前的知識。作為起點,DeepMind在最近的PNAS文章里,提出一種方法來克服神經(jīng)網(wǎng)絡中的災難性遺忘。靈感源自神經(jīng)科學關于哺乳動物和人類大腦鞏固化既往獲得的技能和記憶的理論。
神經(jīng)科學家已經(jīng)發(fā)現(xiàn),在大腦中有兩種固化方法:系統(tǒng)固化和突觸固化。系統(tǒng)固化是指將我們大腦的快速學習過程獲取的記憶印記到緩慢學習過程。這種印記由有意識的和無意識的回憶所介導的—例如,這可能在夢中發(fā)生。第二種機制突觸固化,則是指那些在既往學習任務中扮演重要角色的神經(jīng)元之間的連接,不太可能被重寫。我們的算法,就是從這種機制中得到靈感,來解決災難性忘記的問題。
一個神經(jīng)網(wǎng)絡由多個連接組成,其連接方式與大腦的神經(jīng)元之間的連接方式相同。某個學習任務完成后,我們計算每個連接對該任務的重要性。當我們學習下一個新的任務時,按照每個連接對舊任務的重要性的比例,保護它們免受修改。因此,可以學習新任務而不重寫在先前任務中已經(jīng)學習的內(nèi)容,并且不會引起顯著的計算成本增加。用數(shù)學術語來說,我們可以認為在一個新任務中每個連接所附加的保護比作彈簧,彈簧的強度與其連接的重要性成比例。為此,我們稱之為“彈性權重固化”( Elastic Weight Consolidation , EWC)。
為了測試我們的算法,我們讓程序依次學習一個Atari游戲。當DeepMind在2014年突破性地教它的機器學習系統(tǒng)如何玩Atari游戲時,系統(tǒng)可以學會擊敗游戲,并且得分高于人類,但不記得它是如何做到的。單單從得分來學習一個游戲是一項具有挑戰(zhàn)性的任務,但是依次學習多個游戲更具挑戰(zhàn)性,因為每個游戲需要單獨的策略。如下圖所示,如果沒有EWC,程序會在每個游戲停止后(藍色)會快速忘記它。這意味著,平均來說,它幾乎沒有學會任何游戲。 然而,如果我們使用EWC(棕色和紅色),程序不會輕易忘記,并可以一個接一個地學會玩好幾個游戲。
“以前,我們有一個系統(tǒng),可以學習玩任何游戲,但它只能學會玩一個游戲,”James Kirkpatrick,DeepMind的研究科學家,并且其新研究論文的主要作者告訴WIRED。 “在這里我們展示一個可以學習玩很多個游戲的系統(tǒng)”。
“我們只允許它們在游戲之間的變化非常緩慢,”他說。 “這種方式有學習新任務的空間,但我們應用的更改不會覆蓋我們以前學習的算法”。
為了測試算法,DeepMind使用深層神經(jīng)網(wǎng)絡,稱為Deep Q-Network (DQN),它以前曾用來征服Atari游戲。然而,這次使用EWC算法來“增強”DQN。它測試了算法和神經(jīng)網(wǎng)絡上隨機選擇的十個Atari游戲,這是AI已經(jīng)證明可以像一個人類玩家一樣好。每個游戲播放2000萬次之前系統(tǒng)自動移動到下一個Atari游戲。
使用EWC算法的深層神經(jīng)網(wǎng)絡能夠學習玩一個游戲,然后轉移它學到的玩一個全新的游戲。
然而,系統(tǒng)絕不***。 雖然它能夠從以前的經(jīng)驗中學習并保留最有用的信息,但是它不能像只完成一個游戲的神經(jīng)網(wǎng)絡那樣表現(xiàn)得好。“目前,我們已經(jīng)展示了順序學習,但我們還沒有證明它是對學習效率的改進,”Kirkpatrick說。 “我們的下一步將嘗試和利用順序學習嘗試和改進現(xiàn)實世界的學習”。
連續(xù)學習任務而不忘記的能力是生物和人工智能的核心組成部分。今天,計算機程序還不能自適應地、實時地從數(shù)據(jù)學習。然而,DeepMind已經(jīng)證明災難性地遺忘并不是神經(jīng)網(wǎng)絡的不可逾越的挑戰(zhàn)。這項研究也推進了我們對固化過程在人類大腦中如何發(fā)生的理解。事實上,我們的工作所基于的神經(jīng)科學理論主要在非常簡單的例子中得到證實。通過將這個理論應用在更現(xiàn)實和復雜的機器學習環(huán)境中,我們希望進一步加強對突觸固化在記憶保留中的作用及其機制的研究。
來源:
https://deepmind.com/blog/enabling-continual-learning-in-neural-networks/, http://www.wired.co.uk/article/deepmind-atari-learning-sequential-memory-ewc
【本文是51CTO專欄機構大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】