為機器賦予記憶:DeepMind重磅研究提出彈性權重鞏固算法
作為世界上最受矚目的人工智能技術研究機構之一,Google DeepMind 總是在不斷帶來我們驚喜。在去年的官方總結中,DeepMind 指出,「2016 年,我們的另一重要研究領域是記憶(memory),特別是如何將神經網絡的決策智能和有關復雜結構化數(shù)據的存儲、推理能力結合起來的難題?!?/p>
近日,DeepMind 又發(fā)布一份新研究(這一方法不同于之前提出的 PathNet),宣稱實現(xiàn)了神經網絡的連續(xù)學習(Continual Learning),讓計算機程序可以不忘記之前學習過的內容并漸進式地學習新內容。這篇論文結合了生物學、突觸彈性理論,并討論了突觸不僅存儲權重還存儲這一權重不確定性的理論。這項研究得到了廣泛的關注,比如 Bloomberg 的報道寫道,這項研究「可能將為能被更輕松地應用于多種任務的人工智能系統(tǒng)開啟新的道路,它也應該可以提升人工智能系統(tǒng)在任務之間遷移知識的能力和掌握一系列互相鏈接的步驟的能力?!箼C器之心在此對 DeepMind 與該研究相關的官方博客文章和論文摘要進行了介紹。
論文地址:http://www.pnas.org/content/early/2017/03/13/1611835114.full.pdf
學習執(zhí)行任務的計算機程序通常也會很快地忘記這些任務。我們的研究表明可以修改學習規(guī)則使程序在學習新任務的時候還記得舊任務。這是向能漸進學習和自適應學習的更加智能的機器所邁出的重要一步。
深度神經網絡是目前最成功的機器學習技術,可用于解決語言翻譯、圖像分類和圖像生成等多種任務。但是,通常只有當數(shù)據是一次性全部呈現(xiàn)時,它們才能學習多種任務。隨著一個網絡在一項特定任務上的訓練的進行,其參數(shù)也將逐漸適應此任務的解決。而當引入一個新任務的時候,新的適應過程會改寫該網絡之前已經獲得的知識。這種現(xiàn)象在認知科學領域被稱為「災難性遺忘(catastrophic forgetting)」,這也被認為是神經網絡的基本限制之一。
相對而言,我們的大腦卻有著不同的工作方式。我們可以漸進地學習,可以一次只學習一個技能,而且也能在學習新任務時應用我們之前獲得知識。這也是我們最近在 PNAS 上發(fā)表的論文《Overcoming catastrophic forgetting in neural networks》的起點。在這篇論文中,我們提出了一種可以克服神經網絡的災難性遺忘的方法。我們的靈感來自于神經科學,涉及到有關哺乳動物和人類大腦鞏固之前習得的技能和記憶的理論。
神經科學家已經識別出了大腦之中的兩種鞏固(consolidation)方式:系統(tǒng)鞏固(systems consolidation)和突觸鞏固(synaptic consolidation)。系統(tǒng)鞏固是指這樣一個過程:將我們大腦中的快速學習部分已經獲得的記憶印刻到慢速學習的部分。這種印刻過程被認為是通過有意識或無意識的回憶實現(xiàn)的——比如說,這可能會發(fā)生在做夢的時候。而對于第二種機制——突觸鞏固,是指如果一些突觸連接在之前所學到的任務中是很重要的,那么它們被改寫的可能性就更小。具體而言,我們的算法就從這種機制中獲得了解決災難性遺忘的靈感。
神經網絡由很多連接構成,這些連接的方式在很大程度上類似于大腦中的連接。在學會一個任務之后,我們計算每個連接對于該任務的重要程度。當我們學習一個新任務時,我們按照連接對舊任務的重要程度,按比例地對連接進行修改保護。因此這就可以在無需修改在之前的任務中所學習到的內容的同時而學會新的任務,并且這也不會帶來顯著的計算成本。我們可以將我們?yōu)槊總€連接所施加的保護看作是通過一個彈簧鏈接到之前的保護值,其剛度(stiffness)正比于其連接的重要程度。為此,我們將我們的算法稱為「彈性權重鞏固(EWC/Elastic Weight Consolidation)」。
DeepMind新的AI程序同時應付兩個任務的學習過程
為了測試我們的算法,我們讓一個代理按順序接觸 Atari 游戲。單獨根據得分掌握單個游戲,很有挑戰(zhàn)性,不過,按順序掌握多個游戲更是難上加難,因為每個游戲都需要一種單獨的策略。正如下面圖表所表明的,沒有 EWC,在停止游戲后(藍色),該代理會迅速忘記每個游戲。這意味著,平均而言該代理幾乎沒有掌握任何一個游戲。不過,如果我們使用了 EWC(棕色和紅色),該代理就不會輕易忘記游戲,還能一個接一個地掌握多個游戲。
今天,計算機程序還無法從數(shù)據中自適應地進行實時學習。不過,我們已經表明,對于神經網絡來說,災難性遺忘不是一座不可征服的高山。我們也希望,這份研究代表了人們朝著能夠以更加靈活自動化的方式進行學習的程序又邁進了一步。
我們的研究也推進了人類對大腦中突觸鞏固(synaptic consolidation)形成方式的理解。實際上,作為我們的研究基礎的神經科學理論目前只是在非常簡單的例子中得以證明。通過表明那些相同的理論也可以適用到更加現(xiàn)實和復雜的機器學習環(huán)境中,我們希望能夠進一步賦予這一思想更大的重要性:突觸鞏固是保留記憶和方法的關鍵。
論文:克服神經網絡中的災難性遺忘
(Overcoming catastrophic forgetting in neural networks)
摘要
以順序的方式學習任務的能力對人工智能的開發(fā)來說是至關重要的。到目前為止,神經網絡都還不具備這種能力,而且人們普遍認為災難性遺忘(catastrophic forgetting)是連接主義模型(connectionist model)的不可避免 特征。我們的研究表明有可能克服這種限制并訓練出能夠在很長一段時間里在它們沒有經歷過的任務上保持專業(yè)知識的網絡。我們的方法能夠選擇性地減慢對這些任務而言比較重要的權重的學習速率。通過解決一系列基于手寫數(shù)字數(shù)據集的分類任務和按順序學習多個 Atari 2600 游戲,我們表明我們的方法是可擴展的和有效的。
原文:https://deepmind.com/blog/enabling-continual-learning-in-neural-networks/
【本文是51CTO專欄機構機器之心的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】