從認(rèn)知學(xué)到進(jìn)化論,詳述強(qiáng)化學(xué)習(xí)兩大最新突破
大數(shù)據(jù)文摘出品
編譯:李雷、錢天培
深層強(qiáng)化學(xué)習(xí)(deep RL)近年來在人工智能方面取得了令人矚目的進(jìn)步,在Atari游戲、圍棋及***制撲克等領(lǐng)域戰(zhàn)勝了人類。
通過將表征學(xué)習(xí)與獎勵驅(qū)動行為相結(jié)合,深層強(qiáng)化學(xué)習(xí)又引發(fā)了心理學(xué)和神經(jīng)科學(xué)領(lǐng)域的諸多討論。
不過,深度強(qiáng)化學(xué)習(xí)過程往往需要大量的訓(xùn)練數(shù)據(jù)。正因如此,多數(shù)人認(rèn)為這些算法可能與人類學(xué)習(xí)有著本質(zhì)的區(qū)別。
事實上,這種擔(dān)憂只出現(xiàn)在深度強(qiáng)化學(xué)習(xí)技術(shù)的早期階段。隨后的AI研究工作已使deep RL系統(tǒng)能更快速有效地學(xué)習(xí)。
這些AI研究中有兩個特別有趣又有前景的技術(shù),分別是情景記憶(對特定事件的記憶,episodic memory)和元學(xué)習(xí)(學(xué)會如何學(xué)習(xí),meta-learning)。
今天,我們就會著重介紹這兩種新技術(shù)——它們或?qū)閺?qiáng)化學(xué)習(xí)帶來重要變革。
作為AI技術(shù),利用了情景記憶和元學(xué)習(xí)的deep RL方法也可以應(yīng)用于心理學(xué)和神經(jīng)科學(xué),尤其是這些技術(shù)隱含的關(guān)于快速和慢速學(xué)習(xí)模式之間基本聯(lián)系。
強(qiáng)大但低效:***波深度強(qiáng)化學(xué)習(xí)浪潮
在過去的幾年里,人工智能(AI)研究取得了革命性的進(jìn)展,神經(jīng)網(wǎng)絡(luò)或“深度學(xué)習(xí)”方法的再次興起使圖像識別、自然語言處理以及許多其他領(lǐng)域產(chǎn)生突破。這些發(fā)展引起了心理學(xué)家、心理語言學(xué)家和神經(jīng)科學(xué)家的興趣,他們對人工智能的發(fā)展是否會帶來有關(guān)人類認(rèn)知和腦功能的新假說感到好奇。
從這個角度來看,人工智能研究的一個特別吸引人的地方就是深度強(qiáng)化學(xué)習(xí)(deep RL)。deep RL將神經(jīng)網(wǎng)絡(luò)建模與強(qiáng)化學(xué)習(xí)結(jié)合起來,這是一套以獎懲而非明確指令驅(qū)動學(xué)習(xí)的方法。經(jīng)過數(shù)十年的空想之后,deep RL在過去的5年里已經(jīng)成為人工智能研究競爭最激烈的領(lǐng)域之一,在視頻游戲、撲克、多人賽和復(fù)雜的棋盤游戲(包括圍棋和國際象棋)等方面的表現(xiàn)都超越了人類。
深度強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)的焦點集中在學(xué)習(xí)行為策略的問題上,即從狀態(tài)或情境到行為的映射,這使得長期獎勵的累積***化。簡單情況下,這種策略可以表示為列舉了狀態(tài)和行為的查找表。而在復(fù)雜情況下,則需要用參數(shù)化函數(shù)來間接地表達(dá)策略。早期(上世紀(jì)90年代)使用多層(或深層)神經(jīng)網(wǎng)絡(luò)來實現(xiàn),但在整合深層神經(jīng)網(wǎng)絡(luò)和RL上遇到了困難。直到2015年,deep RL在復(fù)雜領(lǐng)域(如Atari視頻游戲)的突破,以及隨之而來在改進(jìn)和擴(kuò)展deep RL方面的快速發(fā)展,使其可以應(yīng)用于復(fù)雜任務(wù)中,比如圍棋。
作為AI技術(shù),deep RL似乎與心理學(xué)和神經(jīng)科學(xué)有著特別的淵源。deep RL的學(xué)習(xí)驅(qū)動機(jī)制最初是受到動物訓(xùn)練研究的啟發(fā),并且這種機(jī)制被認(rèn)為與基于獎勵(產(chǎn)生多巴胺)的學(xué)習(xí)神經(jīng)機(jī)制密切相關(guān)。同時,deep RL利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)支持泛化和轉(zhuǎn)移的強(qiáng)大表征,這一點與生物大腦的關(guān)鍵能力極為相似。有鑒于此,deep RL似乎為研究人類/動物學(xué)習(xí)的人員在行為和神經(jīng)科學(xué)上提供了豐富的想法和假設(shè)。事實上,研究人員已開始注意到這一點。
不過,***波deep RL研究也引發(fā)了某些警示。首先,deep RL系統(tǒng)的學(xué)習(xí)方式人類完全不同。有人認(rèn)為,這種差異表現(xiàn)為人類學(xué)習(xí)與deep RL的采樣效率不同。
采樣效率是指學(xué)習(xí)系統(tǒng)達(dá)到任何選定目標(biāo)性能水平所需的數(shù)據(jù)量。在這一指標(biāo)上,***波deep RL系統(tǒng)確實與人類學(xué)習(xí)者有著本質(zhì)區(qū)別。例如,為了在Atari視頻游戲或國際象棋等任務(wù)中獲得專業(yè)級別的表現(xiàn),deep RL系統(tǒng)的訓(xùn)練數(shù)據(jù)需要比人類專業(yè)選手多幾個數(shù)量級。簡而言之,至少在最初的系統(tǒng)中,deep RL訓(xùn)練速度太慢,無法生成人類學(xué)習(xí)的合理模型。
但很快,deep RL研究中發(fā)生了重大創(chuàng)新,這些創(chuàng)新減少了對訓(xùn)練數(shù)據(jù)量的要求,使得deep RL的采樣效率得到了顯著提升,因此可以生成人類學(xué)習(xí)模型,這為心理學(xué)和神經(jīng)科學(xué)的研究找到新的出發(fā)點。
本文中,我們主要考慮兩種提升樣本效率的關(guān)鍵方法:episodic deep RL(情景式deep RL)和meta-RL(元強(qiáng)化學(xué)習(xí))。我們研究了這些技術(shù)如何實現(xiàn)快速deep RL,及其對心理學(xué)和神經(jīng)科學(xué)的潛在影響。
deep RL慢的原因
快速RL技術(shù)關(guān)鍵出發(fā)點是搞清楚為什么初始的deep RL方法速度如此慢,樣本效率如此低下。在這里,我們講兩個主要原因。在本文的***,我們將回過頭來研究這兩個原因之間的聯(lián)系。
***個原因是增量參數(shù)調(diào)整,也可以被理解為梯度下降算法所帶來的局限性。早期deep RL方法(在人工智能研究中仍然被廣泛使用)采用梯度下降來描述從感知輸入到動作輸出的深度神經(jīng)網(wǎng)絡(luò)曲線。這種形式的學(xué)習(xí)過程中所做的調(diào)整必須很小,以便***限度地泛化并避免覆蓋之前的學(xué)習(xí)效果(有時被稱為“災(zāi)難性干擾”)。這種對小步長調(diào)整的需求是早期deep RL方法速度慢的原因之一。
第二個原因是弱感應(yīng)偏差。學(xué)習(xí)理論的一個基本信條是“偏差-方差權(quán)衡”,這在任何學(xué)習(xí)過程中都存在。歸納偏置(inductive bias)是指機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好。學(xué)習(xí)過程對學(xué)習(xí)模式的初始假設(shè)越強(qiáng)(即學(xué)習(xí)過程的初始?xì)w納偏置越強(qiáng)),完成學(xué)習(xí)所需的數(shù)據(jù)就越少(假設(shè)初始?xì)w納偏置與數(shù)據(jù)中的相符)。弱歸納偏置的學(xué)習(xí)過程可以掌握更廣泛的模式(更大的方差),但樣本效率通常會降低。實際上,強(qiáng)歸納偏置(對輸入數(shù)據(jù)僅考慮范圍窄的假設(shè))才是可以快速學(xué)習(xí)的原因。更重要的是,通用神經(jīng)網(wǎng)絡(luò)是極低偏置的學(xué)習(xí)系統(tǒng):它們有許多參數(shù)(不同權(quán)重),需要適應(yīng)各種類型的數(shù)據(jù)。這意味著早期deep RL模型中采用的通用神經(jīng)網(wǎng)絡(luò)往往是樣本效率奇低的,需要大量數(shù)據(jù)來學(xué)習(xí)。
以上兩個因素 - 增量參數(shù)調(diào)整和弱感應(yīng)偏差 - 共同造成了早期deep RL模型速度慢的事實。然而,隨后的研究表明,這兩個因素都可以減輕,從而允許deep RL以更加樣本有效的方式進(jìn)行學(xué)習(xí)。在下文中,我們考慮兩種特定技術(shù),一種解決增量參數(shù)調(diào)整問題,另一種解決弱感應(yīng)偏差問題。除了它們在AI領(lǐng)域的影響之外,這兩種AI技術(shù)都與心理學(xué)和神經(jīng)科學(xué)有著明顯的聯(lián)系,我們將詳細(xì)說明。
Episodic Deep RL:通過情景記憶快速學(xué)習(xí)
如果增量參數(shù)調(diào)整是deep RL速度慢的一個原因,那么一種解決方法可能是避免這種增量更新。單純靠控制梯度下降來優(yōu)化學(xué)習(xí)率會導(dǎo)致災(zāi)難性干擾問題。
最近的研究表明,另一種方法也可以實現(xiàn)相同的目標(biāo),即保留過去事件的明確記錄,并直接將此記錄用作制定新決策的參考點。這種方法稱為episodic RL,與機(jī)器學(xué)習(xí)中的“非參數(shù)”(不對目標(biāo)函數(shù)的形式作出強(qiáng)烈假設(shè))方法相似,如K近鄰算法,也類似于心理學(xué)中學(xué)習(xí)理論的“實例”或“范例”教學(xué)。
當(dāng)遇到新情況且必須決定采取何種行動時,程序?qū)?dāng)前情況的內(nèi)部表示與過去情況的存儲表示進(jìn)行比較。根據(jù)與當(dāng)前最相似的過去情況,選擇相關(guān)聯(lián)的動作。當(dāng)使用多層神經(jīng)網(wǎng)絡(luò)計算內(nèi)部狀態(tài)表示時,我們將得到的算法稱為“episodic deep RL”。
episodic RL的成功取決于用于計算狀態(tài)相似度的狀態(tài)表示。后來的研究表明,通過使用梯度下降學(xué)習(xí)來形成這些狀態(tài)表示可以改善性能。這些結(jié)果解釋了episodic RL在Atari學(xué)習(xí)環(huán)境57項游戲中的強(qiáng)大性能和高數(shù)據(jù)效率,展示了結(jié)合慢(表示)學(xué)習(xí)和快速(估算)學(xué)習(xí)的好處。
在episodic deep RL中,與標(biāo)準(zhǔn)增量方法不同,可以立即利用每個經(jīng)驗事件獲得的信息來指導(dǎo)行為。然而,episodic deep RL能夠消除早期deep RL慢的因素,進(jìn)行快速學(xué)習(xí),主要取決于其減緩了增量學(xué)習(xí)。這種增量學(xué)習(xí)是對連接權(quán)重的漸進(jìn)學(xué)習(xí),允許系統(tǒng)對每個新觀察到的情況形成有用的內(nèi)部表示或嵌入(embeddings)。這些表示的格式通過經(jīng)驗學(xué)習(xí)獲得,使用相同類型的增量參數(shù)更新(即標(biāo)準(zhǔn)deep RL的根基)。最終,通過這種較慢的學(xué)習(xí)形式提升了episodic deep RL的速度。也就是說,通過慢學(xué)習(xí)實現(xiàn)了快速學(xué)習(xí)。
快速學(xué)習(xí)對慢學(xué)習(xí)的依賴并非巧合。正如我們將在下面論述的那樣,它是一個基本原則,不僅適用于AI,也適用于心理學(xué)和神經(jīng)科學(xué)。然而,在考慮這個一般性觀點之前,我們將研究它在第二個用于快速deep RL技術(shù) - meta-RL中的作用。
Meta-RL:通過學(xué)習(xí)如何學(xué)習(xí)來加速deep RL
如前所述,標(biāo)準(zhǔn)deep RL速度慢,除了增量更新,還有弱感應(yīng)偏差。正如在偏差 - 方差權(quán)衡的概念中所描述的,快速學(xué)習(xí)要求對需要學(xué)習(xí)的模式結(jié)構(gòu)要有一組合理數(shù)量的假設(shè)。假設(shè)設(shè)置得越細(xì)(窄),學(xué)習(xí)速度就越快。然而,正如前面所提到的,有一個問題:一個狹義的假設(shè)集只有在它包含正確的假設(shè)時才會提高學(xué)習(xí)速度。雖然強(qiáng)歸納偏置可以加速學(xué)習(xí),但只有學(xué)習(xí)者采用的特定偏置恰好與學(xué)習(xí)材料相符合時才行。因此,這里出現(xiàn)了一個新的學(xué)習(xí)問題:學(xué)習(xí)者如何知道采用什么歸納偏置?
看到這個問題,很容易想到的答案是借鑒過去的經(jīng)驗。顯然,這就是我們?nèi)粘I钪械那樾?。例如,學(xué)習(xí)使用新的智能手機(jī)。在這種情況下,一個人過去使用智能手機(jī)和其他相關(guān)設(shè)備的經(jīng)驗可以用來假設(shè)新手機(jī)應(yīng)該如何工作,也可以用來指導(dǎo)摸索手機(jī)操作。這些初始假設(shè)對應(yīng)于偏差 - 方差權(quán)衡中的“偏差”,它們會影響快速學(xué)習(xí)能力。沒有這些初始偏置的學(xué)習(xí)者(即具有更高的“方差”)會考慮更廣泛的關(guān)于手機(jī)操作的假設(shè),但這樣就會犧牲學(xué)習(xí)速度。
利用過去的經(jīng)驗來加速新學(xué)習(xí)在機(jī)器學(xué)習(xí)中被稱為元學(xué)習(xí)(meta-learning)。其實這個想法源于心理學(xué),被稱為“學(xué)習(xí)如何學(xué)習(xí)”。這個術(shù)語***出現(xiàn)在一篇心理學(xué)研究過論文中,作者Harlow給出了一個可以很好體現(xiàn)這個術(shù)語的實驗。在實驗里,一群猴子面前放著兩個它們不熟悉的物體,并允許它們拿起其中一個。
物體下面可能是食物獎勵,也可能是空的。然后將兩個物體再次放在猴子面前,但是位置可能左右顛倒,重復(fù)該過程6輪。然后用兩個新的,猴子不熟悉的物體,并重復(fù)之前的試驗6次。重復(fù)更換物體,依此類推。隨著測試次數(shù)增加,猴子們能發(fā)現(xiàn)一個簡單規(guī)則:總是有一種物體下面有食物而另一種物體沒有,不管這種物體放左還是放右。因此當(dāng)給它們一對新物體時,猴子只要試一次就知道應(yīng)該選哪個了。這是一個關(guān)于學(xué)習(xí)如何學(xué)習(xí)的簡單生動的例子。
現(xiàn)在回到機(jī)器學(xué)習(xí),新的研究工作表明怎樣利用元學(xué)習(xí)來加速深度學(xué)習(xí),已經(jīng)有很多方法可以實現(xiàn)這個思路。其中一種方法與神經(jīng)科學(xué)和心理學(xué)有著特殊的聯(lián)系。在這個方法里,循環(huán)神經(jīng)網(wǎng)絡(luò)在一系列相互關(guān)聯(lián)的RL任務(wù)上進(jìn)行訓(xùn)練。
網(wǎng)絡(luò)中的權(quán)重調(diào)整非常緩慢,因此可以反應(yīng)出任務(wù)中共性的內(nèi)容,但不能快速更改以用于任何單個任務(wù)的解決方案。在這種情況下,循環(huán)網(wǎng)絡(luò)的活動狀態(tài)可以實現(xiàn)自己的RL算法,該算法基于過去任務(wù)產(chǎn)生的知識來快速解決每個新任務(wù)。也就是說,一個RL算法產(chǎn)生另一個,因此被命名為'meta-RL'。
與episodic deep RL一樣,meta-RL也與快速和慢速學(xué)習(xí)之間的密切聯(lián)系有關(guān)。循環(huán)網(wǎng)絡(luò)的權(quán)重在任務(wù)之間緩慢更新,允許任務(wù)間的共性信息“內(nèi)置”到循環(huán)網(wǎng)絡(luò)的狀態(tài)中。由此產(chǎn)生的網(wǎng)絡(luò)狀態(tài)變化實現(xiàn)了一種新的學(xué)習(xí)算法,可以快速解決新問題,因為慢速學(xué)習(xí)的基礎(chǔ)過程給了它們有用的歸納偏置。這又是一次快速學(xué)習(xí)源于慢學(xué)習(xí),并且通過慢學(xué)習(xí)實現(xiàn)提速。
Episodic Meta-RL
注意!我們上面討論的兩種技術(shù)并不相互排斥。實際上,最近的研究表明可以元學(xué)習(xí)(meta-learning)和情景控制(episodic control)整合起來,實現(xiàn)互補(bǔ)。在Episodic Meta-RL中,如前所述,元學(xué)習(xí)發(fā)生在循環(huán)神經(jīng)網(wǎng)絡(luò)中。疊加在其上的是情景記憶系統(tǒng),其作用是恢復(fù)循環(huán)神經(jīng)網(wǎng)絡(luò)的活動模式。與episodic deep RL一樣,情景記憶對一組過去事件進(jìn)行編目,可以根據(jù)當(dāng)前上下文查詢這些事件。然而,Episodic Meta-RL不是將上下文與估值聯(lián)系起來,而是將它們與來自循環(huán)網(wǎng)絡(luò)的內(nèi)部或隱藏單元的存儲活動模式連接起來。這些模式很重要,因為通過meta-RL,它們總結(jié)了agent從與單個任務(wù)交互中學(xué)到的東西。在episodic meta-RL中,當(dāng)agent遇到與過去類似的情況時,它會允許先前學(xué)習(xí)的信息影響當(dāng)前策略。實際上,情景記憶允許系統(tǒng)識別先前遇到的任務(wù),并檢索存儲的解決方案。
通過模擬“強(qiáng)盜決策”任務(wù)和導(dǎo)航任務(wù),Ritter 等人發(fā)現(xiàn)episodic meta-RL,就像普通的meta-RL一樣,學(xué)習(xí)強(qiáng)歸納偏置,從而使其能夠快速解決新任務(wù)。更重要的是,當(dāng)遇到過去類似的任務(wù)時,episodic meta-RL會立即檢索并恢復(fù)之前生成的解決方案,從而無需重新學(xué)習(xí)。在***次遇到新任務(wù)時,系統(tǒng)速度受益于meta-RL的快速性; 在其后遇到新任務(wù)時,系統(tǒng)速度受益于情景控制所賦予的一次性學(xué)習(xí)能力。
對神經(jīng)科學(xué)和心理學(xué)的啟示
正如我們在文章開始時所看到的那樣,人們因為采樣效率低下的問題而質(zhì)疑deep RL與人類或其他動物學(xué)習(xí)的相似性。從心理學(xué)和神經(jīng)科學(xué)的角度來看,episodic deep RL和meta-RL的一個重要含義是它們通過展示deep RL實際上速度不慢,從而消除了這種質(zhì)疑。本文在一定程度上認(rèn)為,deep RL是可以作為人類和動物學(xué)習(xí)的候選模型的。然而,除了這一點之外,episodic deep RL和meta-RL的細(xì)節(jié)也指向了心理學(xué)和神經(jīng)科學(xué)中一些有趣的新假說。
首先是episodic deep RL。我們已經(jīng)注意到它與經(jīng)典的基于實例學(xué)習(xí)的人類記憶模型之間的有趣聯(lián)系。Episodic RL為基于實例的處理如何促進(jìn)獎勵驅(qū)動學(xué)習(xí)提供了一個可能的解釋。有趣的是,最近關(guān)于動物和人類增強(qiáng)學(xué)習(xí)的研究越來越認(rèn)可情景記憶的潛在貢獻(xiàn),有證據(jù)表明狀態(tài)和行動價值的估計是基于對特定的過去行動 - 結(jié)果觀察的檢索記憶。
再說meta-RL,它對心理學(xué)和神經(jīng)科學(xué)也有值得注意的潛在影響。有研究提出了從meta-RL的元素到神經(jīng)結(jié)構(gòu)和功能的直接映射。一系列計算機(jī)模擬表明, meta-RL可以解釋行為和神經(jīng)生理學(xué)中的各種實證研究結(jié)果。
快速和慢速RL:更廣泛的意義
在討論episodic RL和meta-RL時,我們強(qiáng)調(diào)了“慢速”學(xué)習(xí)在實現(xiàn)快速、高采樣效率的學(xué)習(xí)方面的作用。在meta-RL中,正如我們所看到的,緩慢且基于權(quán)重學(xué)習(xí)的作用是建立歸納偏置,這可以用于指導(dǎo)推理,從而快速適應(yīng)新任務(wù)。而episodic RL的緩慢增量學(xué)習(xí)也是類似的。Episodic RL本質(zhì)上依賴于對情景或狀態(tài)之間相似性的判斷。緩慢的學(xué)習(xí)形成了狀態(tài)的內(nèi)部表示方式,從而產(chǎn)生了一系列關(guān)于哪些狀態(tài)最密切相關(guān)的歸納偏置。
如果更仔細(xì)地觀察episodic RL,可以看出歸納偏置是學(xué)習(xí)架構(gòu)的一部分。episodic RL有一種平滑原則的假設(shè):類似的狀態(tài)通常會產(chǎn)生類似的動作。這種歸納偏置不是用于學(xué)習(xí),而是連接到定義episodic RL的學(xué)習(xí)系統(tǒng)結(jié)構(gòu)中。在當(dāng)前的AI術(shù)語中,這屬于“架構(gòu)”或“算法偏置”等情況,與meta-RL 中的“學(xué)習(xí)偏置”不同。
無論是通過學(xué)習(xí)還是通過直接手工設(shè)計架構(gòu)或算法偏置來實現(xiàn),目前的人工智能研究主要集中在尋找有用的歸納偏置以加快學(xué)習(xí)速度。實際上,后一種方法本身就是當(dāng)前人工智能神經(jīng)網(wǎng)絡(luò)理論復(fù)蘇的主要原因。卷積神經(jīng)網(wǎng)絡(luò)引發(fā)了這種復(fù)蘇,它構(gòu)建了一種與圖像識別中的平移不變性相關(guān)的非常特定的結(jié)構(gòu)偏置。然而,在過去幾年中,越來越多的人工智能研究或多或少地集中在歸納偏置問題上。
站在更高的層次來看,這些技術(shù)的發(fā)展與心理學(xué)中一些長期存在的問題極為相似。正如我們已經(jīng)指出的那樣,歸納偏置可能通過學(xué)習(xí)獲得的想法最初源于心理學(xué),并且不時在心理學(xué)研究中被人們提到。然而,神經(jīng)網(wǎng)絡(luò)中的元學(xué)習(xí)可以提供新的應(yīng)用場景來探索這種學(xué)習(xí)如何學(xué)習(xí)過程的機(jī)制和原因,尤其是在RL環(huán)境中。
心理學(xué),特別是發(fā)展心理學(xué),長期以來也一直認(rèn)為人類存在某種內(nèi)在固有的歸納偏置。然而,架構(gòu)偏置的概念以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的內(nèi)置偏置的概念還未得到廣泛認(rèn)同。目前深度學(xué)習(xí)和深度增強(qiáng)學(xué)習(xí)的方法都提供了一個研究工具,可能有助于心理學(xué)領(lǐng)域的進(jìn)一步探索。
值得注意的是,雖然人工智能將通過學(xué)習(xí)獲得的歸納偏置和手工“加入”的偏置做了明確區(qū)分,但在生物學(xué)背景下,兩者也有更一般的共性。具體而言,人們可以將架構(gòu)和算法偏置視為由進(jìn)化驅(qū)動的不同學(xué)習(xí)過程產(chǎn)生的。在這里,進(jìn)化是一種“緩慢”的學(xué)習(xí)過程,逐漸形成架構(gòu)和算法偏置,從而加快終身學(xué)習(xí)速度。因此,元學(xué)習(xí)不僅在一個生命周期內(nèi)發(fā)揮作用,而且在進(jìn)化中也發(fā)揮作用。有趣的是,這種觀點意味著進(jìn)化不會選擇真正的“通用”學(xué)習(xí)算法,而是選擇那些利用大腦進(jìn)化的特定環(huán)境中的規(guī)律性的算法。最近的機(jī)器學(xué)習(xí)更多地深入研究構(gòu)建agent體系結(jié)構(gòu)的方法,以及通過自然選擇的進(jìn)化算法構(gòu)建獎勵函數(shù),這些新發(fā)展再次證明其在探索神經(jīng)科學(xué)和心理學(xué)方面的意義。
結(jié)束語
deep RL研究領(lǐng)域的快速發(fā)展對心理學(xué)和神經(jīng)科學(xué)具有極大的意義,因為它集中關(guān)注代表性學(xué)習(xí)和目標(biāo)導(dǎo)向行為。在本文中,我們描述了***的deep RL形式,它克服了采樣效率低下的明顯問題,允許deep RL “快速”工作。這些技術(shù)不僅強(qiáng)化了deep RL對心理學(xué)和神經(jīng)科學(xué)的潛在聯(lián)系,而且它們通過情景記憶和元學(xué)習(xí)等使這些潛在聯(lián)系更加豐富多樣。此外,deep RL的研究越來越多地為心理學(xué)和神經(jīng)科學(xué)的新研究給出具體詳細(xì)的指導(dǎo)。
正如我們所強(qiáng)調(diào)的那樣,有關(guān)高效采樣deep RL***研究的關(guān)鍵意義在于,要快速學(xué)習(xí),就必然依賴于慢速學(xué)習(xí),這種慢速學(xué)習(xí)建立了快速學(xué)習(xí)的表征和歸納偏置。這樣的計算辯證法為研究大腦中多個記憶系統(tǒng)及其進(jìn)化起源提供了理論框架。然而,除了本文中討論的那些,人類學(xué)習(xí)可能涉及多個交互過程,因此我們認(rèn)為任何deep RL模型都需要整合所有這些才能更接近真實的人類學(xué)習(xí)。在更廣泛的層面上,理解RL中快速和慢速之間的關(guān)系為心理學(xué)和神經(jīng)科學(xué)提供了令人信服的依據(jù)。實際上,這可能是人工智能、神經(jīng)科學(xué)和心理學(xué)協(xié)同作用的關(guān)鍵領(lǐng)域,一直以來都是認(rèn)知科學(xué)所追求的。
一些值得討論的問題
可以通過AI方法將高效采樣的deep RL擴(kuò)展到人類實際生活的各種場景中嗎?這些方法能否產(chǎn)生對各種人類智慧的抽象本質(zhì)?為此可能需要什么樣的訓(xùn)練環(huán)境?
靈活且高效采樣的人類學(xué)習(xí)的機(jī)制是否與人工智能中目前正在探索的機(jī)制相關(guān)?如果是這樣,它們的神經(jīng)實現(xiàn)是什么?當(dāng)前的人工智能技術(shù)中的重點 - 梯度下降學(xué)習(xí),是否會在大腦中發(fā)生,或者在某些其他機(jī)制起相同的作用?
在人類學(xué)習(xí)者所處的環(huán)境中最重要的學(xué)習(xí)歸納偏置是什么?這些偏置在多大程度上是通過進(jìn)化遺傳或成長過程獲得的,在多大程度上是通過學(xué)習(xí)獲得的?
讓人類學(xué)習(xí)者如此高效的一個原因是人類是積極主動、有策略的信息搜集者。那么構(gòu)建和激勵人類探索的原則是什么?我們?nèi)绾卧贏I系統(tǒng)中復(fù)制這些原則?
相關(guān)報道:
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】