自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大腦也在用分布式強(qiáng)化學(xué)習(xí)?DeepMind新研究登上《Nature》

新聞 人工智能 分布式
分布式強(qiáng)化學(xué)習(xí)是智能體在圍棋、星際爭霸等游戲中用到的技術(shù),但 DeepMind 的一項(xiàng)研究表明,這種學(xué)習(xí)方式也為大腦中的獎(jiǎng)勵(lì)機(jī)制提供了一種新的解釋,即大腦也應(yīng)用了這種算法。

 分布式強(qiáng)化學(xué)習(xí)是智能體在圍棋、星際爭霸等游戲中用到的技術(shù),但 DeepMind 的一項(xiàng)研究表明,這種學(xué)習(xí)方式也為大腦中的獎(jiǎng)勵(lì)機(jī)制提供了一種新的解釋,即大腦也應(yīng)用了這種算法。這一發(fā)現(xiàn)驗(yàn)證了分布式強(qiáng)化學(xué)習(xí)的潛力,同時(shí)也使得 DeepMind 的研究人員越發(fā)堅(jiān)信,「現(xiàn)在的 AI 研究正走在正確的道路上」。

多巴胺是人們所熟悉的大腦快樂信號。如果事情的進(jìn)展好于預(yù)期,大腦釋放的多巴胺也會增多。

在人腦中存在獎(jiǎng)勵(lì)路徑,這些路徑控制我們對愉悅事件的反應(yīng),并通過釋放多巴胺的神經(jīng)元進(jìn)行介導(dǎo)。例如,在著名的巴布洛夫的狗實(shí)驗(yàn)中,當(dāng)狗聽到鈴聲便開始分泌口水時(shí),這一反應(yīng)并非已經(jīng)獲得了獎(jiǎng)勵(lì),而是大腦中的多巴胺細(xì)胞對即將到來的獎(jiǎng)勵(lì)產(chǎn)生的一種預(yù)測。

之前的研究認(rèn)為,這些多巴胺神經(jīng)元對獎(jiǎng)勵(lì)的預(yù)測應(yīng)當(dāng)是相同的。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

但近日,DeepMind 的研究人員通過使用分布式強(qiáng)化學(xué)習(xí)算法發(fā)現(xiàn),每個(gè)多巴胺神經(jīng)元對獎(jiǎng)勵(lì)的預(yù)測很不相同,它們會被調(diào)節(jié)到不同水平的「悲觀」和「樂觀」?fàn)顟B(tài)。研究者希望通過這套算法研究并解釋多巴胺細(xì)胞對大腦的行為、情緒等方面的影響。這份研究成果昨日登上了《Nature》。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

Nature 論文鏈接:https://www.nature.com/articles/s41586-019-1924-6

強(qiáng)化學(xué)習(xí)算法和多巴胺獎(jiǎng)懲機(jī)制研究

強(qiáng)化學(xué)習(xí)算是神經(jīng)科學(xué)與 AI 相連接的最早也是最有影響力的研究之一。上世紀(jì) 80 年代末期,計(jì)算機(jī)科學(xué)研究者試圖開發(fā)一種算法,這種算法僅依靠獎(jiǎng)懲反饋?zhàn)鳛橛?xùn)練信號,就可以單獨(dú)學(xué)會如何執(zhí)行復(fù)雜的行為。這些獎(jiǎng)勵(lì)會加強(qiáng)使其受益的任何行為。

解決獎(jiǎng)勵(lì)預(yù)測問題的重要突破是時(shí)序差分算法(TD),TD 不會去計(jì)算未來的總體回報(bào),它嘗試預(yù)測當(dāng)前獎(jiǎng)勵(lì)和未來時(shí)刻預(yù)期獎(jiǎng)勵(lì)之和。當(dāng)下一個(gè)時(shí)刻來臨時(shí),將新的預(yù)測結(jié)果與預(yù)期中的相比,如果有出入,算法會計(jì)算二者之間的差異,并用此「時(shí)序差分」將舊版本的預(yù)測調(diào)整為新的預(yù)測。

不斷訓(xùn)練之后,「預(yù)期」和「現(xiàn)實(shí)」會逐漸變得更加匹配,整個(gè)預(yù)測鏈條也會變得越來越準(zhǔn)確。

與此同時(shí),很多神經(jīng)科學(xué)研究者們,專注于多巴胺神經(jīng)元的行為研究。當(dāng)面對即將到來的獎(jiǎng)勵(lì)時(shí),多巴胺神經(jīng)元會將「預(yù)測」和「推斷」的值發(fā)送給許多大腦區(qū)域。

這些神經(jīng)元的「發(fā)送」行為與獎(jiǎng)勵(lì)的大小有一定關(guān)系,但這些反應(yīng)常常依靠的是外部感性信息輸入,并且在給定任務(wù)中的表現(xiàn)也會隨著生物體經(jīng)驗(yàn)的豐富而改變。例如,對于特定的刺激產(chǎn)生的獎(jiǎng)勵(lì)預(yù)測變少了,因?yàn)榇竽X已經(jīng)習(xí)慣了。

一些研究者注意到,某些多巴胺神經(jīng)元的反應(yīng)揭示了獎(jiǎng)勵(lì)預(yù)測的漏洞:相比于被訓(xùn)練應(yīng)該生成的那種「預(yù)期」,它們實(shí)際發(fā)送的預(yù)期總是或多或少,和訓(xùn)練的預(yù)期不太一樣。

于是這些研究者建議大腦使用 TD 算法去計(jì)算獎(jiǎng)勵(lì)預(yù)測的誤差,通過多巴胺信號發(fā)送給大腦各個(gè)部位,以此來驅(qū)動(dòng)學(xué)習(xí)行為。從那時(shí)起,多巴胺的獎(jiǎng)勵(lì)預(yù)測理論逐漸在數(shù)以萬計(jì)的實(shí)驗(yàn)中得到證實(shí),并已經(jīng)成為神經(jīng)科學(xué)領(lǐng)域最成功的定量理論之一。

自 TD 被應(yīng)用于多巴胺獎(jiǎng)懲機(jī)制研究以來,計(jì)算機(jī)科學(xué)家在不斷優(yōu)化從獎(jiǎng)懲機(jī)制中學(xué)習(xí)的算法。自從 2013 年以來,深度強(qiáng)化學(xué)習(xí)開始受到關(guān)注:在強(qiáng)化學(xué)習(xí)中使用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)更強(qiáng)的表示,使強(qiáng)化學(xué)習(xí)算法解決了精巧性和實(shí)用度等問題。

分布式強(qiáng)化學(xué)習(xí)是一種能讓神經(jīng)網(wǎng)絡(luò)更好地進(jìn)行強(qiáng)化學(xué)習(xí)的算法之一。在許多的情況下,尤其是很多現(xiàn)實(shí)情況中,未來獎(jiǎng)勵(lì)的結(jié)果實(shí)際上是依據(jù)某個(gè)特定的行為而不是一個(gè)完全已知的量進(jìn)行的預(yù)測,它具有一定的隨機(jī)性。

圖 1 是一個(gè)示例,一個(gè)由計(jì)算機(jī)控制的小人正在越過障礙物,無法得知它是會掉落還是跨越到另一端。所以在這里,預(yù)測獎(jiǎng)勵(lì)就有兩種,一種代表墜落的可能性,一種代表成功抵達(dá)另一邊的可能性。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 1:當(dāng)未來不確定時(shí),可以用概率分布的方式去描述未來獎(jiǎng)勵(lì)。未來的某一部分可能會是「好的(綠色)」,其他則代表「不好(紅色)」。借助各種 TD 算法,分布式強(qiáng)化學(xué)習(xí)可以學(xué)習(xí)關(guān)于這個(gè)獎(jiǎng)勵(lì)預(yù)期的分布情況。

在這種情況下,標(biāo)準(zhǔn) TD 算法學(xué)習(xí)預(yù)測將來的平均獎(jiǎng)勵(lì),而不能獲得潛在回報(bào)的雙峰分布(two-peaked distribution)。但是分布式強(qiáng)化學(xué)習(xí)算法則能夠?qū)W習(xí)預(yù)測將來的全部獎(jiǎng)勵(lì)。上圖 1 描述了由分布式智能體學(xué)習(xí)到的獎(jiǎng)勵(lì)預(yù)測。

因此,分布式強(qiáng)化學(xué)習(xí)算法在多巴胺研究中的應(yīng)用就進(jìn)入了研究者們的視野。

分布式 TD:性能更好的強(qiáng)化學(xué)習(xí)算法

新的研究采用了一種分布式強(qiáng)化學(xué)習(xí)算法,與標(biāo)準(zhǔn) TD 非常類似,被稱為分布式 TD。標(biāo)準(zhǔn) TD 學(xué)習(xí)單個(gè)預(yù)測(平均期望預(yù)測),而分布式 TD 學(xué)習(xí)一系列不同的預(yù)測。而分布式 TD 學(xué)習(xí)預(yù)測的方法與標(biāo)準(zhǔn) TD 相同,即計(jì)算能夠描述連續(xù)預(yù)測之間差異的獎(jiǎng)勵(lì)預(yù)測誤差,但是每個(gè)預(yù)測器對于每個(gè)獎(jiǎng)勵(lì)預(yù)測誤差都采用不同的轉(zhuǎn)換。

例如,當(dāng)獎(jiǎng)勵(lì)預(yù)測誤差為正時(shí)(如下圖 2A 所示),一些預(yù)測器會有選擇性地「擴(kuò)增」或「增持」獎(jiǎng)勵(lì)預(yù)測誤差。這使得預(yù)測器學(xué)習(xí)更樂觀的獎(jiǎng)勵(lì)預(yù)測,從而對應(yīng)獎(jiǎng)勵(lì)分布中的更高部分。但同時(shí),另一些預(yù)測器擴(kuò)增它們的負(fù)獎(jiǎng)勵(lì)預(yù)測誤差(如下圖 2A 所示),所以學(xué)習(xí)更悲觀的獎(jiǎng)勵(lì)預(yù)測。因此具有不同悲觀和樂觀權(quán)重的一系列預(yù)測器構(gòu)成了下圖 2B 和 2C 的完整獎(jiǎng)勵(lì)分布圖。

圖 2:分布式 TD 學(xué)習(xí)對獎(jiǎng)勵(lì)分布不同部分的價(jià)值估計(jì)。

除了簡潔性之外,分布式強(qiáng)化學(xué)習(xí)還有另一項(xiàng)優(yōu)勢,當(dāng)它與深度神經(jīng)網(wǎng)絡(luò)結(jié)合時(shí)會非常強(qiáng)大。過去五年,基于原始深度強(qiáng)化學(xué)習(xí) DQN 智能體的算法有了很多進(jìn)展,并且這些算法經(jīng)常在 Atari 2600 游戲中的 Atari-57 基準(zhǔn)測試集上進(jìn)行評估,證明了分布式強(qiáng)化學(xué)習(xí)算法的性能優(yōu)勢。

多巴胺研究中的分布式 TD

由于分布式 TD 在人工神經(jīng)網(wǎng)絡(luò)中具有很好的性能,因此本研究考慮采用分布式 TD,嘗試研究大腦的獎(jiǎng)懲機(jī)制。

在研究中,研究者聯(lián)合哈佛大學(xué),對老鼠多巴胺細(xì)胞的記錄進(jìn)行分析。在任務(wù)中,這些老鼠獲得數(shù)量未知的獎(jiǎng)勵(lì)(如下圖 4 所示)。研究者的目的是評估多巴胺神經(jīng)元的活動(dòng)是否與標(biāo)準(zhǔn) TD 或分布式 TD 更為一致。

以往的研究表明,多巴胺細(xì)胞改變它們的發(fā)放率(firing rate)來表明存在的預(yù)測誤差,即一個(gè)動(dòng)物是否接收了比預(yù)期更多或更少的獎(jiǎng)勵(lì)。我們知道,當(dāng)獎(jiǎng)勵(lì)被接收時(shí),預(yù)測誤差應(yīng)為零,也就是獎(jiǎng)勵(lì)大小應(yīng)與多巴胺細(xì)胞預(yù)測的一樣,因此對應(yīng)的發(fā)放率也不應(yīng)當(dāng)改變。

對于每個(gè)多巴胺細(xì)胞,如果研究者確定了其基準(zhǔn)發(fā)放率沒有改變,則其獎(jiǎng)勵(lì)大小也可以被確定。這個(gè)關(guān)系被稱之為細(xì)胞的「逆轉(zhuǎn)點(diǎn)」。研究者想要弄清楚不同細(xì)胞之間的逆轉(zhuǎn)點(diǎn)是否也存在差異。

如下圖 4C 所示,細(xì)胞之間存在著明顯差異,一些細(xì)胞會預(yù)測非常大的獎(jiǎng)勵(lì),而另一些只預(yù)測出非常小的獎(jiǎng)勵(lì)。相較于從記錄中固有隨機(jī)變化率所能預(yù)期的差異,細(xì)胞之間的實(shí)際差異要大得多。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 4:在這項(xiàng)任務(wù)中,老鼠獲得的水獎(jiǎng)勵(lì)(water reward)通過隨機(jī)方法確定,并可以調(diào)整,范圍是 0.1-20 UL。

在分布式 TD 中,獎(jiǎng)勵(lì)預(yù)測中的這些差異是由正或負(fù)獎(jiǎng)勵(lì)預(yù)測誤差的選擇性擴(kuò)增引起的。擴(kuò)增正獎(jiǎng)勵(lì)預(yù)測可以獲得更樂觀的獎(jiǎng)勵(lì)預(yù)測,而擴(kuò)增負(fù)獎(jiǎng)勵(lì)可以獲得更悲觀的預(yù)測。所以,研究者接下來測量了不同多巴胺細(xì)胞對正或負(fù)期望的擴(kuò)增程度,并發(fā)現(xiàn)了細(xì)胞之間存在著噪聲也不能解釋的可靠多樣性。并且關(guān)鍵的一點(diǎn)是,他們發(fā)現(xiàn)擴(kuò)增正獎(jiǎng)勵(lì)預(yù)測誤差的同一些細(xì)胞也表現(xiàn)出了更高的逆轉(zhuǎn)點(diǎn)(上圖 4C 右下圖),也就是說,這些細(xì)胞期望獲得更高的獎(jiǎng)勵(lì)。

最后,分布式 TD 理論預(yù)測,有著不同的逆轉(zhuǎn)點(diǎn)(reversal point)的細(xì)胞應(yīng)該共同編碼學(xué)到的獎(jiǎng)勵(lì)分配。因此研究人員希望能夠探究:是否可以從多巴胺細(xì)胞的發(fā)放率解碼出獎(jiǎng)勵(lì)分配到不同細(xì)胞的分布。

如圖 5 所示,研究人員發(fā)現(xiàn),只使用多巴胺細(xì)胞的放電速率,確實(shí)有可能重建獎(jiǎng)勵(lì)的分布(藍(lán)色線條),這與老鼠執(zhí)行任務(wù)時(shí)獎(jiǎng)勵(lì)的實(shí)際分布(灰色區(qū)域)非常接近。

大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

圖 5:多巴胺細(xì)胞群編碼了學(xué)到的獎(jiǎng)勵(lì)分布的形狀。

總結(jié)

研究人員發(fā)現(xiàn),大腦中的多巴胺神經(jīng)元被調(diào)節(jié)到不同水平的「悲觀」和「樂觀」。如果它們是一個(gè)合唱團(tuán),那么所有的神經(jīng)元不會唱同一個(gè)音域,而是彼此配合——每個(gè)神經(jīng)元都有自己的音域,如男高音或女低音。在人工強(qiáng)化學(xué)習(xí)系統(tǒng)中,這種多樣化的調(diào)整創(chuàng)造了更加豐富的訓(xùn)練信號,極大地加快了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。研究人員推測,大腦可能出于同樣的原因使用這套機(jī)制。

大腦中分布式強(qiáng)化學(xué)習(xí)的存在可以為 AI 和神經(jīng)科學(xué)的發(fā)展提供非常有趣的啟示。首先,這一發(fā)現(xiàn)驗(yàn)證了分布式強(qiáng)化學(xué)習(xí)的潛力——大腦已經(jīng)用到了這套算法。

其次,它為神經(jīng)科學(xué)提出了新的問題。如果大腦選擇性地「傾聽」樂觀/悲觀多巴胺神經(jīng)元會怎么樣呢?會導(dǎo)致沖動(dòng)或抑郁嗎?大腦有強(qiáng)大的表征能力,這些表征是如何由分布式學(xué)習(xí)訓(xùn)練出的呢?例如,一旦某個(gè)動(dòng)物學(xué)會了分配獎(jiǎng)勵(lì)的機(jī)制,在它的下游任務(wù)會如何使用這種表征?多巴胺細(xì)胞之間的樂觀情緒可變性與大腦中其他已知的可變形式存在什么關(guān)聯(lián)?這些問題都需要后續(xù)研究進(jìn)一步解釋。

最后,DeepMind 的研究人員希望通過這些問題的提出和解答來促進(jìn)神經(jīng)科學(xué)的發(fā)展,進(jìn)而為人工智能研究帶來益處,形成一個(gè)良性循環(huán)。 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-10-15 19:22:09

Menger機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2020-06-05 14:49:51

強(qiáng)化學(xué)習(xí)算法框架

2022-10-08 09:53:17

AI算法

2021-11-29 10:09:50

AI 強(qiáng)化學(xué)習(xí)人工智能

2025-04-25 09:08:00

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2021-10-08 15:21:52

AI 數(shù)據(jù)人工智能

2025-03-03 09:12:00

2022-04-21 14:54:12

電力技術(shù)Nature

2019-11-22 08:41:06

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-07-12 14:56:30

AI模型研究

2025-04-07 03:00:00

Dreamer世界模型

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-06-17 13:34:54

2017-03-20 15:23:46

人工智能連續(xù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-03-23 18:42:45

AI強(qiáng)化學(xué)習(xí)

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號