自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌大腦新研究:強(qiáng)化學(xué)習(xí)如何學(xué)會(huì)用聲音來(lái)觀察?

新聞 人工智能
近日,來(lái)自谷歌大腦的一篇題為 “The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning” 的論文證明了 強(qiáng)化學(xué)習(xí)擁有這種“感官替代”的能力。

 

人類已經(jīng)證明,大腦中的神經(jīng)系統(tǒng)擁有為不斷適應(yīng)外界環(huán)境的變化而改變自身結(jié)構(gòu)的能力。大腦內(nèi)部的突觸、神經(jīng)元之間的連接可以由于學(xué)習(xí)和經(jīng)驗(yàn)的影響建立新的連接。

相應(yīng)的,感官替代(sensory substitution)這一天賦也存在人類技能樹(shù)之中,例如有些天生失明的人能夠通過(guò)將圖像轉(zhuǎn)換成聲音學(xué)會(huì)感知人體輪廓形狀的能力。

如果讓AI擁有這種能力,它也能像蝙蝠和海豚一樣,能夠利用其耳朵通過(guò)聲音和回聲來(lái)‘看’周圍的世界一樣。

近日,來(lái)自谷歌大腦的一篇題為 “The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning” 的論文證明了 強(qiáng)化學(xué)習(xí)擁有這種“感官替代”的能力。

論文地址:https://arxiv.org/pdf/2109.02869.pdf

具體而言, 作者在論文中設(shè)計(jì)了一系列強(qiáng)化學(xué)習(xí)系統(tǒng),其能夠?qū)?lái)自環(huán)境的每種感覺(jué)輸入(sensory inputs)到不相同,卻具有一定聯(lián)系的神經(jīng)網(wǎng)絡(luò)中,值得一提的是,這些神經(jīng)網(wǎng)絡(luò)之間沒(méi)有固定的關(guān)系。 研究表明,這些感覺(jué)網(wǎng)絡(luò)可以通過(guò)訓(xùn)練來(lái)整合本地收到的信息,并且通過(guò)注意機(jī)制的交流,可以集體達(dá)成一個(gè)全局一致的方案。

此外,即使在一個(gè)事件中,輸入順序被隨機(jī)地排列多次,該系統(tǒng)仍然可以執(zhí)行其任務(wù)。

1. 證明過(guò)程

現(xiàn)代深度學(xué)習(xí)系統(tǒng)通常無(wú)法適應(yīng)感覺(jué)輸入的隨機(jī)重新排序,除非對(duì)模型進(jìn)行重新訓(xùn)練或者用戶為模型糾正輸入的順序。然而,meta-learning這項(xiàng)技術(shù),可以幫助模型適應(yīng)這種變化。例如adaptive weights、Hebbian-learning和model-based等方法。

在論文中,作者研究的agents都有一個(gè)共同的特點(diǎn): 在執(zhí)行任務(wù)時(shí)被用來(lái)處理感覺(jué)輸入,并將輸入突然隨機(jī)重新進(jìn)行排序。 受到與細(xì)胞自動(dòng)機(jī)相關(guān)的自組織神經(jīng)網(wǎng)絡(luò)的最新發(fā)展的啟發(fā),作者在實(shí)驗(yàn)中將每個(gè)感覺(jué)輸入(可以是連續(xù)控制環(huán)境中的單個(gè)狀態(tài),或者是視覺(jué)環(huán)境中的一塊像素)輸入一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)模塊,該模塊在一段時(shí)間內(nèi)只整合來(lái)自這個(gè)特定感覺(jué)輸入通道的信息。

在本地接收信息的同時(shí),這些單獨(dú)的感覺(jué)神經(jīng)網(wǎng)絡(luò)模塊也不斷地廣播輸出信息。參考Set Transformer架構(gòu),一個(gè)注意力機(jī)制將這些信息結(jié)合起來(lái),形成一個(gè)全局的潛代碼(global latent code),然后將其轉(zhuǎn)換為agent的行動(dòng)空間。注意力機(jī)制可以被看作是神經(jīng)網(wǎng)絡(luò)適應(yīng)性加權(quán)的一種形式,在這種情況下,允許任意數(shù)量的感覺(jué)輸入以任何隨機(jī)順序被處理。

實(shí)驗(yàn)中,作者發(fā)現(xiàn)每個(gè)單獨(dú)的感覺(jué)神經(jīng)網(wǎng)絡(luò)模塊,雖然只能接收到局部信息,但仍能共同產(chǎn)生一個(gè)全局一致的策略,而且這樣的系統(tǒng)可以被訓(xùn)練來(lái)執(zhí)行幾個(gè)流行的強(qiáng)化學(xué)習(xí)(RL)環(huán)境中的任務(wù)。此外,作者設(shè)計(jì)的系統(tǒng)能夠以任何隨機(jī)排列的順序利用不同數(shù)量的感覺(jué)輸入通道,即使在一個(gè)episode中順序再次被重新排列。

如上圖pong agent,即使在給它一個(gè)小的屏幕子集(30%),以一個(gè)重新排列的順序,也能繼續(xù)工作。

另一方面,鼓勵(lì)系統(tǒng)學(xué)習(xí)的置換不變的觀測(cè)空間的連貫性表示,會(huì)使 policies更加穩(wěn)健,泛化性更強(qiáng)。研究表明,在沒(méi)有額外訓(xùn)練的情況下,即使加入含有噪聲或冗余信息的其它輸入通道,系統(tǒng)也能繼續(xù)運(yùn)作。在視覺(jué)環(huán)境中,即使只給它一小部分從屏幕上隨機(jī)選擇的區(qū)塊,而在測(cè)試時(shí),如果給它更多的區(qū)塊,系統(tǒng)可以利用額外的信息來(lái)表現(xiàn)得更好。

作者還證明, 盡管在單一的固定背景上進(jìn)行訓(xùn)練,系統(tǒng)還是能夠推廣到具有不同背景圖像的視覺(jué)環(huán)境。 最后,為了使訓(xùn)練更加實(shí)用,作者提出了一個(gè)行為克?。╞ehavioral cloning)方案,將用現(xiàn)有方法訓(xùn)練的策略轉(zhuǎn)換成具有理想特性的置換不變的策略。

圖注:方法概述

上圖的AttentionNeuron 是一個(gè)獨(dú)立的層,其中每個(gè)感覺(jué)神經(jīng)元只能訪問(wèn)“無(wú)序觀察(unordered observations)”的一部分。結(jié)合agent的前一步動(dòng)作,每個(gè)神經(jīng)元使用共享函數(shù),然后獨(dú)立生成信息。

圖注:符號(hào)列表

在上述表格中,作者還提供了我們的模型中用于不同強(qiáng)化學(xué)習(xí)環(huán)境的維度,以使讀者了解系統(tǒng)中每一部分。

圖注:CartPoleSwingUpHarder中的置換不變agent

在上述演示中,用戶可以隨時(shí)重新排列5個(gè)輸入的順序,并觀察agent如何適應(yīng)輸入的新順序。

演示地址:https://attentionneuron.github.io/

圖注:車桿測(cè)試

作者報(bào)告了每個(gè)實(shí)驗(yàn)的1000個(gè)測(cè)試事件的平均得分和標(biāo)準(zhǔn)偏差。agent只在有5個(gè)感覺(jué)輸入的環(huán)境中進(jìn)行訓(xùn)練。

圖注:置換不變的輸出

當(dāng)作者按原樣輸入傳感器陣列(頂部)或隨機(jī)重新排列陣列(底部)時(shí),Attention Neuron層的輸出(16維全局潛代碼)不會(huì)改變。黃色代表較高的數(shù)值,而藍(lán)色代表較低的數(shù)值。

圖注:處理未指定數(shù)量的額外噪聲通道

在沒(méi)有額外訓(xùn)練的情況下,agent接收15個(gè)按重新排列后順序排列的輸入信號(hào),其中10個(gè)是純高斯噪聲(σ=0.1),另外5個(gè)是來(lái)自環(huán)境的實(shí)際觀察結(jié)果。像先前的演示一樣,用戶可以對(duì)15個(gè)輸入的順序進(jìn)行重新排列,并觀察agent如何適應(yīng)新的輸入順序。

圖注:注意力神經(jīng)元層的輸出在測(cè)試情節(jié)中的二維嵌入

作者在圖中突出了幾個(gè)有代表性的組,并展示了它們的抽樣輸入。每個(gè)組我們顯示3個(gè)相應(yīng)的輸入(行),并對(duì)每個(gè)輸入進(jìn)行解堆以顯示時(shí)間維度(列)。

CarRacing的基本任務(wù)(左),修改后的洗屏任務(wù)(右)。

作者的agent只在這個(gè)環(huán)境中訓(xùn)練。如上圖所示,右邊的屏幕是agent觀察到的,左邊的是人類的視覺(jué)觀察到的。人類會(huì)發(fā)現(xiàn)用重新排列觀察的方式駕駛是非常困難的,因?yàn)槿祟悰](méi)有經(jīng)常接觸到這樣的任務(wù),就像前面提到的 "倒騎自行車 "的例子。

2. 討論以及未來(lái)

在這項(xiàng)工作中,作者研究了深度學(xué)習(xí)agents的特性,這些agents可以把它們的觀察作為一個(gè)任意排序的、可變長(zhǎng)度的感覺(jué)輸入列表。通過(guò)獨(dú)立地處理每個(gè)輸入流,并使用注意力整合處理后的信息。即使觀測(cè)的順序在一個(gè)episode中被隨機(jī)地改變了多次,而且沒(méi)有進(jìn)行訓(xùn)練,agents仍然可以執(zhí)行任務(wù)。我們?cè)谙卤碇袌?bào)告了每個(gè)環(huán)境的性能對(duì)比結(jié)果。

在展開(kāi)的工作中重新梳理觀測(cè)結(jié)果

在每個(gè)episode中,作者每隔t step重新打亂順序觀察。CartPole任務(wù)差異較大,因此對(duì)它測(cè)試了1000次。其他任務(wù),報(bào)告了100次測(cè)試的平均值和標(biāo)準(zhǔn)偏差。除了Atari Pong,所有環(huán)境都有每集1000 step的硬性限制。在Atari Pong中,雖然不存在一集的最大長(zhǎng)度,但觀察到,每個(gè)episode通常持續(xù)2500 step左右。

通過(guò)打亂agent排序,甚至是不完整的觀測(cè)信息,可以驅(qū)動(dòng)它解釋每個(gè)局部感覺(jué)輸入的意義以及它們與全局的關(guān)系,這在目前的許多應(yīng)用中都有實(shí)際用途。例如,當(dāng)被應(yīng)用于機(jī)器人時(shí),可以避免由于交叉布線或復(fù)雜的動(dòng)態(tài)輸入-輸出映射而產(chǎn)生的錯(cuò)誤。類似于CartPole實(shí)驗(yàn)的設(shè)置,加上額外的噪聲通道,可以使一個(gè)收到成千上萬(wàn)的噪聲輸入通道的系統(tǒng)識(shí)別出具有相關(guān)信息的小的通道子集。

局限性在于, 對(duì)于視覺(jué)環(huán)境,patch size的選擇會(huì)影響性能和計(jì)算的復(fù)雜性。作者發(fā)現(xiàn)6x6像素的patch size在任務(wù)中很有效,4x4像素的patch size在某種程度上也可發(fā)揮效用,但單個(gè)像素的觀察卻不能發(fā)揮作用。小的patch size也會(huì)產(chǎn)生一個(gè)大的注意力矩陣,除非使用近似值,否則計(jì)算成本可能會(huì)過(guò)高。

另一個(gè)限制是 ,排列組合不變的特性只適用于輸入,而不適用于輸出。雖然觀測(cè)結(jié)果的排序可以以再次打亂,但行動(dòng)的排序卻不能。為了使置換不變的輸出發(fā)揮作用,每個(gè)環(huán)節(jié)都需要來(lái)自環(huán)境的反饋以便學(xué)習(xí)自身和環(huán)境之間的關(guān)系,包括獎(jiǎng)勵(lì)信息。

一個(gè)頗為有趣的未來(lái)研究 方向是使行動(dòng)層也具有相同的屬性,并將每個(gè)運(yùn)動(dòng)神經(jīng)元建模為一個(gè)使用注意力連接的模塊。有了作者的方法, 就有可能訓(xùn)練一個(gè)具有任意數(shù)量的agent,或者用一個(gè)單一的被提供了一個(gè)獎(jiǎng)勵(lì)信號(hào)作為反饋的policy控制具有不同形態(tài)的機(jī)器人 。此外 ,在這項(xiàng)工作中,作者設(shè)計(jì)的方法接受以前的行動(dòng)作為反饋信號(hào)。然而,反饋信號(hào)并不局限于行動(dòng)。作者表示,其期待看到未來(lái)的工作包括環(huán)境獎(jiǎng)勵(lì)等信號(hào),不僅能適應(yīng)觀察到的環(huán)境變化,還能適應(yīng)自身的變化,以訓(xùn)練置換不變的 meta-learning agents。

責(zé)任編輯:張燕妮 來(lái)源: 人工智能學(xué)家
相關(guān)推薦

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2023-09-21 10:29:01

AI模型

2021-08-18 10:20:41

人工智能強(qiáng)化學(xué)習(xí)技術(shù)

2021-11-29 10:09:50

AI 強(qiáng)化學(xué)習(xí)人工智能

2021-01-11 10:23:22

谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

2021-04-29 14:53:14

谷歌強(qiáng)化學(xué)習(xí)開(kāi)發(fā)

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2022-12-01 08:00:00

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2025-03-06 08:19:01

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2021-07-27 15:55:01

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-10-28 13:51:45

機(jī)器學(xué)習(xí)化學(xué)研發(fā)AI

2023-10-04 09:17:03

機(jī)器人AI

2020-11-06 17:04:17

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2018-12-14 09:25:28

量化評(píng)估算法拓展強(qiáng)化學(xué)習(xí)

2025-02-10 13:50:00

算法模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)