自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

新聞 深度學(xué)習(xí)
神經(jīng)網(wǎng)絡(luò)的眼睛如果只能看到混亂的世界,那它會習(xí)慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入圖像隨機打亂,發(fā)現(xiàn)強化學(xué)習(xí)得到的agent仍然能夠正確決策!

[[439504]]

人的適應(yīng)能力是很可怕的!盲人盡管無法用眼睛看到世界,但通過練習(xí),盲杖就是他的眼睛。那神經(jīng)網(wǎng)絡(luò)的眼睛如果只能看到混亂的世界,那它會習(xí)慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入圖像隨機打亂,發(fā)現(xiàn)強化學(xué)習(xí)得到的agent仍然能夠正確決策!

人類的感官能力實際上是非常驚人的。

著名的神經(jīng)科學(xué)家Paul Bach-y-Rita曾對使用盲杖的盲人進行了細(xì)致的觀察和研究。

他發(fā)現(xiàn),盲人在行走時會前后掃動盲杖,盲杖的尖端經(jīng)由皮膚上的觸覺感受體來告訴盲人路況信息。

Bach-y-Rita從而備受啟發(fā)。

他認(rèn)為盲杖可以看作是盲人和物體之間的「接口」,通過盲杖在手上的壓力觸感,能夠反饋給盲人形成諸如房間擺設(shè)這樣的空間信息。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

因此,手上的皮膚及其觸覺感受體,就像一個信息收集站,可以替代視網(wǎng)膜在大腦中形成圖像。

你無需用眼睛看,也無需用耳朵聽,真正的看和聽都在大腦里!

這種適應(yīng)性也被稱為感官替代(sensory substitution),也是神經(jīng)科學(xué)中非常著名的一個現(xiàn)象。

但一些困難的適應(yīng)性也需要幾周、幾個月甚至幾年的練習(xí)才能做到,例如調(diào)整習(xí)慣看東西的角度,學(xué)習(xí)騎反向(backwards)的自行車等等。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

相比之下,大多數(shù)神經(jīng)網(wǎng)絡(luò)根本無法產(chǎn)生感官替代的現(xiàn)象。

例如,大多數(shù)強化學(xué)習(xí)(RL)模型要求模型的輸入必須采用預(yù)先指定好的格式。這些格式限制了輸入向量的長度是固定的,并已經(jīng)事先確定好輸入的每個元素的精確含義,例如指定位置的像素強度,狀態(tài)信息,位置或速度等。

在一些流行的RL基準(zhǔn)任務(wù)(如Ant或Cart-Pole)中,如果模型的輸入發(fā)生變化,或者如果向模型提供了與手頭任務(wù)無關(guān)的額外噪聲輸入,那么使用當(dāng)前RL算法訓(xùn)練的agent 將無法繼續(xù)使用。

針對這個問題,Google在NeurIPS 2021上發(fā)表了一篇焦點論文,探索了具有排列不變性(permutation invariant)的神經(jīng)網(wǎng)絡(luò)模型。

這種神經(jīng)網(wǎng)絡(luò)要求每個感覺神經(jīng)元(接收來自環(huán)境的感官輸入的神經(jīng)元)必須能夠根據(jù)輸入信號的上下文來找到信號的真正含義,而非明確地指定一個固定的含義。實驗結(jié)果表明,這些沒有預(yù)先指定的agent有能力對含有額外冗余或噪聲信息以及損壞的、不完整的觀察輸入進行處理。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

https://arxiv.org/abs/2109.02869

Permutation Invariant指的是特征之間沒有空間位置關(guān)系,即使輸入的順序發(fā)生變化也不會影響輸出結(jié)果。如在多層感知機中,改變像素的位置對最后的結(jié)果沒有影響,但對卷積網(wǎng)絡(luò)而言,特征之間則有空間位置關(guān)系。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

除了適應(yīng)狀態(tài)觀測環(huán)境中的感官替代,研究還表明,這些agent還可以適應(yīng)復(fù)雜視覺觀測環(huán)境中的感官替代。

例如在CarRacing游戲,當(dāng)輸入圖像的流不斷地被reshuffle時,盡管人眼已經(jīng)看不出來畫面,但AI仍然可以做出正確的行動。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

論文的作者Yujin Tang于2007年獲得上海交通大學(xué)計算機專業(yè)學(xué)士學(xué)位,后于2010年獲得早稻田大學(xué)碩士學(xué)位,主要專注于強化學(xué)習(xí)和機器人學(xué)的研究,并熱衷于將相關(guān)技術(shù)應(yīng)用于現(xiàn)實世界的問題。

[[439509]]

文中提出的研究方法在每個時間步中從環(huán)境中進行觀察,并將觀察的每個元素饋送成明確(distinct)但相同的(identiccal)神經(jīng)網(wǎng)絡(luò),也稱為感覺神經(jīng)元(sensory neurons),網(wǎng)絡(luò)之間彼此沒有固定的關(guān)系。

每個感覺神經(jīng)元僅通過其特定的感覺輸入通道與時間信息進行集成。因為每個感覺神經(jīng)元只能接收整個圖片的一小部分,所以他們需要通過互相通信來自組織(self-organize)信息結(jié)構(gòu)以便進行全局且連貫(coherent)的決策行為。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

在實驗中,研究人員也通過訓(xùn)練的方式促使神經(jīng)元使用廣播消息(broadcast messages)來互相溝通。

在接收局部信息時,每個感覺神經(jīng)元在每個時間步驟中也需要連續(xù)廣播輸出消息。使用類似于在Transformer 架構(gòu)中用到的注意力機制,就能夠?qū)⑦@些消息整合并組合到輸出矢量中,并稱之為全局潛碼。

然后,策略網(wǎng)絡(luò)使用全局潛碼來生成agent 的下一步與環(huán)境交互的行動(action)。行動結(jié)束后,通信循環(huán)將關(guān)閉。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

你可能還有一個問題,為什么這個系統(tǒng)的輸入排列變化對模型輸出沒有影響?

因為每個感覺神經(jīng)元都是同一個(identical)神經(jīng)網(wǎng)絡(luò),它們并不局限于處理來自某一特定感覺輸入的信息,實際上每個感覺神經(jīng)元的輸入都沒有定義。

相反,每個神經(jīng)元必須通過關(guān)注其他感覺神經(jīng)元接收到的輸入來找到自己輸入信號的含義。

這個操作也會促進agent將整個輸入作為一個未排序的集合進行處理,從而使系統(tǒng)對其輸入保持不變。

此外,訓(xùn)練后的agent可以根據(jù)實際需要,使用多個感覺神經(jīng)元來處理任意長度的輸入。

實驗結(jié)果上,研究人員在簡單的狀態(tài)觀測環(huán)境中證明了這種方法的魯棒性和靈活性。

在常見的Ant locomotion任務(wù)中的agent總共需要接收28個輸入,其中包含位置和速度信息等。研究人員多次打亂輸入向量的順序,實驗仍然表明訓(xùn)練后的agent能夠快速適應(yīng)不同排列的輸入,并且仍然能夠在游戲中始終保持向前移動。

在cart-pole實驗中,agent的目標(biāo)是擺動安裝在手推車中心的手推車桿,并使其保持向上平衡。

通常情況下,agent只能看到五個輸入,但研究人員修改了實驗環(huán)境來提供15個混合輸入信號,其中10個是純噪聲,剩下的是環(huán)境的實際觀察結(jié)果。

結(jié)果表明,agent仍然能夠高效地執(zhí)行任務(wù),這也展現(xiàn)了該系統(tǒng)處理大量帶噪聲輸入的能力,并且agent可以只使用它認(rèn)為有用的信息通道。

研究人員還將這種方法應(yīng)用于高維視覺環(huán)境,其中模型輸入是圖像的像素流。實驗主要研究了基于視覺的RL環(huán)境的screen-shuffled版本,其中每個觀察幀被劃分為一個patch網(wǎng)格,看起來就像一個迷宮一樣,agent必須以shuffed order的方式處理patch以確定要下一步要采取的動作。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

實驗中,研究人員給agent一個隨機的屏幕上的patch樣本,然后游戲的其余部分保持不變。

結(jié)果發(fā)現(xiàn)模型仍然可以在這些固定的隨機位置分辨出70%的patch,并且仍然能夠在對陣內(nèi)置的Atari對手時不落下風(fēng)。

有趣的是,如果研究人員隨后向agent 透露額外的信息,即允許它獲取更多的圖像patch,即使沒有額外的訓(xùn)練,它的性能也會提高。

當(dāng)agent接收到所有patch時,即便按隨機順序,它也能100%對陣內(nèi)置AI時獲得勝利。

并且這些操作雖然在訓(xùn)練過程中增加了一些學(xué)習(xí)難度,但也會有帶來額外的好處,例如提高了模型的泛化性,即便更換了新的圖像取代了訓(xùn)練時的環(huán)境背景,agent依然可以正常運行。

模型輸入不靠眼睛看!華人一作:強化學(xué)習(xí)和人類有相同的感知能力

作者認(rèn)為,由于不限制輸入并且能過濾大量噪聲,這種permutation invariant 神經(jīng)網(wǎng)絡(luò)將會極大促進強化學(xué)習(xí)的發(fā)展。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2014-10-24 08:58:21

初志科技云存儲

2024-01-26 08:31:49

2021-11-16 15:26:23

強化學(xué)習(xí)火箭人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-01-30 09:00:28

框架BMRL模型

2022-07-11 11:14:47

強化學(xué)習(xí)AI基于模型

2023-08-28 06:52:29

2023-09-21 10:29:01

AI模型

2023-01-31 19:48:57

物聯(lián)網(wǎng)高并發(fā)

2011-11-02 14:50:22

2024-04-12 08:59:02

強化學(xué)習(xí)系統(tǒng)人工智能擴散模型

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2022-09-04 14:38:00

世界模型建模IRIS

2023-04-06 16:29:18

模型AI

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-12-09 08:45:00

模型AI

2023-11-16 15:58:00

訓(xùn)練數(shù)據(jù)

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2021-11-30 08:00:00

人工智能數(shù)據(jù)技術(shù)

2025-02-12 11:36:27

點贊
收藏

51CTO技術(shù)棧公眾號