自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

新聞 深度學(xué)習(xí)
在現(xiàn)實世界里,人類尤其具有這種將復(fù)雜任務(wù)有效分解為多個子任務(wù)的能力。這種能力幫助人類面對新環(huán)境時加速自身的學(xué)習(xí)過程并獲得更好的泛化能力。

 [[394114]]

假設(shè)你給機器看了一段很長的游戲視頻,在里面有砍樹,打獵,造房子等,你的模型能否從這個非結(jié)構(gòu)化的錄像中自動地發(fā)現(xiàn)這些有意義的技能包?

在現(xiàn)實世界里,人類尤其具有這種將復(fù)雜任務(wù)有效分解為多個子任務(wù)的能力。這種能力幫助人類面對新環(huán)境時加速自身的學(xué)習(xí)過程并獲得更好的泛化能力。

傳統(tǒng)方法主要圍繞概率圖模型。這些工作將子任務(wù)結(jié)構(gòu)建模為潛在變量,并從學(xué)到的后驗中提取子任務(wù)標(biāo)識。在一篇ICLR 2021的論文中,MIT-IBM Lab 淦創(chuàng)團隊與蒙特利爾大學(xué)合作提出了:是否可以設(shè)計更智能的神經(jīng)網(wǎng)絡(luò),使子任務(wù)結(jié)構(gòu)自動在模仿學(xué)習(xí)中出現(xiàn)?具體而言,研究者設(shè)計了一個循環(huán)決策網(wǎng)絡(luò),使得子任務(wù)結(jié)構(gòu)能夠體現(xiàn)在每一步的表征中。

在該研究中,研究者提出有序記憶決策網(wǎng)絡(luò)(OMPN)。模型可以經(jīng)過正常的行為克?。╞ehavior cloning)來發(fā)現(xiàn)子任務(wù)的層級,從非結(jié)構(gòu)化示范中恢復(fù)子任務(wù)邊界。在 Craft 和 Dial 上進行的實驗表明,在沒有任何人類額外標(biāo)注的情況下,子任務(wù)層次結(jié)構(gòu)會自然地從模型中演化出。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)
  • 論文地址:https://openreview.net/pdf?id=vcopnwZ7bC
  • 項目地址:https://github.com/Ordered-Memory-RL/

Memory 如何表達子任務(wù)?

研究者提供了一個網(wǎng)格世界的示例用于說明。示例中有不同的原料(例如草)可供智能體拾取,還包括一家工廠以便智能體使用這些原料。假設(shè)智能體想要完成搭橋任務(wù),該任務(wù)可以分解為樹狀多層結(jié)構(gòu)。其中,根任務(wù)可以分為 “拾取原料” 和“制造橋梁”。“拾取原料”可以進一步分為 “拾取草” 和“拾取木頭”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

為了能夠?qū)崿F(xiàn)上述的結(jié)構(gòu),智能體的記憶在每一步應(yīng)該如何 “更新”?在下圖中,將記憶劃分為不同級別,對應(yīng)不同層級的子任務(wù)。當(dāng)‘t=1’時,模型僅從根任務(wù)“搭建橋梁” 開始,并 “展開” 得到 “拾取原料”,然后進一步“展開” 為“拾取木頭”。這里的 “展開”(藍色箭頭)可以理解成一種“planning operator”,動作從最低層級的記憶中產(chǎn)生。在‘t<3’時,“拾取原料” 會被復(fù)制,但是當(dāng) “拾取木頭” 完成后,即‘t=3’時,該子任務(wù)會被 “更新”。這里的“更新” 可以視為每個子任務(wù)的內(nèi)部更新,而 “更新” 后的 “拾取原料” 通過 “展開” 重新得到下一個子任務(wù) “拾取草”。同理“搭建橋梁” 一直被復(fù)制直到在‘t=5’(“拾取原料”完成)時進行 “更新”,然后“展開” 為“制造橋梁”和“前往工廠”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

這樣的過程中,可以定義 “展開高度”,即每一時刻發(fā)生“展開” 的記憶的位置。研究者同時觀察到,通過觀察 “展開高度” 的變化,可以由此確定子任務(wù)的邊界。例如從‘t=2’到‘t=3’,擴展位置從最低級別到中間級別,表明了低級別子任務(wù)的完成。從‘t=4’到‘t=5’,擴展位置從最低級別到最高級別,表明低級別和中級別子任務(wù)均已完成。所以目標(biāo)就是希望通過合理的網(wǎng)絡(luò)設(shè)計,讓模型可以收斂到上述記憶更新規(guī)則。具體包括:

  • 若模型認(rèn)為當(dāng)前底層子任務(wù)已被完成,則需要輸出高展開位置,并從高層子任務(wù)中展開。
  • 若模型認(rèn)為當(dāng)前底層子任務(wù)未被完成,則需要輸出低展開位置, 并將高層任務(wù)復(fù)制,來實現(xiàn) long-term dependency。

網(wǎng)絡(luò)設(shè)計的數(shù)據(jù)流效果如下所示:

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

從行為克隆中進行任務(wù)分解

主要的實驗結(jié)果就是表明:正確的子任務(wù)結(jié)構(gòu)的確可以通過行為克隆后,在模型中體現(xiàn)出來,而在這個過程中,沒有任何額外的任務(wù)邊界標(biāo)注。在接下來示例中,將智能體的軌跡以及展開位置的變化進行可視化。經(jīng)過學(xué)習(xí)后,模型學(xué)會在每個子任務(wù)快結(jié)束的時刻,將展開高度提高。在每個子任務(wù)的行進過程中,將展開高度保持低位,符合之前說的直覺。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

在 Craft 任務(wù)中,模型需要完成 4 個子任務(wù)來“造床”。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

在 Dial 任務(wù)中,模型需要控制機器手臂連續(xù)按 4 個數(shù)字。

ICLR 2021研究挖掘游戲技能包?有序記憶決策網(wǎng)絡(luò)幫你實現(xiàn)

在 Kitchen 任務(wù)中,模型需要連續(xù)操控四個家電。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2012-01-10 15:17:49

2017-03-20 15:23:46

人工智能連續(xù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2022-08-25 21:41:43

ArkUI鴻蒙

2022-06-13 13:45:56

Linuxmtr命令

2021-03-25 15:32:21

深度學(xué)習(xí)編程人工智能

2021-12-22 14:27:02

網(wǎng)絡(luò)游戲網(wǎng)絡(luò)攻擊惡意軟件

2020-05-20 10:07:31

Python開發(fā)工具

2021-01-08 15:23:45

網(wǎng)絡(luò)安全技能網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2021-03-15 10:19:43

網(wǎng)絡(luò)安全技能網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2023-08-25 09:00:00

2021-11-08 07:11:49

決策樹數(shù)據(jù)分類器

2022-09-03 11:37:30

網(wǎng)絡(luò)安全游戲網(wǎng)絡(luò)防御

2017-05-19 12:49:18

大數(shù)據(jù)時空算法商業(yè)決策

2021-01-13 11:25:12

JavaScript閉包函數(shù)

2017-07-07 09:21:53

Python 機器學(xué)習(xí)決策

2023-06-06 10:20:55

模型效率

2015-04-22 09:33:41

2010-03-17 10:01:36

無線Mesh網(wǎng)絡(luò)標(biāo)準(zhǔn)

2023-06-28 19:30:27

項目管理度量數(shù)據(jù)分析

2020-12-15 13:18:24

人工智能AI機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號