自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind提出基于視覺的強(qiáng)化學(xué)習(xí)模型,十八般兵器對機(jī)器人不在話下

新聞 人工智能
人類是擅于模仿的,我們和其他動物通過觀察行為來模仿,理解它對環(huán)境狀態(tài)的感知影響,并找出我們的身體可以采取什么行動來達(dá)到類似的結(jié)果。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 人類是擅于模仿的,我們和其他動物通過觀察行為來模仿,理解它對環(huán)境狀態(tài)的感知影響,并找出我們的身體可以采取什么行動來達(dá)到類似的結(jié)果。

對于機(jī)器人學(xué)習(xí)任務(wù)來說,模仿學(xué)習(xí)是一個(gè)強(qiáng)大的工具。但在這類環(huán)境感知任務(wù)中,使用強(qiáng)化學(xué)習(xí)來指定一個(gè)回報(bào)函數(shù)卻是很困難的。

DeepMind最新論文主要探索了僅從第三人稱視覺模仿操作軌跡的可能性,而不依賴action狀態(tài),團(tuán)隊(duì)的靈感來自于一個(gè)機(jī)器人機(jī)械手模仿視覺上演示的復(fù)雜的行為。

DeepMind提出的方法主要分為兩個(gè)階段:

1、提出一種操作器無關(guān)的表示(MIR, Manipulation-Independent Representations),即不管是機(jī)械手、人手或是其他設(shè)備,保證這種表示都能夠用于后續(xù)任務(wù)的學(xué)習(xí)

2、使用強(qiáng)化學(xué)習(xí)來學(xué)習(xí)action策略

與操作器無關(guān)的表示

領(lǐng)域適應(yīng)性問題是機(jī)器人模擬現(xiàn)實(shí)中最關(guān)鍵的問題,即解決視覺仿真和現(xiàn)實(shí)之間的差別。

1、 隨機(jī)使用各種類型操作器,各種仿真環(huán)境用來模擬現(xiàn)實(shí)世界

2、加入去除操作臂后的觀察

3、時(shí)序平滑對抗網(wǎng)絡(luò)(TSCN, Temporally-Smooth Contrastive Networks),相比TCN來說,在softmax交叉熵目標(biāo)函數(shù)中增加了一個(gè)分布系數(shù)p,使得學(xué)習(xí)過程更加平滑,尤其是在cross-domain的情況。

使用強(qiáng)化學(xué)習(xí)

MIR表示空間的需求是actionable的,即可用于強(qiáng)化學(xué)習(xí),表示為具體的action。

一個(gè)解決方案是使用goal-conditioned來訓(xùn)練策略,輸入為當(dāng)前狀態(tài)o和目標(biāo)狀態(tài)g。這篇文章提出一種擴(kuò)展方式,cross-domain goal-conditional policies,輸入當(dāng)前狀態(tài)o和跨域的目標(biāo)狀態(tài)o',最小化到達(dá)目標(biāo)的行動次數(shù)。

數(shù)據(jù)和實(shí)驗(yàn)

研究小組在8個(gè)環(huán)境和場景(規(guī)范模擬、隱形手臂、隨機(jī)手臂、隨機(jī)域、Jaco Hand、真機(jī)器人、手杖和人手)上進(jìn)行了實(shí)驗(yàn),以評估通過未知機(jī)械手模擬無約束操作軌跡的性能。

他們還用了一些基線方法,如樸素的goal conditioned plicies (GCP)和temporal distance。

MIR 在所有測試領(lǐng)域都取得了最好的性能。它在疊加成功率方面的表現(xiàn)顯著提高,并且以100% 的分?jǐn)?shù)很好地模仿了模擬的 Jaco Hand 和 Invisible Arm。

這項(xiàng)研究論證了視覺模仿表征在視覺模仿中的重要性,并驗(yàn)證了操作無關(guān)表征在視覺模仿中的成功應(yīng)用。

未來工廠中的機(jī)器人將擁有更強(qiáng)大的學(xué)習(xí)能力,并不局限于一種特定工具,一種特定任務(wù)。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2019-03-12 09:00:00

安全工具病毒軟件惡意軟件

2010-09-03 13:30:19

CSS

2021-04-21 14:15:08

機(jī)器人AI人工智能

2019-03-11 09:00:00

安全工具病毒軟件惡意軟件

2019-04-08 18:26:49

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊

2023-02-07 23:42:55

機(jī)器人技術(shù)識別

2023-09-21 10:29:01

AI模型

2021-07-02 16:04:54

機(jī)器人人工智能AI

2022-01-20 09:56:33

機(jī)器人冬奧滑雪

2024-04-15 08:20:00

機(jī)器人技能

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2021-05-07 09:18:04

CSS 文字動畫技巧

2011-06-20 13:29:44

2010-04-01 15:01:26

配置無線路由器

2022-07-24 19:24:32

機(jī)器學(xué)習(xí)預(yù)訓(xùn)練模型機(jī)器人

2021-01-12 14:50:55

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-09-05 08:23:58

2024-04-17 13:20:29

2022-05-24 07:40:40

CSS逐幀動畫圖片輪播

2024-10-29 15:20:00

強(qiáng)化學(xué)習(xí)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號