自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

邊做邊思考,谷歌大腦提出并發(fā)RL算法,機(jī)械臂抓取速度提高一倍

新聞 人工智能 算法
RL 算法通常假設(shè),在獲取觀測值、計(jì)算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn),然而在真實(shí)機(jī)器人控制當(dāng)中并不成立,很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。

 RL 算法通常假設(shè),在獲取觀測值、計(jì)算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn),然而在真實(shí)機(jī)器人控制當(dāng)中并不成立,很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實(shí)驗(yàn)室共同提出一種并發(fā) RL 算法,使機(jī)器人能夠像人一樣「邊做邊思考」。目前,該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強(qiáng)化學(xué)習(xí):在受控系統(tǒng)隨著時(shí)間演變的過程中同時(shí)對動作進(jìn)行采樣。換句話說,所研究的機(jī)器人必須在執(zhí)行著上一個動作的同時(shí)考慮下一個動作。就如同人或動物一樣,機(jī)器人必須同時(shí)思考及行動,在上一個動作完成之前決定下一個動作。

為了開發(fā)用于此類并發(fā)性控制問題的算法框架,研究者從連續(xù)時(shí)間的貝爾曼方程開始,隨后以考慮系統(tǒng)延遲的方式進(jìn)行離散化。通過對現(xiàn)有基于價(jià)值(value-based)的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行簡單的架構(gòu)擴(kuò)展,該團(tuán)隊(duì)提出了一類新型近似動態(tài)規(guī)劃方法,并在模擬基準(zhǔn)任務(wù)和大規(guī)模機(jī)器人抓取任務(wù)上進(jìn)行了評估(機(jī)器人必須「邊走邊思考」)。

以下分別為該方法在仿真與真實(shí)機(jī)器人上的運(yùn)行效果:

論文地址:https://arxiv.org/abs/2004.06089

項(xiàng)目網(wǎng)頁:https://sites.google.com/view/thinkingwhilemoving

并發(fā)動作環(huán)境

下圖(a)表示在阻塞環(huán)境(blocking environment)中,動作以順序阻塞的方式執(zhí)行,假設(shè)在獲取狀態(tài)與執(zhí)行動作之間環(huán)境狀態(tài)不發(fā)生變化。我們也可以將其理解為:從智能體的角度看來,獲取狀態(tài)與推斷策略是瞬間完成的。與此相反,圖(b)中表示的并發(fā)環(huán)境(concurrent environment)在獲取狀態(tài)與推斷策略之間并沒有假設(shè)環(huán)境不變,而是允許環(huán)境在此期間發(fā)生變化。

阻塞環(huán)境與并發(fā)環(huán)境中不同階段的執(zhí)行順序?qū)Ρ葓D。

基于價(jià)值的連續(xù)與離散并發(fā)強(qiáng)化學(xué)習(xí)算法

研究者從連續(xù)時(shí)間強(qiáng)化學(xué)習(xí)的角度開始探索,因?yàn)樗梢暂p松地表示系統(tǒng)的并發(fā)特性。之后研究者證明,基于連續(xù)情況得出的結(jié)論同樣適用于隨后在所有實(shí)驗(yàn)中使用的更為常用的離散環(huán)境。

連續(xù)環(huán)境方程

為了進(jìn)一步分析并發(fā)環(huán)境,研究者引入下列符號。智能體在一個周期內(nèi)選擇 N 個動作軌跡(a_1 , ..., a_N),其中每個 a_i(t) 為一個用于產(chǎn)生控制,并以時(shí)間 t 作為變量的連續(xù)函數(shù)。令 t_{AS} 為獲取狀態(tài)、推斷策略與任意額外通信時(shí)延的間隔時(shí)間。在 t 時(shí)刻,智能體開始計(jì)算狀態(tài) s(t) 的第 i 個動作 a_i(t)。同時(shí),在時(shí)間間隔 (t − H + t_{AS},t+t_{AS}) 內(nèi)執(zhí)行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時(shí)刻(t ≤ t+t_{AS} ≤ t+H),智能體切換到去執(zhí)行來自 a_i(t) 的動作。并發(fā)環(huán)境下的連續(xù) Q 函數(shù)可表示如下:

前兩項(xiàng)分別對應(yīng)執(zhí)行 (t,t + t_{AS}) 時(shí)刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時(shí)刻動作 a_i(t) 的期望折扣回報(bào)。通過對隨機(jī)方程 p 進(jìn)行采樣,可獲得一個僅關(guān)于策略 rollouts 的單樣本(single-sample)蒙特卡洛估計(jì)器 Q:

接下來,對于連續(xù)時(shí)間情形,研究者定義了一個新的并發(fā)貝爾曼 backup 算子:

以上算子將貝爾曼算子擴(kuò)充為考慮并發(fā)動作的情形,研究者證明改進(jìn)后的算子保持了其吸引域的特性,這對于 Q-learning 的收斂性至關(guān)重要。

離散環(huán)境方程

為了簡化離散情形下的符號(此時(shí)動作方程 a_i(t) 與該方程在 t 時(shí)刻的值 a_i(t) 并非必需),研究者將當(dāng)前狀態(tài)設(shè)置為 s_t,將當(dāng)前動作設(shè)置為 a_t,將上一時(shí)刻動作設(shè)置為 a_{t−1}(分別將其下標(biāo) i 替換為 t)。在以上符號記法下,研究者定義了離散情形下的并發(fā) Q 方程:

其中 t_{AS′} 為動作 a_t 在 t + t_{AS} 時(shí)刻開始執(zhí)行時(shí)的「溢出間隔」(spillover duration)。于是,并發(fā)貝爾曼算子(以下標(biāo) c 表示)為:

與連續(xù)情形類似,研究者也證明了該離散貝爾曼算子是一個吸引域。

實(shí)驗(yàn)結(jié)果

簡單一階控制問題

首先,研究者通過對標(biāo)準(zhǔn)的 Cartpole 和 Pendulum 環(huán)境的并發(fā)版本進(jìn)行控制變量研究,說明了并發(fā)控制范式對基于價(jià)值的 DRL 方法的影響。

為了估計(jì)不同并發(fā)知識表示的相對重要性,研究者分析了每種并發(fā)知識表示對其他超參數(shù)值組合的敏感性,如下圖所示:

Cartpole 和 Pendulum 環(huán)境中的實(shí)驗(yàn)結(jié)果。

大規(guī)模機(jī)械臂抓取任務(wù)

接下來,研究者分別在仿真與真實(shí)機(jī)械臂上進(jìn)行了實(shí)驗(yàn)。

圖 3:仿真和真實(shí)環(huán)境下的機(jī)械臂抓取任務(wù)圖示。

表 1 通過對無條件模型與并發(fā)知識模型進(jìn)行比較總結(jié)了阻塞和并發(fā)模式的性能。并發(fā)知識模型能夠?qū)W習(xí)更快的軌跡,其周期持續(xù)時(shí)間與阻塞無條件模型相比減少了 31.3%。

表 1:大規(guī)模仿真機(jī)械臂抓取任務(wù)的實(shí)驗(yàn)結(jié)果。

此外,研究者在現(xiàn)實(shí)世界機(jī)器人抓取任務(wù)中,對比了并發(fā)模型和阻塞模型的定性策略行為,如圖 3b 所示。

如表 2 所示,這些模型在抓取成功方面性能相當(dāng),但是就策略持續(xù)時(shí)間而言,并發(fā)模型比阻塞模型快 49%(策略持續(xù)時(shí)間用來衡量策略的總執(zhí)行時(shí)間,但不包括在周期持續(xù)時(shí)間中的基礎(chǔ)架構(gòu)建立和拆除時(shí)間,并發(fā)操作無法對此優(yōu)化)。

表 2:真實(shí)機(jī)械臂抓取結(jié)果。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-07-22 16:55:46

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2022-06-24 08:20:56

requests爬蟲Python

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2024-04-02 10:13:25

在線小工具開發(fā)

2012-07-04 08:48:59

程序員

2023-04-10 14:22:26

PCIe6.0PCIe

2024-02-05 08:00:00

代碼生成人工智能自然語言

2021-01-13 15:16:45

谷歌架構(gòu)開發(fā)者

2012-07-04 09:30:49

程序員開發(fā)效率

2011-02-22 09:29:33

無線網(wǎng)絡(luò)無線網(wǎng)速

2009-06-15 08:47:33

微軟Windows 7操作系統(tǒng)

2020-05-28 13:20:49

算法谷歌性能

2022-11-21 10:18:24

AI谷歌

2011-07-05 17:14:39

Raritan力登年度環(huán)境計(jì)劃

2009-11-26 11:29:46

Silverlight

2010-08-13 11:06:52

創(chuàng)新工場CEO李開復(fù)

2019-07-18 08:54:42

谷歌Android開發(fā)者

2010-06-03 17:32:34

Tera

2009-09-22 10:09:58

AHCIWindows 7加速

2015-11-09 17:53:35

程序員高薪職業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號