自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="wrttv"></xmp>

<legend id="wrttv"><track id="wrttv"></track></legend>

<style id="wrttv"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

邊做邊思考，谷歌大腦提出并發(fā)RL算法，機(jī)械臂抓取速度提高一倍

作者：機(jī)器之心編譯 2020-05-12 10:43:30

新聞人工智能算法

RL 算法通常假設(shè)，在獲取觀測值、計(jì)算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn)，然而在真實(shí)機(jī)器人控制當(dāng)中并不成立，很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。

RL 算法通常假設(shè)，在獲取觀測值、計(jì)算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn)，然而在真實(shí)機(jī)器人控制當(dāng)中并不成立，很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。為緩解以上問題，最近谷歌大腦與 UC 伯克利、X 實(shí)驗(yàn)室共同提出一種并發(fā) RL 算法，使機(jī)器人能夠像人一樣「邊做邊思考」。目前，該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強(qiáng)化學(xué)習(xí)：在受控系統(tǒng)隨著時(shí)間演變的過程中同時(shí)對動作進(jìn)行采樣。換句話說，所研究的機(jī)器人必須在執(zhí)行著上一個動作的同時(shí)考慮下一個動作。就如同人或動物一樣，機(jī)器人必須同時(shí)思考及行動，在上一個動作完成之前決定下一個動作。

為了開發(fā)用于此類并發(fā)性控制問題的算法框架，研究者從連續(xù)時(shí)間的貝爾曼方程開始，隨后以考慮系統(tǒng)延遲的方式進(jìn)行離散化。通過對現(xiàn)有基于價(jià)值（value-based）的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行簡單的架構(gòu)擴(kuò)展，該團(tuán)隊(duì)提出了一類新型近似動態(tài)規(guī)劃方法，并在模擬基準(zhǔn)任務(wù)和大規(guī)模機(jī)器人抓取任務(wù)上進(jìn)行了評估（機(jī)器人必須「邊走邊思考」）。

以下分別為該方法在仿真與真實(shí)機(jī)器人上的運(yùn)行效果：

論文地址：https://arxiv.org/abs/2004.06089

項(xiàng)目網(wǎng)頁：https://sites.google.com/view/thinkingwhilemoving

并發(fā)動作環(huán)境

下圖（a）表示在阻塞環(huán)境（blocking environment）中，動作以順序阻塞的方式執(zhí)行，假設(shè)在獲取狀態(tài)與執(zhí)行動作之間環(huán)境狀態(tài)不發(fā)生變化。我們也可以將其理解為：從智能體的角度看來，獲取狀態(tài)與推斷策略是瞬間完成的。與此相反，圖（b）中表示的并發(fā)環(huán)境（concurrent environment）在獲取狀態(tài)與推斷策略之間并沒有假設(shè)環(huán)境不變，而是允許環(huán)境在此期間發(fā)生變化。

阻塞環(huán)境與并發(fā)環(huán)境中不同階段的執(zhí)行順序?qū)Ρ葓D。

基于價(jià)值的連續(xù)與離散并發(fā)強(qiáng)化學(xué)習(xí)算法

研究者從連續(xù)時(shí)間強(qiáng)化學(xué)習(xí)的角度開始探索，因?yàn)樗梢暂p松地表示系統(tǒng)的并發(fā)特性。之后研究者證明，基于連續(xù)情況得出的結(jié)論同樣適用于隨后在所有實(shí)驗(yàn)中使用的更為常用的離散環(huán)境。

連續(xù)環(huán)境方程

為了進(jìn)一步分析并發(fā)環(huán)境，研究者引入下列符號。智能體在一個周期內(nèi)選擇 N 個動作軌跡（a_1 , ..., a_N），其中每個 a_i(t) 為一個用于產(chǎn)生控制，并以時(shí)間 t 作為變量的連續(xù)函數(shù)。令 t_{AS} 為獲取狀態(tài)、推斷策略與任意額外通信時(shí)延的間隔時(shí)間。在 t 時(shí)刻，智能體開始計(jì)算狀態(tài) s(t) 的第 i 個動作 a_i(t)。同時(shí)，在時(shí)間間隔 (t − H + t_{AS},t+t_{AS}) 內(nèi)執(zhí)行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時(shí)刻（t ≤ t+t_{AS} ≤ t+H），智能體切換到去執(zhí)行來自 a_i(t) 的動作。并發(fā)環(huán)境下的連續(xù) Q 函數(shù)可表示如下：

前兩項(xiàng)分別對應(yīng)執(zhí)行 (t,t + t_{AS}) 時(shí)刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時(shí)刻動作 a_i(t) 的期望折扣回報(bào)。通過對隨機(jī)方程 p 進(jìn)行采樣，可獲得一個僅關(guān)于策略 rollouts 的單樣本（single-sample）蒙特卡洛估計(jì)器 Q：

接下來，對于連續(xù)時(shí)間情形，研究者定義了一個新的并發(fā)貝爾曼 backup 算子：

以上算子將貝爾曼算子擴(kuò)充為考慮并發(fā)動作的情形，研究者證明改進(jìn)后的算子保持了其吸引域的特性，這對于 Q-learning 的收斂性至關(guān)重要。

離散環(huán)境方程

為了簡化離散情形下的符號（此時(shí)動作方程 a_i(t) 與該方程在 t 時(shí)刻的值 a_i(t) 并非必需），研究者將當(dāng)前狀態(tài)設(shè)置為 s_t，將當(dāng)前動作設(shè)置為 a_t，將上一時(shí)刻動作設(shè)置為 a_{t−1}（分別將其下標(biāo) i 替換為 t）。在以上符號記法下，研究者定義了離散情形下的并發(fā) Q 方程：

其中 t_{AS′} 為動作 a_t 在 t + t_{AS} 時(shí)刻開始執(zhí)行時(shí)的「溢出間隔」（spillover duration）。于是，并發(fā)貝爾曼算子（以下標(biāo) c 表示）為：

與連續(xù)情形類似，研究者也證明了該離散貝爾曼算子是一個吸引域。

實(shí)驗(yàn)結(jié)果

簡單一階控制問題

首先，研究者通過對標(biāo)準(zhǔn)的 Cartpole 和 Pendulum 環(huán)境的并發(fā)版本進(jìn)行控制變量研究，說明了并發(fā)控制范式對基于價(jià)值的 DRL 方法的影響。

為了估計(jì)不同并發(fā)知識表示的相對重要性，研究者分析了每種并發(fā)知識表示對其他超參數(shù)值組合的敏感性，如下圖所示：

Cartpole 和 Pendulum 環(huán)境中的實(shí)驗(yàn)結(jié)果。

大規(guī)模機(jī)械臂抓取任務(wù)

接下來，研究者分別在仿真與真實(shí)機(jī)械臂上進(jìn)行了實(shí)驗(yàn)。

圖 3：仿真和真實(shí)環(huán)境下的機(jī)械臂抓取任務(wù)圖示。

表 1 通過對無條件模型與并發(fā)知識模型進(jìn)行比較總結(jié)了阻塞和并發(fā)模式的性能。并發(fā)知識模型能夠?qū)W習(xí)更快的軌跡，其周期持續(xù)時(shí)間與阻塞無條件模型相比減少了 31.3%。

表 1：大規(guī)模仿真機(jī)械臂抓取任務(wù)的實(shí)驗(yàn)結(jié)果。

此外，研究者在現(xiàn)實(shí)世界機(jī)器人抓取任務(wù)中，對比了并發(fā)模型和阻塞模型的定性策略行為，如圖 3b 所示。

如表 2 所示，這些模型在抓取成功方面性能相當(dāng)，但是就策略持續(xù)時(shí)間而言，并發(fā)模型比阻塞模型快 49%（策略持續(xù)時(shí)間用來衡量策略的總執(zhí)行時(shí)間，但不包括在周期持續(xù)時(shí)間中的基礎(chǔ)架構(gòu)建立和拆除時(shí)間，并發(fā)操作無法對此優(yōu)化）。

表 2：真實(shí)機(jī)械臂抓取結(jié)果。

責(zé)任編輯：張燕妮來源：機(jī)器之心

谷歌算法人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營