邊做邊思考,谷歌大腦提出并發(fā)RL算法,機(jī)械臂抓取速度提高一倍
RL 算法通常假設(shè),在獲取觀測值、計(jì)算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實(shí)現(xiàn),然而在真實(shí)機(jī)器人控制當(dāng)中并不成立,很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實(shí)驗(yàn)室共同提出一種并發(fā) RL 算法,使機(jī)器人能夠像人一樣「邊做邊思考」。目前,該論文已被 ICLR 2020 接收。
該研究在如下情況中研究強(qiáng)化學(xué)習(xí):在受控系統(tǒng)隨著時(shí)間演變的過程中同時(shí)對動作進(jìn)行采樣。換句話說,所研究的機(jī)器人必須在執(zhí)行著上一個動作的同時(shí)考慮下一個動作。就如同人或動物一樣,機(jī)器人必須同時(shí)思考及行動,在上一個動作完成之前決定下一個動作。
為了開發(fā)用于此類并發(fā)性控制問題的算法框架,研究者從連續(xù)時(shí)間的貝爾曼方程開始,隨后以考慮系統(tǒng)延遲的方式進(jìn)行離散化。通過對現(xiàn)有基于價(jià)值(value-based)的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行簡單的架構(gòu)擴(kuò)展,該團(tuán)隊(duì)提出了一類新型近似動態(tài)規(guī)劃方法,并在模擬基準(zhǔn)任務(wù)和大規(guī)模機(jī)器人抓取任務(wù)上進(jìn)行了評估(機(jī)器人必須「邊走邊思考」)。
以下分別為該方法在仿真與真實(shí)機(jī)器人上的運(yùn)行效果:
論文地址:https://arxiv.org/abs/2004.06089
項(xiàng)目網(wǎng)頁:https://sites.google.com/view/thinkingwhilemoving
并發(fā)動作環(huán)境
下圖(a)表示在阻塞環(huán)境(blocking environment)中,動作以順序阻塞的方式執(zhí)行,假設(shè)在獲取狀態(tài)與執(zhí)行動作之間環(huán)境狀態(tài)不發(fā)生變化。我們也可以將其理解為:從智能體的角度看來,獲取狀態(tài)與推斷策略是瞬間完成的。與此相反,圖(b)中表示的并發(fā)環(huán)境(concurrent environment)在獲取狀態(tài)與推斷策略之間并沒有假設(shè)環(huán)境不變,而是允許環(huán)境在此期間發(fā)生變化。
阻塞環(huán)境與并發(fā)環(huán)境中不同階段的執(zhí)行順序?qū)Ρ葓D。
基于價(jià)值的連續(xù)與離散并發(fā)強(qiáng)化學(xué)習(xí)算法
研究者從連續(xù)時(shí)間強(qiáng)化學(xué)習(xí)的角度開始探索,因?yàn)樗梢暂p松地表示系統(tǒng)的并發(fā)特性。之后研究者證明,基于連續(xù)情況得出的結(jié)論同樣適用于隨后在所有實(shí)驗(yàn)中使用的更為常用的離散環(huán)境。
連續(xù)環(huán)境方程
為了進(jìn)一步分析并發(fā)環(huán)境,研究者引入下列符號。智能體在一個周期內(nèi)選擇 N 個動作軌跡(a_1 , ..., a_N),其中每個 a_i(t) 為一個用于產(chǎn)生控制,并以時(shí)間 t 作為變量的連續(xù)函數(shù)。令 t_{AS} 為獲取狀態(tài)、推斷策略與任意額外通信時(shí)延的間隔時(shí)間。在 t 時(shí)刻,智能體開始計(jì)算狀態(tài) s(t) 的第 i 個動作 a_i(t)。同時(shí),在時(shí)間間隔 (t − H + t_{AS},t+t_{AS}) 內(nèi)執(zhí)行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時(shí)刻(t ≤ t+t_{AS} ≤ t+H),智能體切換到去執(zhí)行來自 a_i(t) 的動作。并發(fā)環(huán)境下的連續(xù) Q 函數(shù)可表示如下:
前兩項(xiàng)分別對應(yīng)執(zhí)行 (t,t + t_{AS}) 時(shí)刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時(shí)刻動作 a_i(t) 的期望折扣回報(bào)。通過對隨機(jī)方程 p 進(jìn)行采樣,可獲得一個僅關(guān)于策略 rollouts 的單樣本(single-sample)蒙特卡洛估計(jì)器 Q:
接下來,對于連續(xù)時(shí)間情形,研究者定義了一個新的并發(fā)貝爾曼 backup 算子:
以上算子將貝爾曼算子擴(kuò)充為考慮并發(fā)動作的情形,研究者證明改進(jìn)后的算子保持了其吸引域的特性,這對于 Q-learning 的收斂性至關(guān)重要。
離散環(huán)境方程
為了簡化離散情形下的符號(此時(shí)動作方程 a_i(t) 與該方程在 t 時(shí)刻的值 a_i(t) 并非必需),研究者將當(dāng)前狀態(tài)設(shè)置為 s_t,將當(dāng)前動作設(shè)置為 a_t,將上一時(shí)刻動作設(shè)置為 a_{t−1}(分別將其下標(biāo) i 替換為 t)。在以上符號記法下,研究者定義了離散情形下的并發(fā) Q 方程:
其中 t_{AS′} 為動作 a_t 在 t + t_{AS} 時(shí)刻開始執(zhí)行時(shí)的「溢出間隔」(spillover duration)。于是,并發(fā)貝爾曼算子(以下標(biāo) c 表示)為:
與連續(xù)情形類似,研究者也證明了該離散貝爾曼算子是一個吸引域。
實(shí)驗(yàn)結(jié)果
簡單一階控制問題
首先,研究者通過對標(biāo)準(zhǔn)的 Cartpole 和 Pendulum 環(huán)境的并發(fā)版本進(jìn)行控制變量研究,說明了并發(fā)控制范式對基于價(jià)值的 DRL 方法的影響。
為了估計(jì)不同并發(fā)知識表示的相對重要性,研究者分析了每種并發(fā)知識表示對其他超參數(shù)值組合的敏感性,如下圖所示:
Cartpole 和 Pendulum 環(huán)境中的實(shí)驗(yàn)結(jié)果。
大規(guī)模機(jī)械臂抓取任務(wù)
接下來,研究者分別在仿真與真實(shí)機(jī)械臂上進(jìn)行了實(shí)驗(yàn)。
圖 3:仿真和真實(shí)環(huán)境下的機(jī)械臂抓取任務(wù)圖示。
表 1 通過對無條件模型與并發(fā)知識模型進(jìn)行比較總結(jié)了阻塞和并發(fā)模式的性能。并發(fā)知識模型能夠?qū)W習(xí)更快的軌跡,其周期持續(xù)時(shí)間與阻塞無條件模型相比減少了 31.3%。
表 1:大規(guī)模仿真機(jī)械臂抓取任務(wù)的實(shí)驗(yàn)結(jié)果。
此外,研究者在現(xiàn)實(shí)世界機(jī)器人抓取任務(wù)中,對比了并發(fā)模型和阻塞模型的定性策略行為,如圖 3b 所示。
如表 2 所示,這些模型在抓取成功方面性能相當(dāng),但是就策略持續(xù)時(shí)間而言,并發(fā)模型比阻塞模型快 49%(策略持續(xù)時(shí)間用來衡量策略的總執(zhí)行時(shí)間,但不包括在周期持續(xù)時(shí)間中的基礎(chǔ)架構(gòu)建立和拆除時(shí)間,并發(fā)操作無法對此優(yōu)化)。
表 2:真實(shí)機(jī)械臂抓取結(jié)果。