耗時兩年,谷歌用強化學(xué)習(xí)打造23個機器人幫助垃圾分類
強化學(xué)習(xí)(RL)可以讓機器人通過反復(fù)試錯進行交互,進而學(xué)會復(fù)雜行為,并隨著時間的推移變得越來越好。之前谷歌的一些工作探索了 RL 如何使機器人掌握復(fù)雜的技能,例如抓取、多任務(wù)學(xué)習(xí),甚至是打乒乓球。雖然機器人強化學(xué)習(xí)已經(jīng)取得了長足進步,但我們?nèi)匀粵]有在日常環(huán)境中看到有強化學(xué)習(xí)加持的機器人。因為現(xiàn)實世界是復(fù)雜多樣的,并且隨著時間的推移不斷變化,這為機器人系統(tǒng)帶來巨大挑戰(zhàn)。然而,強化學(xué)習(xí)應(yīng)該是應(yīng)對這些挑戰(zhàn)的優(yōu)秀工具:通過不斷練習(xí)、不斷進步和在工作中學(xué)習(xí),機器人應(yīng)該能夠適應(yīng)不斷變化的世界。
在谷歌的論文《 Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators 》中,研究人員探討了如何通過最新的大規(guī)模實驗解決這個問題,他們在兩年內(nèi)部署了一支由 23 個支持 RL 的機器人組成的群組,用于在谷歌辦公樓中進行垃圾分類和回收。使用的機器人系統(tǒng)將來自真實世界數(shù)據(jù)的可擴展深度強化學(xué)習(xí)與來自模擬訓(xùn)練的引導(dǎo)和輔助對象感知輸入相結(jié)合,以提高泛化能力,同時保留端到端訓(xùn)練優(yōu)勢,通過對 240 個垃圾站進行 4800 次評估試驗來驗證。
論文地址:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
問題設(shè)置
如果人們沒有正確分類垃圾,成批的可回收物品可能會受到污染,堆肥可能會被不當(dāng)丟棄到垃圾填埋場。在谷歌的實驗中,機器人在辦公樓周圍漫游,尋找 “垃圾站”(可回收垃圾箱、堆肥垃圾箱和其它垃圾箱)。機器人的任務(wù)是到達每個垃圾站進行垃圾分類,在不同垃圾箱之間運輸物品,以便將所有可回收物品(罐頭、瓶子)放入可回收垃圾箱,將所有可堆肥物品(紙板容器、紙杯)放入堆肥垃圾箱,其他所有東西都放在其它垃圾箱里。
其實這項任務(wù)并不像看起來那么容易。僅僅是撿起人們?nèi)舆M垃圾箱的不同物品的子任務(wù),就已經(jīng)是一個巨大的挑戰(zhàn)。機器人還必須為每個物體識別合適的垃圾箱,并盡可能快速有效地對它們進行分類。在現(xiàn)實世界中,機器人會遇到各種獨特的情況,比如以下真實辦公樓的例子:
從不同的經(jīng)驗中學(xué)習(xí)
在工作中不斷學(xué)習(xí)是有幫助的,但在達到這一點之前,需要用一套基本的技能來引導(dǎo)機器人。為此,谷歌使用了四種經(jīng)驗來源:(1)簡單的手工設(shè)計策略,成功率很低,但有助于提供初步經(jīng)驗;(2)模擬訓(xùn)練框架,使用模擬 - 真實的遷移來提供一些初步的垃圾分類策略;(3)“robot classrooms”,機器人使用有代表性的垃圾站不斷練習(xí)(4)真實的部署環(huán)境,機器人在有真實垃圾的辦公樓里練習(xí)。
強化學(xué)習(xí)在該大規(guī)模應(yīng)用中的示意圖。使用腳本生成的數(shù)據(jù)引導(dǎo)策略的啟動(左上圖)。然后訓(xùn)練一個從仿真到實際的模型,在仿真環(huán)境中生成額外的數(shù)據(jù)(右上圖)。在每個部署周期中,添加在 “robot classrooms” 中收集的數(shù)據(jù)(右下圖)。在辦公樓中部署和收集數(shù)據(jù)(左下圖)。
這里使用的強化學(xué)習(xí)框架基于 QT-Opt,實驗室環(huán)境下的不同垃圾的抓取以及一系列其他技能也是使用該框架。在仿真環(huán)境中從簡單的腳本策略開始引導(dǎo),應(yīng)用強化學(xué)習(xí),并使用基于 CycleGAN 的遷移方法,利用 RetinaGAN 使仿真圖像看起來更加逼真。
到此就開始進入 “robot classrooms”。雖然實際的辦公樓可以提供最真實的體驗,但數(shù)據(jù)收集的吞吐量是有限的 —— 有些時間會有很多垃圾需要分類,有些時間則不會有那么多。機器人在 “robot classrooms” 中積累了大部分的經(jīng)驗。在下面展示的 “robot classrooms” 里,有 20 個機器人練習(xí)垃圾分類任務(wù):
當(dāng)這些機器人在 “robot classrooms” 接受訓(xùn)練時,其它機器人正在 3 座辦公樓中的 30 個垃圾站上同時學(xué)習(xí)。
分類性能
最終,研究人員從 “robot classrooms” 收集了 54 萬個試驗數(shù)據(jù),在實際部署環(huán)境收集了 32.5 萬個試驗數(shù)據(jù)。隨著數(shù)據(jù)的不斷增加,整個系統(tǒng)的性能得到了改善。研究者在 “robot classrooms” 中對最終系統(tǒng)進行了評估,以便進行受控比較,根據(jù)機器人在實際部署中看到的情況設(shè)置了場景。最終系統(tǒng)的平均準(zhǔn)確率約為 84%,隨著數(shù)據(jù)的增加,性能穩(wěn)步提高。在現(xiàn)實世界中,研究人員記錄了 2021 年至 2022 年實際部署的統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)系統(tǒng)可以按重量將垃圾桶中的污染物減少 40%至 50%。谷歌研究人員在論文提供了有關(guān)技術(shù)設(shè)計、各種設(shè)計決策的削弱研究以及實驗的更詳細統(tǒng)計數(shù)據(jù)的更深入見解。
結(jié)論和未來工作展望
實驗結(jié)果表明,基于強化學(xué)習(xí)的系統(tǒng)可以使機器人在真實辦公環(huán)境中處理實際任務(wù)。離線和在線數(shù)據(jù)的結(jié)合使得機器人能夠適應(yīng)真實世界中廣泛變化的情況。同時,在更加受控的 “課堂” 環(huán)境中學(xué)習(xí),包括在仿真環(huán)境和實際環(huán)境中,可以提供強大的啟動機制,使得強化學(xué)習(xí)的 “飛輪” 開始轉(zhuǎn)動,從而實現(xiàn)適應(yīng)性。
雖然已經(jīng)取得了重要成果,但還有很多工作需要完成:最終的強化學(xué)習(xí)策略并不總是成功的,需要更強大的模型來改善其性能,并將其擴展到更廣泛的任務(wù)范圍。除此之外,其它經(jīng)驗來源,包括來自其它任務(wù)、其它機器人,甚至是互聯(lián)網(wǎng)視頻,也可能會進一步補充從仿真和” 課堂 “中獲得的啟動經(jīng)驗。這些都是未來需要解決的問題。