CMU機器狗,倒立下樓!發(fā)布即開源
講真,機器狗的花活見得多了——
但今天還是有被驚艷到。
來自CMU的最新成果,直接讓狗子學(xué)會了:
兩倍身長的跳高、跳遠、倒立撒歡兒甚至倒立下樓梯
話不多說,直接放圖感受一波:
△ 這是跳遠
△ 這是跳高
△ 倒立撒歡兒
△ 倒立下樓梯
不得不說,尤其跳高那段中的“掙扎”顯得狗子特別靈魂。
除了這些s操作,CMU也公布了幾段跑酷視頻,完全自主的那種。
上坎兒、過縫隙、跨斜坡,那叫一個溜。
中間即使有“失誤”,也絲毫不影響它立即前進。
笑鼠,甚至還給安排了一段壓力測試,結(jié)果當然是“通過”~
最厲害的是,據(jù)CMU介紹,以上這些極限操作,全部靠單個神經(jīng)網(wǎng)絡(luò)完成。
LeCun大佬聽了,都得反手一個贊。
如此靈魂,如何煉成?
在推文中,作者對這只狗子的技術(shù)進行了挨個解析。
首先,比起基于視覺的端到端行走,2倍身長跳高跳遠這種極限操作可謂完全不屬同一個level。
畢竟,任何一個失誤都可能是“致命的”。
對此,CMU采用sim2real來實現(xiàn)精準的足部控制和挑戰(zhàn),最大限度地發(fā)揮機械優(yōu)勢。
其中,模擬器用的是Gym。
其次,倒立。用兩條腿行走顯然比用四條腿要困難得多。
但CMU的機器狗使用相同的基本方法同時實現(xiàn)了這兩種任務(wù),甚至還可以一邊倒立一邊下樓梯。
第三,對于跑酷操作來說(本研究重點),機器狗必須通過精確的“眼部肌肉”協(xié)調(diào)來自己決定前進方向,而非聽從人類指揮。
比如連續(xù)過兩個斜坡時,它需要以一個非常特定的角度跳上坡道,然后立即改變方向。
為了學(xué)會這些正確的方向,CMU使用MTS(Mixed Teacher Student)系統(tǒng)來教會機器狗。
其中,僅當預(yù)測方向接近真實值時才會被系統(tǒng)采納。
具體而言,該系統(tǒng)分為兩個階段:
第一階段,先利用RL學(xué)習(xí)一種移動策略,該過程可以訪問一些特權(quán)信息,除了環(huán)境參數(shù)和掃描點(scandots)以外,CMU還為機器狗適當提供了一些標志點(waypoints),目的是引導(dǎo)大體方向。
然后,使用正則化在線自適應(yīng)(Regularized Online Adaptation ,ROA)來訓(xùn)練評估器,以便從觀察歷史中恢復(fù)環(huán)境信息。
第二階段,從掃描點(scandots)中提取策略,系統(tǒng)將根據(jù)該策略和深度信息自主決定如何前進,從而敏捷地輸出電機命令。
整個過程就像“老師教,學(xué)生舉一反三學(xué)習(xí)”。
除了這個系統(tǒng)之外,由于跑酷需要用上各種不同動作穿越障礙,因此為每一個障礙設(shè)計特定獎勵函數(shù)也是一件頭疼的事兒。
在此,作者選擇為所有任務(wù)制定了一個統(tǒng)一且簡單的內(nèi)積獎勵函數(shù)。
它可以自動產(chǎn)生不同的獎勵,并完全適應(yīng)不同的地形形狀。
沒有它,狗子的表現(xiàn)就是這樣的:
最后,CMU還提出了一種全新的雙重蒸餾(dual distillation)方法,用于從深度圖像中提取敏捷的運動指令和快速波動的前進方向。
同樣,沒有它,狗子的表現(xiàn)也跟個“醉漢”似的:
經(jīng)過如上一番操作,這只狗子終于學(xué)會了全新的自主跑酷,并穿插高難度動作。
是不是很心動?別急:
以上這些成果,CMU已全部開源(瞧這日期,還是熱乎的呢)。
同時,論文也上線了。大家可以在結(jié)尾獲取。
作者介紹
本研究全部由CMU完成,一共四位作者。
其中兩位共同一作,且都是華人:
一位叫Xuxin Cheng,這項工作是他在CMU讀研時完成的,他現(xiàn)在是加州大學(xué)圣地亞哥分校(UCSD)的博士生,導(dǎo)師為王小龍;
另一位叫石可心,CMU機器人研究所的訪問學(xué)者。她本科畢業(yè)于西安交大。
項目主頁(包含論文、代碼等鏈接):https://extreme-parkour.github.io/