CMUÐ實現(xiàn)突破:機器狗點滿敏捷值天賦,超高速穿越障礙,速度與安全兼?zhèn)洌?/h1>
在高速機器人運動領(lǐng)域,實現(xiàn)同時兼顧速度和安全一直是一大挑戰(zhàn)。但現(xiàn)在,卡內(nèi)基梅隆大學(xué)(CMU)和蘇黎世聯(lián)邦理工學(xué)院(ETH)的研究團隊帶來了突破性進展。他們開發(fā)的新型四足機器人算法,不僅能在復(fù)雜環(huán)境中高速行進,還能巧妙避開障礙,真正做到了「敏捷而安全」。
論文地址: https://arxiv.org/pdf/2401.17583.pdf
在 ABS 的加持下,機器狗在各種場景下都展現(xiàn)出了驚艷的高速避障能力:
障礙重重的狹窄走廊:
凌亂的室內(nèi)場景:
無論是草地還是戶外,靜態(tài)或動態(tài)障礙,機器狗都從容應(yīng)對:
遇見嬰兒車,機器狗靈巧躲閃開:
警告牌、箱子、椅子也都不在話下:
對于突然出現(xiàn)的墊子和人腳,也能輕松繞過:
ABS 突破性技術(shù):
RL+ Learning model-free Reach-Avoid value
ABS 采用了一種雙策略(Dual Policy)設(shè)置,包括一個「敏捷策略」(Agile Policy)和一個「恢復(fù)策略」(Recovery Policy)。敏捷策略讓機器人在障礙環(huán)境中快速移動,而一旦 Reach-Avoid Value Estimation 檢測到潛在危險(比如突然出現(xiàn)的嬰兒車),恢復(fù)策略就會介入,確保機器人安全。
創(chuàng)新點 1:怎么訓(xùn)練一個敏捷策略 Agile Policy?
敏捷策略的創(chuàng)新之處在于,與以往簡單地追蹤速度指令不同,它采用目標達成(position trakcing)的形式來最大化機器人的敏捷性。這一策略訓(xùn)練機器人發(fā)展出感知運動技能,以在沒有碰撞的情況下達到指定目標。通過追求基座高速度的獎勵條件,機器人自然學(xué)會在避免碰撞的同時實現(xiàn)最大敏捷性。這種方法克服了傳統(tǒng)速度追蹤(velocity tracking)策略在復(fù)雜環(huán)境中可能的保守限制,有效提高了機器人在障礙環(huán)境中的速度和安全性。Agile Policy 在實機測試中極速達到了 3.1m/s
創(chuàng)新點 2:學(xué)習(xí) Policy-conditioned reach-avoid value
「達防」(Reach-Avoid, RA)值學(xué)習(xí)的創(chuàng)新之處在于,它采用了無模型的方式學(xué)習(xí),與傳統(tǒng)的基于模型的可達性分析方法不同,更適合無模型的強化學(xué)習(xí)策略。此方法不是學(xué)習(xí)全局 RA 值,而是使其依賴于特定策略,這樣可以更好地預(yù)測敏捷策略的失敗。通過簡化的觀測集,RA 值網(wǎng)絡(luò)可以有效地概括并預(yù)測安全風(fēng)險。RA 值被用于指導(dǎo)恢復(fù)策略,幫助機器人優(yōu)化運動以避免碰撞,從而實現(xiàn)在保證安全的同時提高敏捷性的目標。
下圖展示了針對特定障礙物集合學(xué)習(xí)到的 RA(達防)值。隨著機器人速度的變化,RA 值的分布景觀也相應(yīng)變化。RA 值的符號合理地指示了敏捷策略的安全性。換句話說,這張圖通過不同的 RA 值展示了機器人在不同速度下,面對特定障礙物時的安全風(fēng)險程度。RA 值的高低變化反映了機器人在不同狀態(tài)下執(zhí)行敏捷策略時可能遇到的安全風(fēng)險。
創(chuàng)新點 3:用 Reach-Avoid Value 和恢復(fù)策略來拯救機器人
恢復(fù)策略的創(chuàng)新之處在于,它能使四足機器人快速追蹤線速度和角速度指令,作為一種備用保護策略。與敏捷策略不同,恢復(fù)策略的觀測空間專注于追蹤線速度和角速度命令,不需要外部感知信息?;謴?fù)策略的任務(wù)獎勵專注于線性速度追蹤、角速度追蹤、保持存活和保持姿勢,以便平滑切換回敏捷策略。這種策略的訓(xùn)練同樣在仿真環(huán)境中進行,但有特定的域隨機化和課程設(shè)置,以更好地適應(yīng)可能觸發(fā)恢復(fù)策略的狀態(tài)。這種方法為四足機器人提供了在高速運動中快速應(yīng)對潛在失敗的能力。
下圖展示了當(dāng)恢復(fù)策略在兩個特定情況(I 和 II)下被觸發(fā)時,RA(達防)值景觀的可視化展示。這些可視化展示是在 vx(沿 x 軸的速度)與 ωz(繞 z 軸的角速度)平面以及 vx 與 vy(沿 y 軸的速度)平面上進行的。圖中顯示了搜索前的初始旋轉(zhuǎn)狀態(tài)(即機器人基座當(dāng)前的旋轉(zhuǎn)狀態(tài))和通過搜索得到的命令。簡單來說,這些圖表展示了在特定條件下,通過恢復(fù)策略搜索得到的最佳運動指令,以及這些指令如何影響 RA 值,從而反映機器人在不同運動狀態(tài)下的安全性。
魯棒性測試
作者在「12kg 負載 / 籃球撞擊 / 腳踢 / 雪地」的四個場景下測試了 ABS 框架的魯棒性,機器狗都從容應(yīng)對:
研究團隊
這項研究是由 CMU 和 ETH 的研究團隊共同完成。團隊成員包括 Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu 和 Guanya Shi。他們的合作不僅在機器人技術(shù)領(lǐng)域取得了重大突破,更開啟了四足機器人新的應(yīng)用可能。這項技術(shù)的成功展示了四足機器人在高速移動和安全避障領(lǐng)域的巨大潛力。未來,這種高速且安全的四足機器人有望在搜救、探險甚至是家庭服務(wù)等多個領(lǐng)域發(fā)揮重要作用。