3倍提速!現(xiàn)在你跑不過(guò)機(jī)器狗了,限制波士頓動(dòng)力機(jī)器狗的竟然是電池功率?
當(dāng) Scaling Law 在觸頂邊界徘徊之時(shí),強(qiáng)化學(xué)習(xí)為構(gòu)建更強(qiáng)大的大模型開辟出了一條新范式。
在機(jī)器人領(lǐng)域,強(qiáng)化學(xué)習(xí)也帶來(lái)了意外之喜。
這只上過(guò)好幾次全網(wǎng)熱搜的機(jī)器狗 Spot,想必大家都不陌生。
在原來(lái)的文章中,無(wú)論 Spot 做了什么高難度動(dòng)作,哪怕是邊噴火邊跳踢踏舞,后臺(tái)總有留言,「為什么波士頓動(dòng)力不把機(jī)器人的腳做成輪式的?」
這是因?yàn)?Spot 總是優(yōu)雅地、小心翼翼地踏著小碎步,沒(méi)辦法大步行走,相較于腳踩風(fēng)火輪的輪式機(jī)器狗,不僅速度跟不上,也更容易受到地形限制。
士別三日,當(dāng)刮目相看。幾個(gè)月不見(jiàn),Spot 的「小步舞曲」已經(jīng)成為過(guò)往,看看現(xiàn)在 Spot 大步流星的樣子,迅速敏捷,你和它賽跑都追不上了:
Spot 出廠時(shí)最快速度只有 1.6 米 / 秒。幾周前與波士頓動(dòng)力官宣合作的 RAI 研究所帶來(lái)了最新突破,Spot 的跑步速度提升了近 3 倍,達(dá)到了時(shí)速 18.7 千米。
一只小型犬的平均奔跑速度大概是 20 千米 / 時(shí),這兩個(gè)數(shù)字已經(jīng)很接近了。
在傳統(tǒng)觀念中,大家可能認(rèn)為機(jī)器人的速度主要受限于馬達(dá)性能。但當(dāng)研究團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)對(duì)機(jī)器狗的電機(jī)和動(dòng)力裝置建模之后,發(fā)現(xiàn)了一個(gè)出人意料的事實(shí)。
在模擬環(huán)境中,可以并行訓(xùn)練幾臺(tái) Spot 機(jī)器人(甚至幾百臺(tái)),以實(shí)現(xiàn)強(qiáng)大的現(xiàn)實(shí)世界性能。
「真正限制 Spot 速度的,竟然是電池供電能力!」RAI 研究所的機(jī)器人專家 Farbod Farshidian 說(shuō)道,「這個(gè)發(fā)現(xiàn)讓我們都很驚訝,因?yàn)橹岸家詾闄C(jī)器人的運(yùn)動(dòng)速度提不上去是在馬達(dá)的功率或扭矩之類的問(wèn)題?!?/span>
Spot 的電力系統(tǒng)相當(dāng)復(fù)雜,仍有進(jìn)一步優(yōu)化的空間。Farshidian 指出,阻止他們將 Spot 的最高速度推過(guò) 5.2 米 / 秒的唯一原因是他們無(wú)法訪問(wèn)電池電壓,無(wú)法將這些實(shí)際數(shù)據(jù)納入他們的 RL 模型。
這意味著,如果能設(shè)計(jì)出更強(qiáng)勁的電池,Spot 的還能跑得更快。
有趣的是,當(dāng) Spot 以這個(gè)速度奔跑時(shí),它的動(dòng)作看起來(lái)和真實(shí)的狗完全不同。Farshidian 解釋說(shuō):「這個(gè)奔跑姿態(tài)確實(shí)不像生物,但這很正常 ——Spot 的驅(qū)動(dòng)器和關(guān)節(jié)結(jié)構(gòu)都和真狗不一樣,為什么要用生物的方式來(lái)跑呢?」
Spot 的執(zhí)行器不同于肌肉,運(yùn)動(dòng)學(xué)特性也不同,適合狗快速奔跑的步態(tài)不一定適合機(jī)器狗。
Spot 提速的關(guān)鍵在于,研究人員在小跑步態(tài)的基礎(chǔ)上,增加了一個(gè)四只腳同時(shí)離地的飛行階段。小步和飛行銜接起來(lái),從技術(shù)上就變成了奔跑。
四腳離地的「飛行」階段
Farshidian 說(shuō):「這個(gè)飛行階段是必要的,因?yàn)闄C(jī)器人需要這段時(shí)間快速向前移動(dòng)腳步來(lái)維持速度?!寡芯咳藛T給機(jī)器人了「自主發(fā)現(xiàn)的空間」,因?yàn)檫@時(shí),編程程序所要求的不是「奔跑」,而是去找到最高效的快速移動(dòng)方式。
傳統(tǒng)的機(jī)器人控制使用模型預(yù)測(cè)控制(MPC)方法,就像給機(jī)器人一本詳細(xì)的「動(dòng)作指南」。這種方法很可靠,但也很保守。
這由于要求計(jì)算機(jī)要在事件發(fā)生后立即響應(yīng),一旦沒(méi)有在短時(shí)間內(nèi)完成復(fù)雜的運(yùn)動(dòng)規(guī)劃和控制,反映到機(jī)器人這里就是動(dòng)作遲緩或出錯(cuò)了。
而強(qiáng)化學(xué)習(xí)則完全不同。它就像讓機(jī)器人在「虛擬道場(chǎng)」中不斷練習(xí),找到最優(yōu)的動(dòng)作方案。一旦學(xué)會(huì)了,這些技能就能直接應(yīng)用到現(xiàn)實(shí)中。
強(qiáng)化學(xué)習(xí)不僅能最大化機(jī)器人的性能,還能使其表現(xiàn)更加可靠。RAI 研究所一直在實(shí)驗(yàn)一款全新的機(jī)器人 —— 一輛名為 UMV 的自行車。它采用了與 Spot 高速奔跑時(shí)基本相同的強(qiáng)化學(xué)習(xí) RL 流程,用于平衡和駕駛訓(xùn)練,并成功學(xué)會(huì)了跑酷動(dòng)作。
更值得注意的是,UMV 沒(méi)有配備任何平衡陀螺儀,而是完全依靠 AI 來(lái)保持平衡的。
「強(qiáng)化學(xué)習(xí)的關(guān)鍵在于發(fā)現(xiàn)新的行為,并在那些難以建模的復(fù)雜條件下使其變得穩(wěn)健和可靠。這正是強(qiáng)化學(xué)習(xí)真正大放異彩的地方?!筊AI 研究所蘇黎世辦公室主任 Marco Hutter 表示,「一方面,強(qiáng)化學(xué)習(xí)幫助 UMV 在各種情況下保持穩(wěn)定的駕駛能力;另一方面,它讓我們理解機(jī)器人的動(dòng)態(tài),更好地實(shí)現(xiàn)一些新動(dòng)作,比如跳上比它本身還高的桌子?!?/span>
雖然 UMV 已經(jīng)能很熟練地做各種特技動(dòng)作了,但對(duì)于它來(lái)說(shuō),完成一些看似簡(jiǎn)單的動(dòng)作甚至更難,比如倒車。
不太會(huì)倒車
「UMV 倒車時(shí)很不穩(wěn)定」,Hutter 解釋說(shuō),「使用經(jīng)典的模型預(yù)測(cè)控制(MPC)控制器很難做到這個(gè)動(dòng)作,尤其是地形崎嶇或有干擾的情況下?!?/span>
目前,RAI 研究所還在努力讓 UMV 走出實(shí)驗(yàn)室,在復(fù)雜地形上來(lái)一場(chǎng)真正的自行車跑酷表演。
在「虛擬道場(chǎng)」中訓(xùn)練 UMV 如何下樓梯
RAI 研究所表示,重點(diǎn)不在于這個(gè)某個(gè)特定的硬件能做什么,而在于任何機(jī)器人通過(guò) RL 和其他基于學(xué)習(xí)的方法能做什么。機(jī)器人的硬件在理論上可以實(shí)現(xiàn)比用經(jīng)典控制算法更多的功能。關(guān)鍵的問(wèn)題是如何理解這些硬件系統(tǒng)中的隱藏限制,不斷突破控制的邊界。