一套算法控制機器人軍團!純模擬環(huán)境強化學(xué)習(xí),F(xiàn)igure學(xué)會像人一樣走路
現(xiàn)在訓(xùn)練機器人,都不需要真實數(shù)據(jù)了?
剛剛,F(xiàn)igure提出了一種全新的基于RL的端到端網(wǎng)絡(luò)。
只需要在純模擬環(huán)境中進(jìn)行訓(xùn)練,用幾個小時生成模擬數(shù)據(jù),就能讓Figure 02像人類一樣自然行走了!
該方法的亮點如下:
- 在模擬環(huán)境中運用強化學(xué)習(xí),讓機器人不斷試錯,學(xué)會像人類一樣走路。
- 通過高保真物理模擬器,僅用幾個小時,就模擬出多年的數(shù)據(jù)。
- 將模擬中的域隨機化與機器人上的高頻扭矩反饋相結(jié)合,無需微調(diào),就能把模擬環(huán)境中的策略應(yīng)用于真實機器人。
更讓人驚喜的是,一個神經(jīng)網(wǎng)絡(luò)策略就能控制一大批機器人!
通過一個高保真物理模擬器,F(xiàn)igure最新的機器人僅用幾個小時,就能模擬出幾年的數(shù)據(jù)。
為了把模擬環(huán)境的訓(xùn)練成果應(yīng)用到真實機器人上,團隊采用了兩種辦法。
一是在模擬訓(xùn)練時進(jìn)行域隨機化,讓機器人接觸不同的物理屬性;二是在真實機器人上安裝高頻扭矩反饋裝置。
這樣一來,模擬環(huán)境中訓(xùn)練好的策略,無需任何微調(diào),就可以「零樣本」遷移到真實硬件上。
在強化學(xué)習(xí)中,控制器通過不斷試錯,根據(jù)獎勵信號來調(diào)整自己的行為。
Figure在高保真模擬環(huán)境中訓(xùn)練RL控制器,運行數(shù)千個具有不同參數(shù)和場景的虛擬人形機器人。
這種多樣化的訓(xùn)練,使訓(xùn)練出的策略能直接用在真實的Figure 02機器人上,走出穩(wěn)健的人類步伐。
Figure基于RL的訓(xùn)練方法,大大縮短了開發(fā)時間,在現(xiàn)實世界中表現(xiàn)也很穩(wěn)定。
強化學(xué)習(xí)訓(xùn)練
用強化學(xué)習(xí)方法,在GPU加速的物理模擬環(huán)境中,訓(xùn)練行走控制器。
這個模擬環(huán)境效率超高,短短幾個小時就能收集到相當(dāng)于數(shù)年的模擬訓(xùn)練數(shù)據(jù)。
在模擬器中,數(shù)千個Figure 02機器人并行訓(xùn)練,每個機器人的物理參數(shù)都不一樣。
它們會遇到各種各樣的情況,像不同的地形,執(zhí)行器動力學(xué)變化,以及被絆倒、滑倒和推搡等。
這時,一個神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)控制所有的機器人。
人形機器人有個很大的優(yōu)勢,它的硬件平臺通用性很強,能執(zhí)行類似人類的任務(wù)。
不過,RL訓(xùn)練出來的策略,有時不是最佳的,沒辦法讓機器人走出人類走路的感覺,比如腳跟先著地、腳尖蹬地,手臂擺動和腿部動作的配合。
所以,在訓(xùn)練時,會獎勵那些走路軌跡像人的機器人,把偏好融入學(xué)習(xí)中。
這些軌跡為策略允許生成的行走風(fēng)格建立了先驗條件。
除了走路軌跡像人,研究者還設(shè)置了其他獎勵條件,比如優(yōu)化機器人速度跟蹤、功耗更低,更好地應(yīng)對外界干擾和地形變化。
從模擬到現(xiàn)實的跨越
最后一步,是把模擬環(huán)境中訓(xùn)練好的策略應(yīng)用到真實的機器人上。
模擬機器人只是高維機電系統(tǒng)的近似,在模擬環(huán)境中訓(xùn)練的策略只能保證在這些模擬機器人上有效,不一定能在真實機器人上正常工作。
為解決這個問題,在模擬訓(xùn)練時,采用域隨機化技術(shù),隨機改變每個機器人的物理屬性,讓策略能適應(yīng)各種不同的情況。
這有助于策略零樣本泛化到真實機器人上,而無需任何額外的微調(diào)。
同時,在真實機器人上,用千赫茲速率扭矩反饋控制,來修正執(zhí)行器模型的誤差。
這樣,即使機器人之間有些差異,如地面摩擦力不同,或受到外界推搡,這個策略都具有魯棒性,能讓Figure 02機器人像人一樣行走。
可以看到,10個Figure 02機器人用得都是同一個RL神經(jīng)網(wǎng)絡(luò)。
說明現(xiàn)有的策略不用再做調(diào)整,就能推廣到大批機器人,對未來的大規(guī)模商業(yè)應(yīng)用是個好消息。
Figure Robotics
Figure Robotics是一家新興的機器人公司,專注于開發(fā)通用人形機器人,旨在通過先進(jìn)的人工智能擴展人類能力。
公司專注于構(gòu)建像人類一樣學(xué)習(xí)和推理的機器人。
Figure Robotics一開始與OpenAI合作,然而在內(nèi)部人工智能(Helix)方面取得「重大突破」后,于2025年2月結(jié)束了合作,F(xiàn)igure Robotics轉(zhuǎn)為自主開發(fā)Helix VLA模型。
Figure 02具有肉眼看起來最接近未來成熟形態(tài)的外形設(shè)計。
簡直和威爾史密斯《I,Robot》中的機器人如出一轍,渾圓的面罩模型也避免了恐怖谷效應(yīng)。
身高和體重也完美模擬一個成年男性。
當(dāng)機器人能像人類一樣學(xué)會自然行走,是否意味著也能像人一樣學(xué)會其他「自然」動作?
更加重要的一個「隱喻」是,目前所有的人形機器人都是按照人類的形態(tài)打造的。
這更加方便了未來機器人與人類生活的融合。
除了自然行走,機器人還有很多「人類技能」需要學(xué)習(xí),但他們已經(jīng)在路上了。