自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一套算法控制機器人軍團!純模擬環(huán)境強化學(xué)習(xí),F(xiàn)igure學(xué)會像人一樣走路

人工智能 新聞
Figure公司通過強化學(xué)習(xí),成功實現(xiàn)機器人的自然步態(tài)。利用高效物理模擬器,僅用幾小時完成相當(dāng)于多年訓(xùn)練的數(shù)據(jù),訓(xùn)練出的策略無需額外調(diào)整即可「零樣本」遷移至真實機器人。

現(xiàn)在訓(xùn)練機器人,都不需要真實數(shù)據(jù)了?

剛剛,F(xiàn)igure提出了一種全新的基于RL的端到端網(wǎng)絡(luò)。

只需要在純模擬環(huán)境中進(jìn)行訓(xùn)練,用幾個小時生成模擬數(shù)據(jù),就能讓Figure 02像人類一樣自然行走了!

圖片

該方法的亮點如下:

  • 在模擬環(huán)境中運用強化學(xué)習(xí),讓機器人不斷試錯,學(xué)會像人類一樣走路。
  • 通過高保真物理模擬器,僅用幾個小時,就模擬出多年的數(shù)據(jù)。
  • 將模擬中的域隨機化與機器人上的高頻扭矩反饋相結(jié)合,無需微調(diào),就能把模擬環(huán)境中的策略應(yīng)用于真實機器人。

圖片

更讓人驚喜的是,一個神經(jīng)網(wǎng)絡(luò)策略就能控制一大批機器人!

通過一個高保真物理模擬器,F(xiàn)igure最新的機器人僅用幾個小時,就能模擬出幾年的數(shù)據(jù)。

圖片

為了把模擬環(huán)境的訓(xùn)練成果應(yīng)用到真實機器人上,團隊采用了兩種辦法。

一是在模擬訓(xùn)練時進(jìn)行域隨機化,讓機器人接觸不同的物理屬性;二是在真實機器人上安裝高頻扭矩反饋裝置。

這樣一來,模擬環(huán)境中訓(xùn)練好的策略,無需任何微調(diào),就可以「零樣本」遷移到真實硬件上。

圖片

在強化學(xué)習(xí)中,控制器通過不斷試錯,根據(jù)獎勵信號來調(diào)整自己的行為。

Figure在高保真模擬環(huán)境中訓(xùn)練RL控制器,運行數(shù)千個具有不同參數(shù)和場景的虛擬人形機器人。

這種多樣化的訓(xùn)練,使訓(xùn)練出的策略能直接用在真實的Figure 02機器人上,走出穩(wěn)健的人類步伐。

Figure基于RL的訓(xùn)練方法,大大縮短了開發(fā)時間,在現(xiàn)實世界中表現(xiàn)也很穩(wěn)定。

強化學(xué)習(xí)訓(xùn)練

用強化學(xué)習(xí)方法,在GPU加速的物理模擬環(huán)境中,訓(xùn)練行走控制器。

這個模擬環(huán)境效率超高,短短幾個小時就能收集到相當(dāng)于數(shù)年的模擬訓(xùn)練數(shù)據(jù)。

在模擬器中,數(shù)千個Figure 02機器人并行訓(xùn)練,每個機器人的物理參數(shù)都不一樣。

它們會遇到各種各樣的情況,像不同的地形,執(zhí)行器動力學(xué)變化,以及被絆倒、滑倒和推搡等。

這時,一個神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)控制所有的機器人。

圖片

人形機器人有個很大的優(yōu)勢,它的硬件平臺通用性很強,能執(zhí)行類似人類的任務(wù)。

不過,RL訓(xùn)練出來的策略,有時不是最佳的,沒辦法讓機器人走出人類走路的感覺,比如腳跟先著地、腳尖蹬地,手臂擺動和腿部動作的配合。

所以,在訓(xùn)練時,會獎勵那些走路軌跡像人的機器人,把偏好融入學(xué)習(xí)中。

這些軌跡為策略允許生成的行走風(fēng)格建立了先驗條件。

除了走路軌跡像人,研究者還設(shè)置了其他獎勵條件,比如優(yōu)化機器人速度跟蹤、功耗更低,更好地應(yīng)對外界干擾和地形變化。

從模擬到現(xiàn)實的跨越

最后一步,是把模擬環(huán)境中訓(xùn)練好的策略應(yīng)用到真實的機器人上。

模擬機器人只是高維機電系統(tǒng)的近似,在模擬環(huán)境中訓(xùn)練的策略只能保證在這些模擬機器人上有效,不一定能在真實機器人上正常工作。

圖片

為解決這個問題,在模擬訓(xùn)練時,采用域隨機化技術(shù),隨機改變每個機器人的物理屬性,讓策略能適應(yīng)各種不同的情況。

這有助于策略零樣本泛化到真實機器人上,而無需任何額外的微調(diào)。

同時,在真實機器人上,用千赫茲速率扭矩反饋控制,來修正執(zhí)行器模型的誤差。

這樣,即使機器人之間有些差異,如地面摩擦力不同,或受到外界推搡,這個策略都具有魯棒性,能讓Figure 02機器人像人一樣行走。

可以看到,10個Figure 02機器人用得都是同一個RL神經(jīng)網(wǎng)絡(luò)。

圖片

說明現(xiàn)有的策略不用再做調(diào)整,就能推廣到大批機器人,對未來的大規(guī)模商業(yè)應(yīng)用是個好消息。

Figure Robotics

圖片

Figure Robotics是一家新興的機器人公司,專注于開發(fā)通用人形機器人,旨在通過先進(jìn)的人工智能擴展人類能力。

公司專注于構(gòu)建像人類一樣學(xué)習(xí)和推理的機器人。

Figure Robotics一開始與OpenAI合作,然而在內(nèi)部人工智能(Helix)方面取得「重大突破」后,于2025年2月結(jié)束了合作,F(xiàn)igure Robotics轉(zhuǎn)為自主開發(fā)Helix VLA模型。

Figure 02具有肉眼看起來最接近未來成熟形態(tài)的外形設(shè)計。

簡直和威爾史密斯《I,Robot》中的機器人如出一轍,渾圓的面罩模型也避免了恐怖谷效應(yīng)。

圖片

身高和體重也完美模擬一個成年男性。

當(dāng)機器人能像人類一樣學(xué)會自然行走,是否意味著也能像人一樣學(xué)會其他「自然」動作?

更加重要的一個「隱喻」是,目前所有的人形機器人都是按照人類的形態(tài)打造的。

這更加方便了未來機器人與人類生活的融合。

除了自然行走,機器人還有很多「人類技能」需要學(xué)習(xí),但他們已經(jīng)在路上了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-11-29 12:53:36

機器人物理MIT

2018-10-25 22:34:34

機器人人工智能系統(tǒng)

2023-02-23 15:35:14

人工智能ChatGPT聊天機器人

2024-12-25 10:58:29

2022-08-08 09:02:54

Meta聊天機器人智能

2021-04-23 15:13:16

算法模型技術(shù)

2024-09-05 08:23:58

2024-04-15 08:20:00

機器人技能

2025-03-27 09:19:57

機器人訓(xùn)練AI

2025-03-20 13:19:04

2020-03-09 10:00:35

人工智能機器學(xué)習(xí)技術(shù)

2019-02-15 10:38:30

機器人人工智能系統(tǒng)

2017-08-25 15:08:24

深度學(xué)習(xí)機器人

2022-04-11 15:21:24

機器人研究變形

2023-07-20 15:18:42

2024-02-04 13:43:49

模型訓(xùn)練

2022-10-21 17:30:26

機器人

2023-08-08 10:12:17

谷歌機器人

2015-03-16 12:50:44

2023-10-09 12:36:25

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號