自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="xrv14"><p id="xrv14"></p></xmp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一套算法控制機器人軍團！純模擬環(huán)境強化學(xué)習(xí)，F(xiàn)igure學(xué)會像人一樣走路

作者：新智元 2025-04-15 09:15:00

人工智能新聞

Figure公司通過強化學(xué)習(xí)，成功實現(xiàn)機器人的自然步態(tài)。利用高效物理模擬器，僅用幾小時完成相當(dāng)于多年訓(xùn)練的數(shù)據(jù)，訓(xùn)練出的策略無需額外調(diào)整即可「零樣本」遷移至真實機器人。

現(xiàn)在訓(xùn)練機器人，都不需要真實數(shù)據(jù)了？

剛剛，F(xiàn)igure提出了一種全新的基于RL的端到端網(wǎng)絡(luò)。

只需要在純模擬環(huán)境中進(jìn)行訓(xùn)練，用幾個小時生成模擬數(shù)據(jù)，就能讓Figure 02像人類一樣自然行走了！

該方法的亮點如下：

在模擬環(huán)境中運用強化學(xué)習(xí)，讓機器人不斷試錯，學(xué)會像人類一樣走路。
通過高保真物理模擬器，僅用幾個小時，就模擬出多年的數(shù)據(jù)。
將模擬中的域隨機化與機器人上的高頻扭矩反饋相結(jié)合，無需微調(diào)，就能把模擬環(huán)境中的策略應(yīng)用于真實機器人。

更讓人驚喜的是，一個神經(jīng)網(wǎng)絡(luò)策略就能控制一大批機器人！

通過一個高保真物理模擬器，F(xiàn)igure最新的機器人僅用幾個小時，就能模擬出幾年的數(shù)據(jù)。

為了把模擬環(huán)境的訓(xùn)練成果應(yīng)用到真實機器人上，團隊采用了兩種辦法。

一是在模擬訓(xùn)練時進(jìn)行域隨機化，讓機器人接觸不同的物理屬性；二是在真實機器人上安裝高頻扭矩反饋裝置。

這樣一來，模擬環(huán)境中訓(xùn)練好的策略，無需任何微調(diào)，就可以「零樣本」遷移到真實硬件上。

在強化學(xué)習(xí)中，控制器通過不斷試錯，根據(jù)獎勵信號來調(diào)整自己的行為。

Figure在高保真模擬環(huán)境中訓(xùn)練RL控制器，運行數(shù)千個具有不同參數(shù)和場景的虛擬人形機器人。

這種多樣化的訓(xùn)練，使訓(xùn)練出的策略能直接用在真實的Figure 02機器人上，走出穩(wěn)健的人類步伐。

Figure基于RL的訓(xùn)練方法，大大縮短了開發(fā)時間，在現(xiàn)實世界中表現(xiàn)也很穩(wěn)定。

強化學(xué)習(xí)訓(xùn)練

用強化學(xué)習(xí)方法，在GPU加速的物理模擬環(huán)境中，訓(xùn)練行走控制器。

這個模擬環(huán)境效率超高，短短幾個小時就能收集到相當(dāng)于數(shù)年的模擬訓(xùn)練數(shù)據(jù)。

在模擬器中，數(shù)千個Figure 02機器人并行訓(xùn)練，每個機器人的物理參數(shù)都不一樣。

它們會遇到各種各樣的情況，像不同的地形，執(zhí)行器動力學(xué)變化，以及被絆倒、滑倒和推搡等。

這時，一個神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)控制所有的機器人。

人形機器人有個很大的優(yōu)勢，它的硬件平臺通用性很強，能執(zhí)行類似人類的任務(wù)。

不過，RL訓(xùn)練出來的策略，有時不是最佳的，沒辦法讓機器人走出人類走路的感覺，比如腳跟先著地、腳尖蹬地，手臂擺動和腿部動作的配合。

所以，在訓(xùn)練時，會獎勵那些走路軌跡像人的機器人，把偏好融入學(xué)習(xí)中。

這些軌跡為策略允許生成的行走風(fēng)格建立了先驗條件。

除了走路軌跡像人，研究者還設(shè)置了其他獎勵條件，比如優(yōu)化機器人速度跟蹤、功耗更低，更好地應(yīng)對外界干擾和地形變化。

從模擬到現(xiàn)實的跨越

最后一步，是把模擬環(huán)境中訓(xùn)練好的策略應(yīng)用到真實的機器人上。

模擬機器人只是高維機電系統(tǒng)的近似，在模擬環(huán)境中訓(xùn)練的策略只能保證在這些模擬機器人上有效，不一定能在真實機器人上正常工作。

為解決這個問題，在模擬訓(xùn)練時，采用域隨機化技術(shù)，隨機改變每個機器人的物理屬性，讓策略能適應(yīng)各種不同的情況。

這有助于策略零樣本泛化到真實機器人上，而無需任何額外的微調(diào)。

同時，在真實機器人上，用千赫茲速率扭矩反饋控制，來修正執(zhí)行器模型的誤差。

這樣，即使機器人之間有些差異，如地面摩擦力不同，或受到外界推搡，這個策略都具有魯棒性，能讓Figure 02機器人像人一樣行走。

可以看到，10個Figure 02機器人用得都是同一個RL神經(jīng)網(wǎng)絡(luò)。

說明現(xiàn)有的策略不用再做調(diào)整，就能推廣到大批機器人，對未來的大規(guī)模商業(yè)應(yīng)用是個好消息。

Figure Robotics

Figure Robotics是一家新興的機器人公司，專注于開發(fā)通用人形機器人，旨在通過先進(jìn)的人工智能擴展人類能力。

公司專注于構(gòu)建像人類一樣學(xué)習(xí)和推理的機器人。

Figure Robotics一開始與OpenAI合作，然而在內(nèi)部人工智能（Helix）方面取得「重大突破」后，于2025年2月結(jié)束了合作，F(xiàn)igure Robotics轉(zhuǎn)為自主開發(fā)Helix VLA模型。

Figure 02具有肉眼看起來最接近未來成熟形態(tài)的外形設(shè)計。

簡直和威爾史密斯《I,Robot》中的機器人如出一轍，渾圓的面罩模型也避免了恐怖谷效應(yīng)。

身高和體重也完美模擬一個成年男性。

當(dāng)機器人能像人類一樣學(xué)會自然行走，是否意味著也能像人一樣學(xué)會其他「自然」動作？

更加重要的一個「隱喻」是，目前所有的人形機器人都是按照人類的形態(tài)打造的。

這更加方便了未來機器人與人類生活的融合。

除了自然行走，機器人還有很多「人類技能」需要學(xué)習(xí)，但他們已經(jīng)在路上了。

責(zé)任編輯：張燕妮來源：新智元

AI 機器人訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="grwyy"></style>

<sub id="grwyy"><p id="grwyy"></p></sub>

<cite id="grwyy"><rp id="grwyy"></rp></cite>

<cite id="grwyy"></cite>

<sub id="grwyy"></sub>