自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Jim Fan全華人團隊HOVER問世,1.5M小模型讓機器人獲「潛意識」!

人工智能 新聞
來自英偉達、CMU、UC伯克利等的全華人團隊提出一個全新的人形機器人通用的全身控制器HOVER,僅用一個1.5M參數(shù)模型就可以控制人形機器人的身體。人形機器人的運動和操作之前只是外表看起來類人,現(xiàn)在有了HOVER,連底層運動邏輯都可以類人了!

1.5M參數(shù)模型就可以控制人形機器人的身體?!

英偉達高級科學家Jim Fan表示,并不是每個基礎模型都需要規(guī)模龐大。我們訓練了一個擁有150萬參數(shù)的神經(jīng)網(wǎng)絡來控制人形機器人的身體。

圖片

來自英偉達、CMU、UC伯克利等團隊提出了HOVER(Humanoid Versatile Controller),一個人形機器人通用的全身控制器。

圖片

對于人類來說,行走、保持平衡、將手臂和腿移動到期望的位置都需要大量的潛意識處理。

相應地,對于人形機器人來說,實現(xiàn)全身控制需要適應多種任務,比如導航、行走和桌面操作。

每種任務都需要不同的控制模式。例如,導航依賴于根速度(root velocity)或位置追蹤,而桌面操作則主要關注上半身關節(jié)角度的跟蹤。

現(xiàn)有的方法通常針對特定任務設計獨立策略,這不僅使機器人開發(fā)過程重復且耗時,還限制了最終全身控制器的多功能性。

例如,使用根速度跟蹤(root velocity tracking)在不平地形上進行兩足行走的機器人,在需要精確雙臂操作的任務中會遇到困難,因為這些任務可能需要關節(jié)角度或末端執(zhí)行器跟蹤。

所有這些運動控制模式都應用于同一個硬件平臺,自然會引出一個問題:能否創(chuàng)建一個支持所有控制模式的統(tǒng)一控制器,以結(jié)合每種模式的優(yōu)勢?

這并非一個簡單的挑戰(zhàn),因為每種模式在不同的指令空間內(nèi)運行,直接集成并不可行。

然而,盡管控制接口有所不同,其底層運動目標往往是一致的:即實現(xiàn)穩(wěn)定、類人的運動,以滿足人形機器人的控制需求。

由此,Jim Fan團隊提出一個關鍵見解:全身運動的動作模仿可以作為這些任務的共同抽象,為學習多種全身控制模式提供通用的運動技能。

在此基礎之上,他們提出了HOVER(Humanoid Versatile Controller,人形通用控制器),這是一個多模式策略蒸餾框架,能夠?qū)⒉煌目刂颇J秸蠟橐粋€統(tǒng)一的策略。

圖片

論文地址:https://arxiv.org/abs/2410.21229

HOVER支持在各控制模式之間的無縫切換,同時保留每種模式的獨特優(yōu)勢,為人形機器人在廣泛的模式下提供了一種穩(wěn)健且可擴展的控制解決方案。

也就是說,Jim Fan團隊在HOVER中捕捉到了一種和人類相似的「潛意識」,這種「潛意識」能夠?qū)W習如何協(xié)調(diào)人形機器人的電機以支持各種運動和操作。

人形機器人的運動和操作之前只是外表看起來類人,現(xiàn)在有了HOVER,連底層運動邏輯都可以類人了!

HOVER能夠切實地消除為每個控制模式單獨重新訓練策略的需求,該方法提高了未來人形機器人應用的效率和靈活性。

圖片

相比之下,HOVER支持所有的控制模式

問題定義與分析

Jin Fan團隊將此問題表述為一個針對人形機器人控制的目標條件強化學習(RL)任務,并進行了人形機器人控制的指令空間設計。

指令空間包括兩個主要控制區(qū)域——上半身和下半身控制——并且整合了三種不同的控制模式:

1. 運動學位置跟蹤:機器人關鍵剛體點的目標三維位置。

2. 局部關節(jié)角度跟蹤:每個機器人馬達的目標關節(jié)角度。

3. 根追蹤:目標根速度、高度和姿態(tài),由橫滾、俯仰和偏航角指定。

圖片

高亮的方框表示正在被跟蹤的活動指令,而右側(cè)的虛線框所示的屏蔽機制可以選擇性地激活不同的指令空間,以適應各種任務需求

訓練過程

圖片

「Oracle」策略

在訓練HOVER策略之前,首先通過大量人類運動數(shù)據(jù)訓練一個「Oracle」策略,使其能夠模仿人類的全身運動。

這一過程包括設計狀態(tài)空間、獎勵系統(tǒng)以及應用域隨機化來支持從仿真到現(xiàn)實的轉(zhuǎn)換。

狀態(tài)空間設計:Oracle策略的狀態(tài)包括機器人身體的剛體位置、姿態(tài)、速度和上一時刻的動作歷史。同時引入目標狀態(tài),用來定義參考姿態(tài)和當前狀態(tài)的差異,為機器人提供詳細的運動目標。

獎勵設計:獎勵分為三部分:懲罰、正則化以及任務獎勵。具體權重和細節(jié)見下列表格,用以確保機器人能夠有效地執(zhí)行目標運動并減少誤差。

圖片

域隨機化:為了使仿真環(huán)境中學到的策略能夠成功轉(zhuǎn)移到現(xiàn)實中,對模擬環(huán)境中的物理參數(shù)進行隨機化,以提高模型在現(xiàn)實世界中的泛化能力。

策略蒸餾與DAgger算法的應用

在訓練Oracle策略后,使用「蒸餾」過程將Oracle策略中的技能轉(zhuǎn)移到HOVER策略中,以使其能夠?qū)崿F(xiàn)多模式控制。

這個過程通過DAgger算法完成,該算法是一種監(jiān)督學習方法,用于使學生策略的動作逐漸與Oracle策略對齊。

任務指令屏蔽:HOVER使用特定模式和稀疏性屏蔽來生成不同的任務指令模式,并通過這些屏蔽激活不同的指令空間組件,從而支持多模式控制。HOVER策略能夠在上半身和下半身的控制中選擇性地跟蹤某些關節(jié)和運動目標。

動作對齊與優(yōu)化:在每個時間步,學生策略從Oracle策略中獲取目標動作,通過最小化目標動作和當前動作的差距來更新自身,從而優(yōu)化策略的表現(xiàn)。此過程的核心是將Oracle策略的優(yōu)點有效地轉(zhuǎn)移到HOVER策略中,使其能夠支持多種控制模式的無縫切換。

實驗結(jié)果

實驗主要圍繞3個問題展開:

Q1:HOVER作為一種通用策略,能否在特定指令配置下表現(xiàn)優(yōu)于其他策略?

Q2:HOVER能否優(yōu)于其他多模式人形機器人控制器的訓練方法?

Q3:HOVER能否遷移到真實硬件上并執(zhí)行多樣的多模式控制?

A1:與特定控制模式的比較

與已有研究工作中特定控制模式策略的比較

Jim Fan團隊將HOVER策略在不同控制模式下的表現(xiàn)與相應的特定策略進行了比較。

例如,HOVER在ExBody模式下的表現(xiàn)通過固定屏蔽來匹配ExBody模式,并在整個數(shù)據(jù)集Q?上進行評估。

圖片

HOVER在各種控制模式下表現(xiàn)出優(yōu)越的泛化能力。在每個指令模式下,HOVER至少在12項指標中的7項上優(yōu)于此前工作的特定控制器,顯著性指標在下表中以粗體標出。

圖片

HOVER與基線方法在數(shù)據(jù)集Q?上的仿真運動模仿評估

HOVER在不同控制模式中的一致優(yōu)勢體現(xiàn)了其多功能性。此外,即使僅在單一控制模式下,基于Oracle策略的蒸餾方法仍優(yōu)于RL訓練的特定策略。

與其他常用控制模式特定策略的比較

除了前述基線之外,Jim Fan團隊還評估了四種附加模式:左手模式、右手模式、雙手模式和頭部模式。他們分別訓練了四個RL特定策略以單獨跟蹤這些模式。

圖片

左手模式、雙手模式、右手模式

下表的結(jié)果表明,HOVER在跟蹤特定指令配置的指標上持續(xù)優(yōu)于這些特定策略。

圖片

A2:與其他通用訓練方法的比較

Jim Fan團隊將HOVER與一種多模式RL基線進行比較,該基線采用相同的指令屏蔽過程,但從零開始以RL目標進行訓練。

在下圖中,他們評估了四項指標的跟蹤誤差:根部姿態(tài)、上半身關節(jié)角度、局部身體位置和全局身體位置,測量于八種不同模式下。

圖片

結(jié)果顯示,HOVER在32項指標和模式中的跟蹤誤差始終較低。這一性能提升表明,從跟蹤全身運動學的Oracle策略中蒸餾出通用全身控制器具有重要意義。

A3:真實環(huán)境評估

Jin Fan團隊進行了定量的跟蹤實驗和定性的行走測試,以評估HOVER多模式控制能力。

站立運動評估

他們在真實環(huán)境中評估HOVER的性能,測試了數(shù)據(jù)集Q?中的20種不同站立運動。

其中兩種運動在下圖中有視覺示例。如下圖中間所示,他們展示了根部俯仰運動的成功跟蹤;在下圖右側(cè)展示了全身運動學跟蹤,機器人能夠跟蹤高度動態(tài)的跑步運動。

圖片

下表中展示的定量指標表明,HOVER在12項指標中有11項優(yōu)于特定策略。

圖片

多模式評估

Jim Fan團隊還評估了HOVER在行走任務中的泛化能力。他們在操作過程中突然切換指令模式,以模擬真實場景。

如下圖(a)中,HOVER成功在前進行走時從ExBody模式切換到H2O模式;

圖片

(b)中,在執(zhí)行轉(zhuǎn)彎和后退行走時,從HumanPlus模式切換到OmniH2O模式。

圖片

此外,他們使用Vision Pro進行了一個真實的遠程操作演示,隨機屏蔽了頭部和手部的位置。例如,下圖(c)中間,機器人在頭部模式下僅跟蹤人的頭部位置,忽略揮動的手部動作。

圖片

結(jié)果表明,HOVER能夠在不同模式下平穩(wěn)地跟蹤運動,展示出其在真實場景中的穩(wěn)健性。

作者介紹

Tairan He

圖片

共同一作Tairan He是卡內(nèi)基梅隆大學機器人研究所的二年級博士生,由Guanya Shi教授和Changliu Liu教授指導。他同時也是NVIDIA GEAR小組的成員。該小組由Jim Fan和Yuke Zhu領導。

此前,他在上海交通大學獲得計算機科學學士學位,導師是Weinan Zhang。并曾在微軟亞洲研究院工作過一段時間。

他的研究目標是打造能改善每個人生活質(zhì)量的機器人;重點是如何為機器人構建數(shù)據(jù)飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應各種環(huán)境,具備通用性和敏捷性來完成各類實用任務;采用的是隨計算能力和數(shù)據(jù)規(guī)模擴展的機器學習方法。

Wenli Xiao

圖片

共同一作Wenli Xiao是卡內(nèi)基梅隆大學機器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導。

他目前在NVIDIA GEAR實驗室擔任研究實習生,與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。

此前,他在香港中文大學(深圳)獲得電子信息工程專業(yè)學士學位。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-10-31 14:10:00

機器人神經(jīng)網(wǎng)絡

2024-03-12 13:14:58

模型訓練

2009-06-18 08:00:50

機器人PR2馬拉松長跑

2019-08-01 15:34:24

機器人人工智能系統(tǒng)

2019-11-06 11:40:19

機器人人工智能系統(tǒng)

2025-04-09 08:00:00

人形機器人智能設備邊緣側(cè)AI計算

2020-12-31 06:55:37

機器人自然語言人工智能

2009-05-08 09:54:20

聯(lián)通WCDMA3G

2023-12-27 14:07:00

模型訓練

2025-03-19 10:26:10

2021-07-19 09:11:05

機器人人工智能算法

2022-12-29 18:07:25

DDD電話機器人

2015-08-27 16:31:50

facebook虛擬機器人m

2024-07-08 09:05:00

2017-03-28 17:18:20

2016-04-12 20:43:54

AlphaGo+投資機器人因果樹

2025-02-28 09:43:00

2020-10-15 15:42:00

人工智能

2021-07-21 17:24:28

OpenAI機器人AI

2021-06-07 08:28:26

人工智能AI機器人
點贊
收藏

51CTO技術棧公眾號