自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器人泛化能力大幅提升:HAMSTER層次化方法和VLA尺度軌跡預(yù)測(cè),顯著提升開放世界任務(wù)成功率

人工智能 新聞
在機(jī)器人操作中,收集真實(shí)環(huán)境下的演示數(shù)據(jù)成本往往極高,且對(duì)環(huán)境設(shè)置和硬件平臺(tái)有很強(qiáng)依賴性。

近年來,人工智能在視覺和自然語言處理方面取得了驚人的泛化能力,但在機(jī)器人操作領(lǐng)域,端到端方法往往需要大量昂貴的本域數(shù)據(jù),且難以在不同硬件平臺(tái)與開放場(chǎng)景下推廣。為此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通過層次化架構(gòu),在高層利用域外數(shù)據(jù)微調(diào)的大模型(VLM)生成二維路徑,中間表示解耦了任務(wù)規(guī)劃與具體執(zhí)行,讓低層控制模塊專注于實(shí)際動(dòng)作控制。實(shí)驗(yàn)表明,HAMSTER 在多種操作任務(wù)中都體現(xiàn)出更高的任務(wù)成功率與更好的跨平臺(tái)泛化性能,并顯著降低了對(duì)昂貴機(jī)器人演示數(shù)據(jù)的依賴。

圖片


  • 論文標(biāo)題:HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
  • 論文主頁:https://hamster-robot.github.io/
  • 論文鏈接:https://arxiv.org/abs/2502.05485
  •  Demo: http://hamster.a.pinggy.link

HAMSTER 這一研究成果獲得了業(yè)界專家的高度評(píng)價(jià)。谷歌 DeepMind 高級(jí)研究科學(xué)家 Ted Xiao 在社交媒體上表示:「在構(gòu)建機(jī)器人基礎(chǔ)模型時(shí),超越簡(jiǎn)單的自然語言具有巨大的潛力。軌跡是一種很好的實(shí)現(xiàn)方式,而HAMSTER已經(jīng)將軌跡條件策略擴(kuò)展到了VLA模型的規(guī)模!祝賀整個(gè)HAMSTER團(tuán)隊(duì)?!?/span>

圖片

1. 背景與挑戰(zhàn)

在機(jī)器人操作中,收集真實(shí)環(huán)境下的演示數(shù)據(jù)成本往往極高,且對(duì)環(huán)境設(shè)置和硬件平臺(tái)有很強(qiáng)依賴性。因此,若要實(shí)現(xiàn)開箱即用、跨平臺(tái)的機(jī)器人操作能力,僅僅依靠本域數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。另一方面,近年快速發(fā)展的多模態(tài)大模型(VLM)在視覺與語言理解方面已展現(xiàn)較好泛化能力,可通過微調(diào)來適應(yīng)機(jī)器人任務(wù)。然而,若讓大模型直接輸出低層動(dòng)作信號(hào),通常仍需海量且昂貴的機(jī)器人數(shù)據(jù),并且在實(shí)時(shí)控制與不同硬件遷移上存在諸多難點(diǎn)。

HAMSTER 針對(duì)上述問題提出了一種層次化思路:讓大模型只負(fù)責(zé)高層語義推斷與大體軌跡生成,而將精細(xì)的動(dòng)作控制交給低層模塊來完成。這不僅能充分利用外部(域外)數(shù)據(jù)的豐富性,也能在跨平臺(tái)環(huán)境下保持較強(qiáng)的可遷移性。

2. HAMSTER 的層次化方法

2.1 高層規(guī)劃:VLM 生成二維路徑

圖片

HAMSTER 的高層使用一個(gè)視覺 - 語言模型(VLM)來理解環(huán)境圖像和語言指令,并輸出 “二維路徑” 這一中間表示。具體來說,二維路徑記錄了末端執(zhí)行器在圖像平面上的運(yùn)動(dòng)軌跡以及抓取器的開合狀態(tài)。由于該表示與機(jī)器人具體關(guān)節(jié)、動(dòng)力學(xué)特性無關(guān),因而具備以下優(yōu)勢(shì):

  • 低歧義性、易標(biāo)注:可以從視頻、仿真或其他數(shù)據(jù)源中自動(dòng)提取手部或末端執(zhí)行器在圖像中的運(yùn)動(dòng)軌跡。
  • 跨平臺(tái)適用性:二維路徑不涉及具體硬件細(xì)節(jié),高層模型在不同機(jī)械臂或移動(dòng)平臺(tái)上都能保持一致的輸出形式。
  •   豐富表達(dá)能力:二維路徑不僅適用于簡(jiǎn)單的pick and place任務(wù),還能擴(kuò)展到諸如擦桌子、開抽屜、折毛巾、避障等更復(fù)雜的操作場(chǎng)景。

高層模型通過在大量 “域外” 數(shù)據(jù)上進(jìn)行微調(diào),學(xué)會(huì)將視覺與語言信息轉(zhuǎn)化為合理的操作軌跡。域外數(shù)據(jù)包括可從互聯(lián)網(wǎng)上獲取的視頻、仿真環(huán)境里機(jī)器人演示、以及其他機(jī)器人平臺(tái)的歷史數(shù)據(jù)等。這樣一來,系統(tǒng)對(duì)真實(shí)機(jī)器人數(shù)據(jù)的需求量顯著減少,卻能在新環(huán)境和新任務(wù)中保持較好的泛化能力。

2.2 低層執(zhí)行:基于路徑的精細(xì)控制

得到高層輸出的二維路徑后,低層控制模塊才會(huì)將其轉(zhuǎn)化為實(shí)際的動(dòng)作命令,包括抓取、放置等操作。低層通常結(jié)合少量本域機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)習(xí)如何在真實(shí)環(huán)境中根據(jù)三維信息實(shí)時(shí)調(diào)整,讓執(zhí)行軌跡與高層給出的二維路徑對(duì)齊并完成任務(wù)目標(biāo)。

這種 “高層規(guī)劃 + 低層執(zhí)行” 的分工,避免了端到端方案對(duì)昂貴數(shù)據(jù)的極度依賴,也利用了大模型的強(qiáng)泛化能力來處理更抽象和復(fù)雜的視覺與語言推理問題。

3. 實(shí)驗(yàn)設(shè)計(jì)與主要結(jié)果

圖片

研究團(tuán)隊(duì)在模擬環(huán)境與真實(shí)機(jī)器人平臺(tái)上對(duì) HAMSTER 進(jìn)行了多組測(cè)試,涵蓋多種類型的操作任務(wù)(如抓取、放置、推、按壓等),并在不同的視覺和指令變化條件下,驗(yàn)證其泛化性能。

  • 泛化能力:由于二維路徑與硬件無關(guān),同一高層 VLM 可以直接遷移到新的環(huán)境和硬件設(shè)置上,僅需對(duì)低層控制做少量適配;在視覺背景、光照條件以及語言指令多樣化的測(cè)試中,HAMSTER 依然能夠輸出合理的路徑規(guī)劃。由于低層控制只需跟隨高層 VLM 輸出的二維軌跡,所以能將技能泛化到新的任務(wù),對(duì)于各類環(huán)境變化的魯棒性也更強(qiáng)。
  • 數(shù)據(jù)效率:高層在海量域外數(shù)據(jù)上完成微調(diào),而低層只需少量真實(shí)機(jī)器人演示數(shù)據(jù),即可學(xué)到足夠的執(zhí)行能力,顯著降低了對(duì)昂貴本域數(shù)據(jù)的需求。
  • 任務(wù)成功率提升:與端到端大模型或傳統(tǒng)模仿學(xué)習(xí)方法相比,HAMSTER 在多個(gè)復(fù)雜操作任務(wù)上的成功率平均提升約 20%~30%。在一些高難度場(chǎng)景如涉及新物體時(shí),傳統(tǒng)端到端模型成功率不到 20%,HAMSTER 可達(dá) 80% 左右。
  • 推理速度與靈活度:高層只需在任務(wù)開始時(shí)或關(guān)鍵節(jié)點(diǎn)調(diào)用一次大模型來生成路徑,避免了在每一步動(dòng)作都調(diào)用大模型所帶來的計(jì)算開銷。在不犧牲精度的前提下,顯著提升了系統(tǒng)執(zhí)行效率和靈活性。

4. 未來展望

HAMSTER 在泛化能力和執(zhí)行效率上展現(xiàn)出顯著優(yōu)勢(shì),但仍有進(jìn)一步優(yōu)化的空間,以提升其在復(fù)雜環(huán)境中的適應(yīng)性和任務(wù)執(zhí)行能力:

1. 增強(qiáng)軌跡表示與高低層交互

目前的二維路徑難以表達(dá)深度、速度、力控制和旋轉(zhuǎn)角度等信息,低層模型需依賴額外推斷。未來可探索更豐富的軌跡表示,同時(shí)優(yōu)化高低層交互方式,提高信息傳遞的精度與效率。

2. 實(shí)現(xiàn)動(dòng)態(tài)路徑更新

現(xiàn)有高層模型通常在任務(wù)開始時(shí)生成路徑,缺乏對(duì)環(huán)境變化(如障礙物、目標(biāo)位置偏移等)的實(shí)時(shí)調(diào)整能力。未來可引入在線重規(guī)劃機(jī)制,使系統(tǒng)具備更強(qiáng)的自適應(yīng)性與魯棒性。

3. 利用大規(guī)模人類視頻數(shù)據(jù)

當(dāng)前高層模型訓(xùn)練主要依賴機(jī)器人數(shù)據(jù),而人類演示數(shù)據(jù)涵蓋更豐富的操作模式和任務(wù)類型。未來可探索直接從大規(guī)模人類視頻訓(xùn)練 VLM,以提升其對(duì)多樣化任務(wù)的理解與泛化能力。

隨著機(jī)器人基礎(chǔ)模型的發(fā)展,HAMSTER 的持續(xù)優(yōu)化將進(jìn)一步提升其在開放世界任務(wù)中的泛化能力,并增強(qiáng)跨環(huán)境、跨任務(wù)的穩(wěn)定性和擴(kuò)展性。

5. 結(jié)語

圖片

HAMSTER 通過引入一種易標(biāo)注且跨平臺(tái)友好的二維路徑作為中間表示,成功地將大模型的高層語義推理與底層的精細(xì)控制解耦開來,不僅減輕了對(duì)昂貴機(jī)器人操作數(shù)據(jù)的依賴,也在開放環(huán)境中展現(xiàn)了更強(qiáng)的泛化能力。實(shí)驗(yàn)結(jié)果證實(shí),HAMSTER 在任務(wù)成功率、數(shù)據(jù)效率和跨平臺(tái)適用性方面都具有顯著優(yōu)勢(shì)。

隨著多模態(tài)數(shù)據(jù)與模型能力的進(jìn)一步提升,類似 HAMSTER 的層次化架構(gòu)有望成為未來機(jī)器人系統(tǒng)的關(guān)鍵思路,在更多真實(shí)場(chǎng)景中實(shí)現(xiàn)跨平臺(tái)、跨任務(wù)的通用操作。通過讓高層專注于對(duì)任務(wù)語義和大致軌跡的推理,而低層則關(guān)注具體的運(yùn)動(dòng)與執(zhí)行細(xì)節(jié),機(jī)器人在可解釋性、可擴(kuò)展性與可靠性上都將邁出堅(jiān)實(shí)一步,為邁向真正的開放世界機(jī)器人操作奠定基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2023-08-23 12:33:51

機(jī)器人

2024-11-01 10:30:00

機(jī)器人模型

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2021-09-24 09:52:13

登陸頁面注冊(cè)流程設(shè)計(jì)

2022-04-02 18:37:25

面試

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2009-07-24 20:00:32

虛擬化數(shù)據(jù)中心SOA

2024-10-09 15:06:56

2020-07-29 10:20:24

技術(shù)研發(fā)指標(biāo)

2023-12-29 09:16:36

模型訓(xùn)練

2024-03-04 07:00:00

KubernetesIngress

2025-04-27 09:27:00

AI數(shù)據(jù)視頻

2023-08-21 13:30:18

預(yù)測(cè)機(jī)器學(xué)習(xí)

2024-10-22 18:42:58

2025-02-25 08:06:05

2025-01-22 13:40:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)