自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Figure機(jī)器人進(jìn)廠打工,8小時(shí)速成物流分揀大師!自研VLA模型全面升級(jí)

人工智能
Figure公司繼推出自研VLA模型Helix后,再度發(fā)力!最新展示的機(jī)器人包裹分揀技術(shù),僅用8小時(shí)訓(xùn)練數(shù)據(jù),就實(shí)現(xiàn)了超越人類的效率和精度。通過一系列架構(gòu)優(yōu)化,包括立體視覺、多尺度特征、自我校準(zhǔn)和運(yùn)動(dòng)模式,F(xiàn)igure機(jī)器人展現(xiàn)了驚人的學(xué)習(xí)和適應(yīng)能力。

踹掉OpenAI之后,F(xiàn)igure的迭代堪稱神速!

幾天前才發(fā)布了第一款自研視覺-語言-動(dòng)作(VLA)模型Helix,統(tǒng)一了感知、語言理解和學(xué)習(xí)控制。。

就在剛剛,他們又在一個(gè)全新場(chǎng)景中實(shí)現(xiàn)了機(jī)器人應(yīng)用的落地——物流包裹操作和分揀。

而且,只用了短短30天。

圖片圖片

圖片圖片

為了達(dá)到人類級(jí)別的速度、精確度和適應(yīng)性,F(xiàn)igure對(duì)自研模型Helix的系統(tǒng)1(S1),也就是底層視覺運(yùn)動(dòng)控制策略,做出了全面的改進(jìn):

  • 隱式立體視覺(implicit stereo vision):Helix系統(tǒng)1現(xiàn)在具有豐富的3D理解能力,實(shí)現(xiàn)更精確的深度感知運(yùn)動(dòng)。
  • 多尺度視覺表征(Multi-scale visual representation):底層策略可以捕捉精細(xì)細(xì)節(jié),同時(shí)保持場(chǎng)景層面的理解,實(shí)現(xiàn)更準(zhǔn)確的操作。
  • 學(xué)習(xí)式視覺本體感知(learned visual proprioception):每個(gè)Figure機(jī)器人現(xiàn)在都可以自我校準(zhǔn),使跨機(jī)器人遷移變得無縫。
  • 運(yùn)動(dòng)模式(sport mode):使用簡(jiǎn)單的測(cè)試時(shí)加速技術(shù),Helix 達(dá)到了比示范者更快的執(zhí)行速度,同時(shí)保持高成功率和靈巧度。

結(jié)果顯示,在這個(gè)特定場(chǎng)景中,僅需8小時(shí)精心策劃的示范數(shù)據(jù),就能產(chǎn)生靈活多變的操作策略。

只見,F(xiàn)igure機(jī)器人軍團(tuán)同時(shí)走向自己的工位,站成一排,同步開啟打工模式。

圖片圖片

看它靈活的雙手,拿起包裹后,識(shí)別物流碼逐一分揀。

圖片

整條流水線上,全由Figure完成,無需人類插手。

圖片圖片

值得一提的是,它們還會(huì)自我校準(zhǔn)。

圖片圖片

對(duì)此網(wǎng)友紛紛表示,「工廠工人將被迅速取代!」

還有網(wǎng)友感慨道,「將現(xiàn)有勞動(dòng)力轉(zhuǎn)換為機(jī)器人會(huì)比我們想象的要快得多?!?/span>

圖片圖片

圖片圖片

圖片圖片

極具挑戰(zhàn)性的物流場(chǎng)景

包裹處理和分揀是物流中的基本操作。這通常涉及將包裹從一條傳送帶轉(zhuǎn)移到另一條傳送帶,同時(shí)確保運(yùn)輸標(biāo)簽正確朝向以便掃描。

這項(xiàng)任務(wù)面臨幾個(gè)關(guān)鍵挑戰(zhàn):包裹的尺寸、形狀、重量和剛性(如硬盒或軟袋),都各不相同。

為此,系統(tǒng)必須能夠:

  • 確定抓取移動(dòng)物體的最佳時(shí)機(jī)和方法,并重新調(diào)整每個(gè)包裹的朝向使標(biāo)簽可見
  • 跟蹤持續(xù)移動(dòng)的傳送帶上眾多包裹的動(dòng)態(tài)流動(dòng),并保持高吞吐量
  • 實(shí)現(xiàn)自我調(diào)整,因?yàn)榄h(huán)境無法被完全預(yù)測(cè)

而這些,在仿真環(huán)境中是很難進(jìn)行復(fù)刻的。

值得注意的是,解決這些挑戰(zhàn)不僅是Figure業(yè)務(wù)的關(guān)鍵應(yīng)用,它還為Helix系統(tǒng)1帶來了全新的通用改進(jìn),從而使所有其他用例都從中受益。

圖片圖片

圖片圖片

圖片圖片

對(duì)Helix視覺-運(yùn)動(dòng)策略(系統(tǒng)1)的架構(gòu)改進(jìn)

視覺表征

此前的系統(tǒng)1依賴于單目視覺輸入,而現(xiàn)在的新系統(tǒng)采用了立體視覺主干網(wǎng)絡(luò),結(jié)合多尺度特征提取網(wǎng)絡(luò)來捕捉豐富的空間層次結(jié)構(gòu)。

新系統(tǒng)不再單獨(dú)處理每個(gè)攝像頭的圖像特征token,而是會(huì)在token化之前將兩個(gè)攝像頭的特征在多尺度立體網(wǎng)絡(luò)中合并,這樣保持了輸入到交叉注意力Transformer的視覺token總數(shù)不變,同時(shí)避免了額外的計(jì)算開銷。

多尺度特征使系統(tǒng)能夠同時(shí)識(shí)別精細(xì)細(xì)節(jié)和更廣泛的上下文信息,共同提升了基于視覺的控制可靠性。

圖片圖片

跨機(jī)器人遷移

在多個(gè)機(jī)器人上部署同一策略時(shí),需要解決因個(gè)體機(jī)器人硬件細(xì)微差異導(dǎo)致的觀測(cè)和動(dòng)作空間分布偏移問題。

這些差異主要包括傳感器校準(zhǔn)差異(影響輸入觀測(cè))和關(guān)節(jié)響應(yīng)特性(影響動(dòng)作執(zhí)行),若不進(jìn)行適當(dāng)補(bǔ)償,將會(huì)顯著影響策略性能。

尤其是在涉及高維度的整個(gè)上半身動(dòng)作空間時(shí),傳統(tǒng)的手動(dòng)機(jī)器人校準(zhǔn)方法難以適用于大規(guī)模機(jī)器人群組。

為解決這一問題,F(xiàn)igure訓(xùn)練了一個(gè)視覺本體感知模型,該模型完全基于每個(gè)機(jī)器人自身的視覺輸入來估計(jì)末端執(zhí)行器的六自由度(6D)姿態(tài)。

這種在線「自我校準(zhǔn)」機(jī)制使得跨機(jī)器人策略遷移能夠高效進(jìn)行,同時(shí)將停機(jī)時(shí)間降至最低。

圖1:可擴(kuò)展的實(shí)時(shí)視覺校準(zhǔn)技術(shù)實(shí)現(xiàn)強(qiáng)大的跨機(jī)器人遷移能力圖1:可擴(kuò)展的實(shí)時(shí)視覺校準(zhǔn)技術(shù)實(shí)現(xiàn)強(qiáng)大的跨機(jī)器人遷移能力

數(shù)據(jù)篩選

數(shù)據(jù)方面,F(xiàn)igure在篩選時(shí)排除了那些速度較慢、失誤或完全失敗的人類示范。

但有意保留了一些自然包含糾正行為的示范,前提是造成失敗的原因是環(huán)境的隨機(jī)因素,而非操作者的錯(cuò)誤。

與遠(yuǎn)程操作者密切合作,可以改進(jìn)和統(tǒng)一操控策略,并帶來顯著的性能提升。

推理階段操作加速

為了讓系統(tǒng)能夠接近并最終超越人類操作速度,F(xiàn)igure應(yīng)用了一種簡(jiǎn)單但有效的測(cè)試階段技術(shù),從而實(shí)現(xiàn)了比示范者更快的學(xué)習(xí)行為——對(duì)策略動(dòng)作塊輸出進(jìn)行插值(「運(yùn)動(dòng)模式」)。

其中,S1策略輸出動(dòng)作「塊」,即以200Hz頻率執(zhí)行的一系列機(jī)器人動(dòng)作。

在實(shí)踐中,可以在不修改訓(xùn)練程序的情況下實(shí)現(xiàn)20%的測(cè)試階段加速。

方法是,將一個(gè)[T x action_dim]的動(dòng)作塊(表示一個(gè)T毫秒的軌跡)線性重采樣為一個(gè)更短的[0.8 * T x action_dim]軌跡,然后以原始的200Hz控制率執(zhí)行這個(gè)更短的動(dòng)作塊。

結(jié)果與討論

使用標(biāo)準(zhǔn)化有效吞吐量* T_eff 來衡量系統(tǒng)性能,可以反映系統(tǒng)處理包裹的速度與訓(xùn)練數(shù)據(jù)中演示者速度的比值。(這一指標(biāo)考慮到了系統(tǒng)重置所花費(fèi)的時(shí)間)

例如,當(dāng)T_eff > 1.1時(shí),表示系統(tǒng)操作速度比訓(xùn)練所用的專家軌跡快10%。

立體視覺的重要性

圖2(a)展示了多尺度特征提取器和立體視覺輸入對(duì)系統(tǒng)T_eff的影響。

其中,多尺度特征提取和隱式立體輸入顯著提升了系統(tǒng)性能,立體視覺也顯著增強(qiáng)了系統(tǒng)處理各種尺寸包裹的穩(wěn)健性。

相比于非立體基線模型,立體模型實(shí)現(xiàn)了高達(dá)60%的吞吐量提升。

圖2:(a)不同視覺表示方法對(duì)系統(tǒng)性能影響的消融研究圖2:(a)不同視覺表示方法對(duì)系統(tǒng)性能影響的消融研究

此外,配備立體視覺的S1系統(tǒng)能夠成功處理系統(tǒng)從未訓(xùn)練過的平信封,表現(xiàn)出良好的泛化能力。

圖片圖片

機(jī)器人可以將信封分揀出來。

可以看出機(jī)器人的手部活動(dòng)十分靈活。

圖片圖片

質(zhì)量勝于數(shù)量

Figure發(fā)現(xiàn),對(duì)于單個(gè)應(yīng)用場(chǎng)景,數(shù)據(jù)質(zhì)量和一致性比數(shù)據(jù)數(shù)量更為重要。

如圖2(b)所示,盡管訓(xùn)練數(shù)據(jù)量減少了三分之一,但使用精心篩選的高質(zhì)量示范數(shù)據(jù)訓(xùn)練的模型仍然實(shí)現(xiàn)了40%更高的吞吐量。

圖2(b):數(shù)據(jù)篩選對(duì)有效吞吐量的影響圖2(b):數(shù)據(jù)篩選對(duì)有效吞吐量的影響

運(yùn)動(dòng)模式

通過線性重采樣技術(shù)(即「運(yùn)動(dòng)模式」)加速策略執(zhí)行,在提速不超過50%的范圍內(nèi)表現(xiàn)出奇地有效。這可能歸功于動(dòng)作輸出塊的高時(shí)間分辨率(200Hz)。

然而,當(dāng)速度提高超過50%時(shí),有效吞吐量開始大幅下降,因?yàn)閯?dòng)作變得過于不精確,系統(tǒng)需要頻繁重置。

圖3顯示,在速度提高50%的情況下,策略能夠?qū)崿F(xiàn)比其訓(xùn)練所基于的專家軌跡更快的物體處理速度(T_eff>1)。

圖片圖片

圖3:通過動(dòng)作塊重采樣實(shí)現(xiàn)測(cè)試階段加速。在測(cè)試階段速度提高50%的情況下,S1系統(tǒng)實(shí)現(xiàn)了比示范數(shù)據(jù)更高的有效吞吐量(T_eff>1)

跨機(jī)器人遷移

最后,通過利用學(xué)習(xí)型校準(zhǔn)和視覺本體感知模塊,F(xiàn)igure成功將最初僅在單個(gè)機(jī)器人數(shù)據(jù)上訓(xùn)練的策略應(yīng)用到多臺(tái)不同機(jī)器人上。

盡管各機(jī)器人間存在傳感器校準(zhǔn)差異和細(xì)微硬件不同,系統(tǒng)在所有平臺(tái)上仍保持了相當(dāng)一致的操作性能水平。

這種一致性凸顯了學(xué)習(xí)型校準(zhǔn)在減輕數(shù)據(jù)分布偏移方面的有效性,大大減少了繁瑣的單機(jī)器人重新校準(zhǔn)需求,使大規(guī)模部署變得更加實(shí)用。

總結(jié)

綜上,F(xiàn)igure展示了如何通過高質(zhì)量數(shù)據(jù)集,結(jié)合立體多尺度視覺、實(shí)時(shí)校準(zhǔn)和測(cè)試階段加速等架構(gòu)優(yōu)化,在實(shí)際物流優(yōu)先級(jí)分揀場(chǎng)景中實(shí)現(xiàn)超越示范者速度的靈巧機(jī)器人操作——這一切僅使用了相對(duì)適量的示范數(shù)據(jù)。

研究結(jié)果表明,端到端視覺-運(yùn)動(dòng)控制策略在速度和精度至關(guān)重要的復(fù)雜工業(yè)應(yīng)用中具有巨大的擴(kuò)展?jié)摿Α?/span>

參考資料:https://www.figure.ai/news/helix-logistics

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-02-28 09:20:00

2024-05-06 11:55:27

Optimus人形機(jī)器人人工智能

2020-09-17 13:17:04

QA機(jī)器人物流

2024-05-06 13:04:21

模型數(shù)據(jù)

2024-10-31 14:15:58

2023-12-23 23:16:36

機(jī)器人模型

2025-01-02 14:30:00

AI訓(xùn)練模型

2025-03-20 13:19:04

2025-02-05 09:02:49

2021-08-11 10:51:38

機(jī)器人智慧物流物流

2020-09-17 13:07:16

阿里物流機(jī)器人

2017-04-08 18:18:20

申通快遞機(jī)器人

2024-04-08 13:47:21

騰訊云存儲(chǔ)云存儲(chǔ)AIGC

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2025-03-10 13:31:28

2022-03-25 20:00:40

人工智能機(jī)器人

2025-02-21 14:53:40

2024-12-25 10:58:29

2019-09-11 10:23:24

操作系統(tǒng)人工智能機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)