自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機器人8小時速成物流分揀員!Figure-02大規(guī)模上崗只用30天

人工智能 新聞
Figure推出了端到端通用控制模型——Helix,能讓機器人像人一樣感知、理解和行動。

好家伙!

機器人已入廠打工分揀快遞,手法嫻熟和人類一模一樣。

前幾天,F(xiàn)igure推出了端到端通用控制模型——Helix,能讓機器人像人一樣感知、理解和行動。

現(xiàn)在,是時候檢驗最新成果了。

視頻中,一批Figure 02走上生產(chǎn)一線,秩序井然地分揀快遞,還能正確調(diào)整條形碼位置以供機器掃描……

最重要的是,按照官方說法,此次場景微調(diào)只用了30天。而作為對比,第一個客戶案例用了12個月之久。

端到端學(xué)習(xí)方法讓Figure的機器人能夠快速學(xué)習(xí)新任務(wù)!

圖片

面對如此進化速度,網(wǎng)友們直呼:我們完啦!

圖片

背后關(guān)鍵:改進了Helix系統(tǒng)1

除了視頻,針對本次實驗的高速、小包裝物流場景,F(xiàn)igure還公開了Helix進展的最新報告。

圖片

在和OpenAI斷交之后,就在上周五,F(xiàn)igure公布了首個成果Helix。

作為一個端到端通用控制模型,只需自然語言提示,機器人就能拿起任何東西,哪怕是從沒見過的東西(比如這個活潑的小仙人掌)。

圖片

更有意思的是,兩個機器人也可以共同協(xié)作,而且用的是同一組神經(jīng)網(wǎng)絡(luò)。

圖片

根據(jù)當(dāng)時的介紹,Helix主要由兩個系統(tǒng)組成,兩個系統(tǒng)經(jīng)過端到端訓(xùn)練,并且可以進行通信。

  • 系統(tǒng)1:80M參數(shù)的交叉注意力Transformer,用于處理底層控制。
  • 系統(tǒng)2:基于在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的7B開源VLM,用于場景理解和語言理解。

圖片

而這一次,F(xiàn)igure在物流場景重點對系統(tǒng)1(底層控制)進行了一系列改進

1、隱式立體視覺(Implicit stereo vision):增強了3D空間感知,使機器人動作更精準(zhǔn);

2、多尺度視覺表示(Multi-scale visual representation):結(jié)合細節(jié)和整體場景理解,提高操作精度;

3、學(xué)習(xí)視覺本體感知(Learned visual proprioceptio):每個Figure機器人現(xiàn)在都可以自我校準(zhǔn),簡化跨機器人技能遷移;

4、運動模式(Sport mode):使用簡單的test-time加速技術(shù),同時保持高成功率和更快的執(zhí)行速度。

最重要的是,F(xiàn)igure針對該特定場景,進一步探討了數(shù)據(jù)質(zhì)量和數(shù)量之間的權(quán)衡關(guān)系,并初步發(fā)現(xiàn):

僅用8小時精心挑選的數(shù)據(jù)就能訓(xùn)練出一個靈活且適應(yīng)性強的策略。

下面具體展開。

在物流場景下,關(guān)鍵環(huán)節(jié)包括包裝處理和分類,主要是需要將包裹在傳送帶上轉(zhuǎn)移并確保標(biāo)簽正確掃描。

聽起來是不是很簡單,但如果要讓機器人取代人類來完成這項工作,面臨的挑戰(zhàn)在于:

包裹的尺寸、形狀、重量等各異,機器人不僅要能拿起來,而且需要確定最佳抓取和轉(zhuǎn)移時間,甚至放錯了之后還能立馬糾正。

為了實現(xiàn)上述目標(biāo),F(xiàn)igure首先改進了Helix系統(tǒng)1的視覺能力

新一代系統(tǒng)1通過采用立體視覺骨干網(wǎng)絡(luò)和多尺度特征提取網(wǎng)絡(luò)來增強其空間理解能力。

簡單說,系統(tǒng)不再獨立處理來自每個攝像頭的圖像特征,而是首先在多尺度立體網(wǎng)絡(luò)中合并兩個攝像頭的特征,然后再進行標(biāo)記化(Tokenize)處理。

這樣做的好處是,保持了輸入到交叉注意力transformer的視覺tokens總數(shù)不變,避免了計算開銷。

同時,多尺度特征提取網(wǎng)絡(luò)能夠同時捕捉到細節(jié)和更廣泛的上下文信息,這有助于提高操作的準(zhǔn)確性和可靠性。

圖片

此外,為了解決在多個機器人上部署統(tǒng)一策略時遇到的挑戰(zhàn),以及如何通過在線自我校準(zhǔn)來實現(xiàn)跨機器人策略遷移。

例如由于機器人硬件差異導(dǎo)致的觀察和動作空間的分布偏移,傳統(tǒng)的手動校準(zhǔn)方法不適用于大規(guī)模機器人群體。

Figure訓(xùn)練了一個視覺自體感覺模型(visual proprioception model),這個模型可以讓每個機器人通過自身的視覺輸入來自我校準(zhǔn),估算出機械臂末端(即抓取物體的部分)的精確位置和姿態(tài)。

并且這種自我校準(zhǔn)是在線進行的,也就是說機器人可以在工作的同時進行校準(zhǔn),這樣就能最大程度地減少因校準(zhǔn)而需要停止工作的時間。

圖片

順便一提,訓(xùn)練過程中,F(xiàn)igure排除了那些較慢的、遺漏的或失敗的案例,不過特意保留了包含糾正行為的案例(非遙控操作員導(dǎo)致,自然產(chǎn)生)。

最后,為了達到并超過人類的操作速度,F(xiàn)igure采用了一種被稱為“運動模式”的test-time加速技術(shù)。

具體來說,他們讓系統(tǒng)1以每秒200次的頻率輸出一系列動作,這些動作被稱為動作“塊”(action “chunks”)。

然后采用了一種插值方法來加速這些動作塊的執(zhí)行。插值是一種數(shù)學(xué)方法,可以在原有數(shù)據(jù)點之間生成新的數(shù)據(jù)點。在這里,他們將原本的動作塊(比如代表T毫秒的動作)通過插值縮短為0.8T毫秒的動作塊,但是仍然以每秒200次的頻率執(zhí)行這些縮短后的動作塊。

這種方法不需要改變機器人的訓(xùn)練過程,只是在test-time對動作執(zhí)行進行加速。通過這種方法,F(xiàn)igure機器人能夠在實際測試中實現(xiàn)高達20%的速度提升。

Figure創(chuàng)始人:未來四年交付10萬臺

總之,技術(shù)升級讓Figure走進工廠的速度更快了。

官方提到的第1個客戶,應(yīng)該是指去年8月發(fā)布的Figure 02進寶馬工廠從事汽車裝配的事兒。

圖片

當(dāng)時寶馬工廠花了12個月才給機器人安排好合適的工作,而這一次,機器人正式上崗物流僅用了30天時間。

也難怪Figure創(chuàng)始人有底氣宣布,未來四年要交付10萬臺人形機器人

圖片

另一方面,隨著國內(nèi)外各家機器人紛紛“進廠打工”,大家逐漸達成了一個共識:

2025是機器人量產(chǎn)關(guān)鍵之年

從各家demo來看,人形機器人的技術(shù)已基本成熟,因此接下來的爭奪主要圍繞量產(chǎn)展開,而且要往實際生產(chǎn)場景走了。

比如在一家上海機器人工廠內(nèi),大批“未來工人”正在生產(chǎn)ing。

圖片

嗯,都卷起來吧!

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-27 12:12:28

2020-10-19 08:32:04

AI機器人

2017-05-12 15:00:38

無人機機器人物流

2021-01-13 20:41:34

AI

2021-03-26 16:00:20

機器人AI人工智能

2020-09-17 13:17:04

QA機器人物流

2012-06-05 00:26:58

程序員

2023-11-27 19:14:41

2021-07-19 18:02:23

機器人導(dǎo)游智能機器人

2020-12-08 10:15:55

機器人人工智能就業(yè)

2020-10-22 20:00:27

AI機器人人工智能

2021-02-02 09:22:25

AI

2019-11-22 11:45:56

極智嘉

2025-02-05 09:02:49

2017-09-18 13:06:54

機器人AI人工智能

2017-04-08 18:18:20

申通快遞機器人

2018-05-23 20:33:11

2021-08-11 10:51:38

機器人智慧物流物流
點贊
收藏

51CTO技術(shù)棧公眾號