自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UC伯克利等提出具身智能「動(dòng)作Tokenizer」,效率飆升5倍!

人工智能 新聞
研究者提出了FAST,一種高效的動(dòng)作Tokenizer。通過結(jié)合離散余弦變換(DCT)和字節(jié)對(duì)編碼(BPE),F(xiàn)AST顯著縮短了訓(xùn)練時(shí)間,并且能高效地學(xué)習(xí)和執(zhí)行復(fù)雜任務(wù),標(biāo)志著機(jī)器人自回歸Transformer訓(xùn)練的一個(gè)重要突破。

來自π,伯克利和斯坦福的研究者近期提出了FAST,一種為VLA模型設(shè)計(jì)的高效動(dòng)作Tokenizer。

FAST旨在解決傳統(tǒng)動(dòng)作Tokenization方法在處理精細(xì)任務(wù)時(shí)面臨的挑戰(zhàn),為VLA模型在更復(fù)雜、高頻的機(jī)器人控制任務(wù)帶來了顯著改進(jìn)。

將FAST與π0 VLA結(jié)合,在1萬小時(shí)的機(jī)器人數(shù)據(jù)上對(duì)π0-FAST進(jìn)行訓(xùn)練,效果與最先進(jìn)的擴(kuò)散VLA相當(dāng),訓(xùn)練時(shí)間最多縮短5倍。

圖片

論文鏈接:https://arxiv.org/abs/2501.09747

圖片

想訓(xùn)練Transformer來控制機(jī)器人,具體該怎么做?

Transformer輸出的動(dòng)作塊是一小段機(jī)器人動(dòng)作序列,例如手臂關(guān)節(jié)角度。對(duì)于不太精細(xì)的系統(tǒng),其動(dòng)作序列可能包含3-5個(gè)動(dòng)作;而對(duì)于高頻靈巧機(jī)器人,動(dòng)作序列可能會(huì)有20-50個(gè)動(dòng)作。

用合適的方法表示這些動(dòng)作,對(duì)于高效學(xué)習(xí)非常重要。

現(xiàn)有的VLA模型常用簡單的離散劃分方法,這種方法對(duì)于簡單的任務(wù)是可行的,但對(duì)于需要高精度和高頻控制的復(fù)雜精細(xì)技能,就不太管用了。

擴(kuò)散方法或流匹配通常展現(xiàn)出更好的性能,如π0模型。然而,擴(kuò)散方法的訓(xùn)練時(shí)間會(huì)更長。

那么,如何表示這些動(dòng)作,才能在保持靈活性和精確性的同時(shí),快速地訓(xùn)練Transformer呢?

為解決這個(gè)問題,Physical Intelligence提出一款專為機(jī)器人動(dòng)作設(shè)計(jì)的新型Tokenizer「FAST」。

圖片

借助FAST,研究者開發(fā)出了一種高效的機(jī)器人動(dòng)作Tokenization方法,讓機(jī)器人技術(shù)能夠與自回歸Transformer訓(xùn)練流程無縫銜接。

FAST能把動(dòng)作像語言一樣,用離散Token表示。FAST提升了從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的遷移能力,增強(qiáng)了機(jī)器人執(zhí)行語言指令的能力。

借助FAST,首次實(shí)現(xiàn)在DROID數(shù)據(jù)集上訓(xùn)練出只需通過簡單的自然語言命令,機(jī)器人就能在新環(huán)境中零樣本執(zhí)行多種操作任務(wù)。

圖片

FAST Tokenizer

用離散余弦變換(DCT)壓縮

FAST通過在訓(xùn)練前壓縮原始動(dòng)作塊,能顯著提升基于靈巧機(jī)器人數(shù)據(jù)的策略訓(xùn)練和推理效率。

FAST使用了一種基于離散余弦變換(DCT)的壓縮算法,來提高VLA模型的訓(xùn)練速度。DCT是一種頻域變換,因簡潔和計(jì)算高效,常用于壓縮算法,如JPEG圖像壓縮、MP3音頻的編解碼。

FAST Tokenization算法

研究者利用離散余弦變換(DCT)設(shè)計(jì)了FAST,它是一種快速且高效的機(jī)器人動(dòng)作Tokenization方法。下圖展示了從原始機(jī)器人動(dòng)作到動(dòng)作token的步驟。

圖片

首先,對(duì)輸入的動(dòng)作進(jìn)行歸一化。完成歸一化后,每個(gè)動(dòng)作維度分別應(yīng)用離散余弦變換(DCT)。

研究者用字節(jié)對(duì)編碼(BPE)壓縮DCT矩陣,BPE是訓(xùn)練LLM常用的壓縮算法。將DCT和字節(jié)對(duì)編碼(BPE)結(jié)合,就能把原始動(dòng)作塊壓縮成數(shù)量少但更密集的動(dòng)作Token。

通常每個(gè)動(dòng)作塊包含30-60個(gè)Token,和以前的動(dòng)作Tokenization方法相比,壓縮率提高了10倍。

圖片

通用機(jī)器人動(dòng)作Tokenizer

基于FAST,研究者發(fā)布了FAST+,這是通用的機(jī)器人動(dòng)作Tokenizer,用100萬個(gè)真實(shí)機(jī)器人動(dòng)作序列上訓(xùn)練而成。

FAST+ Tokenizer能高效地標(biāo)記各種機(jī)器人動(dòng)作序列,包括單臂、雙臂和移動(dòng)機(jī)器人。FAST+能當(dāng)黑盒Tokenizer,對(duì)各種機(jī)器人的動(dòng)作序列編碼,涵蓋多樣的動(dòng)作空間和控制頻率。

借助這個(gè)Tokenizer訓(xùn)練自己的策略,只需三行代碼即可實(shí)現(xiàn):

圖片

π0-FAST:開箱即用

研究者將FAST和π0模型結(jié)合進(jìn)行測試。

以往的離散化VLA模型只能處理簡單操作任務(wù)。但有了FAST,就能借助它訓(xùn)練自回歸Transformer策略,完成像折疊衣物、收拾餐桌、打包購物袋這類高難度的精細(xì)任務(wù)。同時(shí),模型的訓(xùn)練速度快了5倍。

下面是一些能用FAST策略解決的任務(wù)。

圖片

圖片

圖片

借助FAST,研究者首次在DROID數(shù)據(jù)集上訓(xùn)練出通用策略,能在新環(huán)境中對(duì)多種指令實(shí)現(xiàn)泛化執(zhí)行。

DROID數(shù)據(jù)集是一個(gè)由全球大型機(jī)器人研究聯(lián)盟歷經(jīng)兩年收集的開源數(shù)據(jù)集,包含多樣化的場景和機(jī)器人操作任務(wù),涵蓋從大學(xué)建筑到真實(shí)家庭等多種場景。

到目前為止,尚未有一種方法能在DROID數(shù)據(jù)集上訓(xùn)練出通用策略,在新環(huán)境中零樣本執(zhí)行語言指令。

但借助FAST,研究者實(shí)現(xiàn)了這一目標(biāo)。快來看看它的實(shí)際表現(xiàn)!

圖片

圖片

在美國三所大學(xué)(加州大學(xué)伯克利分校、斯坦福大學(xué)、華盛頓大學(xué))的測試環(huán)境中,都能直接完成簡單的操作任務(wù)。

即便在執(zhí)行任務(wù)失敗,它也會(huì)基于常識(shí)去嘗試解決問題。

圖片

圖片

雖然這一策略尚不完善,卻為我們描繪了未來的圖景:未來能直接下載并使用通用機(jī)器人模型,就像今天使用語言模型一樣。

實(shí)驗(yàn)結(jié)果

表中展示了FAST Tokenizer與先前方案在壓縮率方面的比較。

FAST對(duì)所有數(shù)據(jù)集的輸入動(dòng)作序列都實(shí)現(xiàn)了顯著壓縮,對(duì)高頻動(dòng)作數(shù)據(jù)的數(shù)據(jù)集壓縮效果更明顯。

圖片

基于100萬條真實(shí)機(jī)器人動(dòng)作序列訓(xùn)練的通用動(dòng)作Tokenizer FAST+與之前的VLA相比顯著提高了訓(xùn)練效率。

圖片

FAST+ Tokenizer在各類機(jī)器人數(shù)據(jù)集上有良好的壓縮性能,且在各種機(jī)器人形態(tài)、動(dòng)作空間和控制頻率范圍中都展現(xiàn)出有效性。

圖片

研究者借助FAST Tokenizer成功訓(xùn)練出首個(gè)自回歸通用策略π0-FAST。它基于之前的π0模型,沿用相同的模型架構(gòu)和訓(xùn)練數(shù)據(jù)集。

研究者把π0-FAST與最先進(jìn)的擴(kuò)散π0 VLA進(jìn)行對(duì)比。

總體而言,自回歸π0-FAST模型的表現(xiàn)與擴(kuò)散π0模型相當(dāng),即便在最具挑戰(zhàn)性的洗衣折疊任務(wù)上也是如此,且所需計(jì)算量顯著更少。

因其采用簡單的自回歸離散化方法,π0-FAST的收斂速度比擴(kuò)散π0模型快得多,所需的訓(xùn)練GPU小時(shí)數(shù)減少5倍。

對(duì)于最先進(jìn)的VLA訓(xùn)練,通常需數(shù)千個(gè)GPU小時(shí),計(jì)算資源減少5倍至關(guān)重要。

基于FAST的方法可在復(fù)雜的機(jī)器人任務(wù)上訓(xùn)練自回歸VLA,而先前的方法在這些任務(wù)上效果不佳。

研究者對(duì)于自回歸VLA訓(xùn)練的前景感到十分興奮。然而,當(dāng)前的模型存在一個(gè)較為顯著的缺點(diǎn),即推理速度較慢。π0-FAST采用自回歸解碼的方式,其速度明顯比不上π0所使用的流匹配解碼。

未來,LLM中廣泛應(yīng)用的加速離散自回歸Transformer模型推理的技術(shù),或許能為提高VLA推理速度帶來啟發(fā)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2024-02-05 13:28:14

AI音頻虛擬人像

2025-04-23 09:10:00

AI系統(tǒng)模型

2023-12-16 09:49:18

2024-08-19 14:05:00

2023-05-04 14:55:02

模型AI

2023-04-04 13:17:00

GPUCMU開源

2025-04-18 08:42:52

模型推理AI

2025-04-30 09:09:00

2023-05-31 16:15:51

模型圖像

2023-08-05 13:45:46

模型AI

2023-04-07 09:28:31

模型訓(xùn)練

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-12-26 14:57:05

推薦系統(tǒng)日本

2024-01-29 13:03:00

框架3DHM視頻

2024-11-29 09:18:01

2023-09-27 12:56:56

AI模型

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2024-12-18 07:20:00

2021-07-12 13:02:50

機(jī)器人人工智能算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)