自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌RT-1模型讓一個(gè)機(jī)器人干幾份活,700條指令成功率達(dá)97%

人工智能 新聞
Transformer在CV、NLP等領(lǐng)域可謂是大放異彩,這次Google的最新研究將Transformer應(yīng)用在機(jī)器人模型處理上,來(lái)看看有多驚艷。

機(jī)器學(xué)習(xí) (ML) 研究的多個(gè)子領(lǐng)域(如計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理)的許多最新進(jìn)展,都是建立在利用大型、多樣化的數(shù)據(jù)集和能夠有效吸收所有數(shù)據(jù)的表達(dá)模型。

但這種高性能模型方法在機(jī)器人技術(shù)領(lǐng)域的應(yīng)用卻相對(duì)較少。

原因很簡(jiǎn)單,首先缺乏大規(guī)模和多樣化的機(jī)器人數(shù)據(jù),限制了模型吸收廣泛機(jī)器人經(jīng)驗(yàn)的能力。

其次,缺乏可從此類(lèi)數(shù)據(jù)集中學(xué)習(xí)并有效泛化的表達(dá)力強(qiáng)、可擴(kuò)展且速度足夠快的實(shí)時(shí)推理模型。

而這次,谷歌推出的Robotics Transformer 1 (簡(jiǎn)稱(chēng)RT-1)是一種多任務(wù)模型,它可以標(biāo)記機(jī)器人輸入和輸出動(dòng)作(例如,相機(jī)圖像、任務(wù)指令和電機(jī)命令)以在運(yùn)行時(shí)實(shí)現(xiàn)高效推理,并使實(shí)時(shí)控制成為可能。

圖片

RT-1吸收了大量數(shù)據(jù),讓機(jī)器人勝任不同環(huán)境下的多種任務(wù),從而提升機(jī)器性能和泛化能力

簡(jiǎn)單來(lái)說(shuō),就是讓一個(gè)機(jī)器人同時(shí)干幾份活。

該模型是在一個(gè)包含130k個(gè)episode的大型真實(shí)世界機(jī)器人數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集涵蓋700多項(xiàng)任務(wù),使用Everyday Robots (EDR) 的13臺(tái)機(jī)器人在17個(gè)月內(nèi)收集而成。

結(jié)果表明,與現(xiàn)有技術(shù)相比,RT-1可以顯著改進(jìn)對(duì)新任務(wù)、環(huán)境和對(duì)象的零樣本泛化。

Github鏈接小編也貼心地放在下面啦,有興趣的小伙伴趕緊去看看。

圖片

?https://github.com/google-research/robotics_transformer?

RT-1模型具體原理

RT-1建立在Transformer架構(gòu)上,它能從機(jī)器人的相機(jī)中獲取圖像歷史記錄并以自然語(yǔ)言表達(dá)的任務(wù)描述作為輸入,同時(shí)直接輸出標(biāo)記化的動(dòng)作。

RT-1的架構(gòu)類(lèi)似于僅解碼器序列模型(decoder-only sequence model)的架構(gòu),該模型針對(duì)具有因果掩蔽的標(biāo)準(zhǔn)分類(lèi)交叉熵目標(biāo)進(jìn)行訓(xùn)練。

圖片

該模型將文本指令和一組圖像作為輸入,通過(guò)預(yù)訓(xùn)練的 FiLM EfficientNet 模型將它們編碼為標(biāo)記,并通過(guò) TokenLearner 對(duì)其進(jìn)行壓縮,然后經(jīng)Transformer輸出動(dòng)作標(biāo)記。

其主要功能包括:圖像詞元化(Image Tokenization)、動(dòng)作詞元化(Action Tokenization)和詞元壓縮(Token Compression )。

  • 圖像tokenization:我們通過(guò)在 ImageNet 上預(yù)訓(xùn)練的 EfficientNet-B3 模型傳遞圖像,然后將生成的 9×9×512 空間特征圖展平為81個(gè)標(biāo)記。圖像分詞器以自然語(yǔ)言任務(wù)指令為條件,并使用初始化為身份的 FiLM 層在早期提取與任務(wù)相關(guān)的圖像特征。?
  • 動(dòng)作tokenization:機(jī)器人的動(dòng)作維度是手臂運(yùn)動(dòng)的 7 個(gè)變量(x、y、z、滾動(dòng)、俯仰、偏航、夾具打開(kāi)),3 個(gè)基本運(yùn)動(dòng)變量(x、y、偏航),以及一個(gè)額外的離散變量在三種模式之間切換。?
  • Token壓縮:該模型自適應(yīng)地選擇圖像Token的軟組合,這些組合可以根據(jù)它們對(duì)使用元素注意模塊TokenLearner 進(jìn)行學(xué)習(xí)的影響進(jìn)行壓縮,從而使推理速度提高2.4倍以上。?

圖片

我們使用人類(lèi)通過(guò)遠(yuǎn)程操作提供的演示,并用機(jī)器人執(zhí)行指令的文本描述對(duì)每一集進(jìn)行注釋。

而這個(gè)機(jī)器人執(zhí)行任務(wù)靠的是,「7個(gè)自由度的手臂、一個(gè)兩指夾持器和一個(gè)移動(dòng)底座」。

數(shù)據(jù)集中表示的一組高級(jí)技能包括拾取和放置物品、打開(kāi)和關(guān)閉抽屜、將物品放入和取出抽屜、將細(xì)長(zhǎng)的物品直立放置、將物體打翻等操作。

整合異質(zhì)數(shù)據(jù)源

為進(jìn)一步推動(dòng)RT-1,我們使用從另一個(gè)機(jī)器人收集的數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,以測(cè)試 (1) 模型在出現(xiàn)新數(shù)據(jù)源時(shí)是否保持其在原始任務(wù)上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的數(shù)據(jù)。

我們轉(zhuǎn)換收集的數(shù)據(jù)以匹配我們使用EDR收集的原始數(shù)據(jù)集的動(dòng)作規(guī)范和邊界,并用任務(wù)指令標(biāo)記每個(gè)數(shù)據(jù)集。

然后在每個(gè)訓(xùn)練批次中將Kuka數(shù)據(jù)與EDR數(shù)據(jù)以1:2的比例混合,以控制原始EDR技能的回歸。

圖片

圖為從多個(gè)機(jī)器人收集數(shù)據(jù)時(shí)的訓(xùn)練方法

結(jié)果表明,RT-1能夠通過(guò)觀察其他機(jī)器人的經(jīng)驗(yàn)來(lái)獲得新技能。

當(dāng)RT-1在Kuka的垃圾箱揀選數(shù)據(jù)和機(jī)器人教室的現(xiàn)有EDR數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),僅使用 EDR 數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)的22% 「準(zhǔn)確率躍升了近2倍」,達(dá)到39%。

圖片

當(dāng)單獨(dú)使用來(lái)自Kuka的揀選數(shù)據(jù)訓(xùn)練RT-1,并使用來(lái)自EDR機(jī)器人的揀選數(shù)據(jù)對(duì)其進(jìn)行評(píng)估時(shí),準(zhǔn)確率為0%。

實(shí)驗(yàn)結(jié)果

為更好地理解RT-1的泛化能力,我們針對(duì)三個(gè)基線(xiàn)研究了它的性能:Gato、BC-Z和BC-Z XL(即與 RT-1 具有相同數(shù)量參數(shù)的 BC-Z)。

并將其分為四個(gè)類(lèi)別:

圖片

圖為測(cè)試環(huán)境下RT-1與對(duì)照組的表現(xiàn)

  • 可見(jiàn)任務(wù)表現(xiàn)(Seen tasks performance):在訓(xùn)練期間觀測(cè)的任務(wù)表現(xiàn);
  • 不可見(jiàn)任務(wù)表現(xiàn)(Unseen tasks performance):在看不見(jiàn)的任務(wù)上的表現(xiàn),其中技能和對(duì)象在訓(xùn)練集中是分開(kāi)的;
  • 穩(wěn)健性(Robustness):在干擾因素介入期間的性能和背景變化(新廚房、照明、背景場(chǎng)景)的性能表現(xiàn)
  • 遠(yuǎn)景場(chǎng)景(long-horizon scenarios):真實(shí)廚房中SayCan類(lèi)自然語(yǔ)言指令的執(zhí)行

RT-1 的高性能和泛化能力可以通過(guò)SayCan實(shí)現(xiàn)遠(yuǎn)距離、移動(dòng)操作任務(wù)。

SayCan的工作原理是將語(yǔ)言模型置于機(jī)器人可供性中,并利用少量提示將以自然語(yǔ)言表達(dá)的長(zhǎng)期任務(wù)分解為一系列低級(jí)技能。

我們?cè)趦蓚€(gè)真實(shí)廚房中使用RT-1和其他兩個(gè)基線(xiàn)(SayCan with Gato 和 SayCan with BC-Z)評(píng)估SayCan。

下面,“Kitchen2”構(gòu)成了比“Kitchen1”更具挑戰(zhàn)性的泛化場(chǎng)景。用于收集大部分訓(xùn)練數(shù)據(jù)的模擬廚房是在 Kitchen1 之后建模的。

圖片

可以看到,SayCan with RT-1在 Kitchen1中的執(zhí)行成功率為 67%,優(yōu)于其他基線(xiàn)。

由于新的看不見(jiàn)的廚房帶來(lái)的泛化困難,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率并沒(méi)有因此下降。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-01 10:30:00

機(jī)器人模型

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2020-03-20 10:30:38

AI 行業(yè) 人工智能

2023-08-21 13:30:18

預(yù)測(cè)機(jī)器學(xué)習(xí)

2023-08-08 10:12:17

谷歌機(jī)器人

2021-06-07 08:28:26

人工智能AI機(jī)器人

2022-12-15 16:28:10

訓(xùn)練模型

2021-02-23 15:36:32

人工智能機(jī)器人工具

2021-02-25 11:03:46

人工智能

2023-08-23 12:33:51

機(jī)器人

2025-03-21 10:21:19

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2023-09-02 11:22:50

模型訓(xùn)練

2023-07-31 16:19:47

機(jī)器人人工智能

2021-09-24 09:52:13

登陸頁(yè)面注冊(cè)流程設(shè)計(jì)

2023-07-29 13:14:40

谷歌人工智能

2012-10-23 14:27:55

無(wú)奈大裁員濾鏡拍照

2022-05-09 11:42:26

機(jī)器人語(yǔ)言模型

2010-02-05 10:31:46

谷歌機(jī)器人

2019-03-27 09:27:06

機(jī)器人人工智能系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)