自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器人研究迎來(lái)ImageNet時(shí)刻:一個(gè)數(shù)據(jù)集,讓DeepMind具身智能大模型突飛猛進(jìn)

人工智能 新聞
為什么機(jī)器人技術(shù)遠(yuǎn)遠(yuǎn)落后于 NLP、視覺(jué)和其他 AI 領(lǐng)域?除其他困難外,數(shù)據(jù)短缺是罪魁禍?zhǔn)?。谷?DeepMind 聯(lián)合其他機(jī)構(gòu)推出了 Open X-Embodiment 數(shù)據(jù)集,并訓(xùn)練出了能力更強(qiáng)的 RT-X 模型。

在大模型不斷取得突破的 2023,把大模型當(dāng)做大腦來(lái)輔助運(yùn)行的具身智能機(jī)器人研究也在被迅速推進(jìn)。

2 個(gè)多月前,谷歌 DeepMind 推出了第一個(gè)控制機(jī)器人的視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)模型 ——RT-2。這個(gè)模型讓機(jī)器人不僅能解讀人類的復(fù)雜指令,還能看懂眼前的物體(即使這個(gè)物體之前從未見(jiàn)過(guò)),并按照指令采取動(dòng)作。比如,你讓機(jī)器人拿起桌上「已滅絕的動(dòng)物」。它會(huì)抓起眼前的恐龍玩偶。

圖片

當(dāng)時(shí),一位谷歌高管稱,RT-2 是機(jī)器人制造和編程方式的重大飛躍?!赣捎谶@一變化,我們不得不重新考慮我們的整個(gè)研究規(guī)劃了?!?/span>

更令人吃驚的是,時(shí)間僅僅過(guò)去了兩個(gè)多月,DeepMind 的這個(gè)機(jī)器人模型又進(jìn)步了,而且一下就提高了兩倍。

這是怎么實(shí)現(xiàn)的呢?

我們知道,機(jī)器人通常在做某一件事情上非常專業(yè),但通用能力很差。一般情況下,你必須針對(duì)每項(xiàng)任務(wù)、每個(gè)機(jī)器人和環(huán)境訓(xùn)練一個(gè)模型。改變一個(gè)變量往往需要從頭開始。但是,如果我們能將各種機(jī)器人學(xué)的知識(shí)結(jié)合起來(lái),創(chuàng)造出一種訓(xùn)練通用機(jī)器人的方法呢?

這就是 DeepMind 在過(guò)去一段時(shí)間所做的事情。他們匯集了來(lái)自 22 種不同機(jī)器人類型的數(shù)據(jù),以創(chuàng)建 Open X-Embodiment 數(shù)據(jù)集,然后在之前的模型(RT-1 和 RT-2)的基礎(chǔ)上,訓(xùn)練出了能力更強(qiáng)的 RT-X(分別為 RT-1-X 和 RT-2-X)。

他們?cè)谖鍌€(gè)不同的研究實(shí)驗(yàn)室測(cè)試了 RT-1-X 模型,結(jié)果顯示,與針對(duì)每個(gè)機(jī)器人獨(dú)立開發(fā)的方法相比,新方法在五種不同的常用機(jī)器人中平均成功率提高了 50%。他們還表明,在上述數(shù)據(jù)集上訓(xùn)練的 RT-2-X 在現(xiàn)實(shí)世界機(jī)器人技能上的表現(xiàn)提高了 2 倍,而且,通過(guò)學(xué)習(xí)新數(shù)據(jù),RT-2-X 掌握了很多新技能。這項(xiàng)工作表明,在來(lái)自多個(gè)機(jī)器人類型數(shù)據(jù)上訓(xùn)練的單個(gè)模型比在來(lái)自單個(gè)機(jī)器人類型數(shù)據(jù)上訓(xùn)練的模型在多個(gè)機(jī)器人上的性能要好得多。

圖片

值得一提的是,這項(xiàng)研究并非由 DeepMind 獨(dú)立完成,而是他們與 33 家學(xué)術(shù)實(shí)驗(yàn)室通力合作的結(jié)果。他們致力于以開放和負(fù)責(zé)任的方式開發(fā)這項(xiàng)技術(shù)。

圖片

目前,Open X-Embodiment 數(shù)據(jù)集和 RT-1-X 模型檢查點(diǎn)已經(jīng)對(duì)廣泛的研究社區(qū)開放。

英偉達(dá)高級(jí)人工智能科學(xué)家Jim Fan表示今天可能是機(jī)器人的ImageNet時(shí)刻。

圖片

谷歌研究員Karol Hausman也表達(dá)了同樣的感嘆:機(jī)器人的ImageNet時(shí)刻終于到來(lái)了。

圖片

Open X-Embodiment 數(shù)據(jù)集,機(jī)器人的 ImageNet 時(shí)刻

數(shù)據(jù)集以及基于數(shù)據(jù)集訓(xùn)練的模型在推進(jìn) AI 進(jìn)步方面發(fā)揮了關(guān)鍵作用。正如 ImageNet 推動(dòng)了計(jì)算機(jī)視覺(jué)的研究,Open X-Embodiment 同樣推動(dòng)了機(jī)器人技術(shù)的發(fā)展。 

一直以來(lái),構(gòu)建多樣化數(shù)據(jù)集是訓(xùn)練通用模型的關(guān)鍵,這些訓(xùn)練好的模型可以控制許多不同類型的機(jī)器人,遵循不同的指令,對(duì)復(fù)雜任務(wù)進(jìn)行基本推理,并有效地進(jìn)行泛化。然而,對(duì)于任何單個(gè)實(shí)驗(yàn)室來(lái)說(shuō),收集這樣的數(shù)據(jù)集都過(guò)于耗費(fèi)資源。

為此,DeepMind 與 33 家機(jī)構(gòu)的學(xué)術(shù)研究實(shí)驗(yàn)室展開合作,從而構(gòu)建了 Open X-Embodiment 數(shù)據(jù)集。他們從 22 個(gè)機(jī)器人實(shí)例中收集數(shù)據(jù),這些數(shù)據(jù)涵蓋超過(guò) 100 萬(wàn)個(gè)片段,展示了機(jī)器人 500 多項(xiàng)技能和在 150000 項(xiàng)任務(wù)上的表現(xiàn)。該數(shù)據(jù)集是同類中最全面的機(jī)器人數(shù)據(jù)集。

圖片

來(lái)自 Open X-Embodiment 數(shù)據(jù)集的樣本,包括 500 多種技能和 150000 個(gè)任務(wù)。

圖片Open X-Embodiment 基本信息

RT-1-X:成功率提升 50%

RT-X 基于兩個(gè) robotics transformer(RT)模型構(gòu)建而成。

具體而言,他們使用 RT-1 訓(xùn)練 RT-1-X,其中 RT-1 是建立在 Transformer 架構(gòu)上的 35M 參數(shù)網(wǎng)絡(luò),專為機(jī)器人控制而設(shè)計(jì),如圖 3 所示。

此外,他們還在 RT-2 上訓(xùn)練 RT-2-X,其中 RT-2 是一系列大型視覺(jué)語(yǔ)言動(dòng)作模型 (VLA),在互聯(lián)網(wǎng)規(guī)模的視覺(jué)和語(yǔ)言數(shù)據(jù)以及機(jī)器人控制數(shù)據(jù)上訓(xùn)練而成。

圖片

為了評(píng)估 RT-1-X,DeepMind 將其與在特定任務(wù)上(例如開門)開發(fā)的模型進(jìn)行了比較。結(jié)果顯示,使用 Open X-Embodiment 數(shù)據(jù)集訓(xùn)練的 RT-1-X 平均性能優(yōu)于原始模型 50%。

圖片

RT-1-X 平均成功率比原始方法提高 50%。

圖片

來(lái)自不同合作機(jī)構(gòu)的關(guān)于 RT-1-X 的效果展示

RT-2-X:無(wú)障礙解鎖新技能

為了研究 RT-X 的知識(shí)遷移能力,DeepMind 又進(jìn)行了其他實(shí)驗(yàn)。這些實(shí)驗(yàn)涉及 RT-2 數(shù)據(jù)集中不存在的對(duì)象和技能,但這些對(duì)象和技能存在于另一個(gè)機(jī)器人的數(shù)據(jù)集中。結(jié)果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。這也說(shuō)明了,與其他平臺(tái)的數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練可以為 RT-2-X 賦予原始數(shù)據(jù)集中不存在的額外技能,使其能夠執(zhí)行新穎的任務(wù)。

圖片

上圖展示了 RT-2-X 對(duì)物體之間空間關(guān)系的理解。

圖片

一系列結(jié)果表明,RT-2-X 實(shí)現(xiàn)了 RT-2 以前無(wú)法實(shí)現(xiàn)的技能,包括對(duì)空間更好的理解。例如,如果我們要求機(jī)器人「將蘋果移動(dòng)到布料附近」、又或者要求機(jī)器人「將蘋果移動(dòng)到布料上」,為了實(shí)現(xiàn)目標(biāo)要求,機(jī)器人會(huì)采取完全不同的軌跡。只需將介詞從「near」更改為「on」,就可以調(diào)整機(jī)器人采取的動(dòng)作。

RT-2-X 表明,將其他機(jī)器人的數(shù)據(jù)結(jié)合到 RT-2-X 訓(xùn)練中可以改善機(jī)器人的任務(wù)執(zhí)行范圍,但前提是使用足夠高容量的架構(gòu)。

圖片

RT-2-X (55B): 迄今為止在學(xué)術(shù)實(shí)驗(yàn)室執(zhí)行未知任務(wù)的最大模型之一

研究啟發(fā):機(jī)器人需要相互學(xué)習(xí),研究人員也一樣

機(jī)器人研究正處于令人興奮的早期階段。DeepMind 的這項(xiàng)新研究表明,通過(guò)利用更多樣化的數(shù)據(jù)和更好的模型進(jìn)行擴(kuò)展學(xué)習(xí),有可能開發(fā)出更有用的輔助機(jī)器人。與世界各地的實(shí)驗(yàn)室合作并共享資源,對(duì)于以開放和負(fù)責(zé)任的方式推進(jìn)機(jī)器人研究至關(guān)重要。DeepMind 希望通過(guò)開放數(shù)據(jù)源和提供安全但有限的模型來(lái)減少障礙,加快研究。機(jī)器人技術(shù)的未來(lái)有賴于機(jī)器人之間的相互學(xué)習(xí),最重要的是,讓研究人員能夠相互學(xué)習(xí)。

這項(xiàng)工作證明,模型可以在不同環(huán)境下通用,無(wú)論是在谷歌 DeepMind 的機(jī)器人上,還是在世界各地不同大學(xué)的機(jī)器人上,其性能都得到了顯著提高。未來(lái)的研究可以探索如何將這些進(jìn)步與 RoboCat 的自我完善特性相結(jié)合,使模型能夠根據(jù)自身經(jīng)驗(yàn)不斷改進(jìn)。未來(lái)的另一個(gè)方向是進(jìn)一步探索不同數(shù)據(jù)集的混合會(huì)如何影響跨具身智能體泛化,以及這種泛化是如何是實(shí)現(xiàn)的。

如果你想了解有關(guān) RT-X 的更多信息,可以參考 DeepMind 發(fā)布的這篇論文:

  • 論文鏈接:https://robotics-transformer-x.github.io/paper.pdf
  • 項(xiàng)目鏈接:https://robotics-transformer-x.github.io/
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-01 09:45:08

2025-03-10 13:31:28

2023-12-23 23:16:36

機(jī)器人模型

2024-12-19 14:44:22

2024-07-22 08:00:00

機(jī)器人虛擬

2022-09-23 09:53:41

機(jī)器人機(jī)器學(xué)習(xí)

2024-09-18 13:30:00

2024-11-07 14:35:45

2010-01-05 10:22:23

Google Andr

2023-09-10 10:51:22

算法結(jié)構(gòu)

2023-11-08 13:20:00

模型數(shù)據(jù)

2025-01-09 12:39:27

2016-05-04 13:14:54

2016信息技術(shù)卓越峰

2022-04-19 20:47:22

毫末
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)