機(jī)器人ChatGPT來了:大模型進(jìn)現(xiàn)實(shí)世界,DeepMind重量級(jí)突破
我們知道,在掌握了網(wǎng)絡(luò)中的語(yǔ)言和圖像之后,大模型終究要走進(jìn)現(xiàn)實(shí)世界,「具身智能」應(yīng)該是下一步發(fā)展的方向。
把大模型接入機(jī)器人,用簡(jiǎn)單的自然語(yǔ)言代替復(fù)雜指令形成具體行動(dòng)規(guī)劃,且無需額外數(shù)據(jù)和訓(xùn)練,這個(gè)愿景看起來很美好,但似乎也有些遙遠(yuǎn)。畢竟機(jī)器人領(lǐng)域,難是出了名的。
然而 AI 的進(jìn)化速度比我們想象得還要快。
本周五,谷歌 DeepMind 宣布推出 RT-2:全球第一個(gè)控制機(jī)器人的視覺 - 語(yǔ)言 - 動(dòng)作(VLA)模型。
現(xiàn)在不再用復(fù)雜指令,機(jī)器人也能直接像 ChatGPT 一樣操縱了。
圖片
RT-2 到達(dá)了怎樣的智能化程度?DeepMind 研究人員用機(jī)械臂展示了一下,跟 AI 說選擇「已滅絕的動(dòng)物」,手臂伸出,爪子張開落下,它抓住了恐龍玩偶。
圖片
在此之前,機(jī)器人無法可靠地理解它們從未見過的物體,更無法做把「滅絕動(dòng)物」到「塑料恐龍玩偶」聯(lián)系起來這種有關(guān)推理的事。
跟機(jī)器人說,把可樂罐給泰勒?斯威夫特:
看得出來這個(gè)機(jī)器人是真粉絲,對(duì)人類來說是個(gè)好消息。
ChatGPT 等大語(yǔ)言模型的發(fā)展,正在為機(jī)器人領(lǐng)域掀起一場(chǎng)革命,谷歌把最先進(jìn)的語(yǔ)言模型安在機(jī)器人身上,讓它們終于擁有了一顆人工大腦。
在 DeepMind 在最新提交的一篇論文中研究人員表示,RT-2 模型基于網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,利用了 Bard 等大型語(yǔ)言模型的研究進(jìn)展,并將其與機(jī)器人數(shù)據(jù)相結(jié)合,新模型還可以理解英語(yǔ)以外的指令。
谷歌高管稱,RT-2 是機(jī)器人制造和編程方式的重大飛躍。「由于這一變化,我們不得不重新考慮我們的整個(gè)研究規(guī)劃了,」谷歌 DeepMind 機(jī)器人技術(shù)主管 Vincent Vanhoucke 表示。「之前所做的很多事情都完全變成無用功了?!?/span>
RT-2 是如何實(shí)現(xiàn)的?
DeepMind 這個(gè) RT-2 拆開了讀就是 Robotic Transformer —— 機(jī)器人的 transformer 模型。
想要讓機(jī)器人能像科幻電影里一樣聽懂人話,展現(xiàn)生存能力,并不是件容易的事。相對(duì)于虛擬環(huán)境,真實(shí)的物理世界復(fù)雜而無序,機(jī)器人通常需要復(fù)雜的指令才能為人類做一些簡(jiǎn)單的事情。相反,人類本能地知道該怎么做。
此前,訓(xùn)練機(jī)器人需要很長(zhǎng)時(shí)間,研究人員必須為不同任務(wù)單獨(dú)建立解決方案,而借助 RT-2 的強(qiáng)大功能,機(jī)器人可以自己分析更多信息,自行推斷下一步該做什么。
RT-2 建立在視覺 - 語(yǔ)言模型(VLM)的基礎(chǔ)上,又創(chuàng)造了一種新的概念:視覺 - 語(yǔ)言 - 動(dòng)作(VLA)模型,它可以從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中進(jìn)行學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人可以控制的通用指令。該模型甚至能夠使用思維鏈提示,比如哪種飲料最適合疲憊的人 (能量飲料)。
RT-2 架構(gòu)及訓(xùn)練過程
其實(shí)早在去年,谷歌就曾推出過 RT-1 版本的機(jī)器人,只需要一個(gè)單一的預(yù)訓(xùn)練模型,RT-1 就能從不同的感官輸入(如視覺、文本等)中生成指令,從而執(zhí)行多種任務(wù)。
作為預(yù)訓(xùn)練模型,要想構(gòu)建得好自然需要大量用于自監(jiān)督學(xué)習(xí)的數(shù)據(jù)。RT-2 建立在 RT-1 的基礎(chǔ)上,并且使用了 RT-1 的演示數(shù)據(jù),這些數(shù)據(jù)是由 13 個(gè)機(jī)器人在辦公室、廚房環(huán)境中收集的,歷時(shí) 17 個(gè)月。
DeepMind 造出了 VLA 模型
前面我們已經(jīng)提到 RT-2 建立在 VLM 基礎(chǔ)之上,其中 VLMs 模型已經(jīng)在 Web 規(guī)模的數(shù)據(jù)上訓(xùn)練完成,可用來執(zhí)行諸如視覺問答、圖像字幕生成或物體識(shí)別等任務(wù)。此外,研究人員還對(duì)先前提出的兩個(gè) VLM 模型 PaLI-X(Pathways Language and Image model)和 PaLM-E(Pathways Language model Embodied)進(jìn)行了適應(yīng)性調(diào)整,當(dāng)做 RT-2 的主干,并將這些模型的視覺 - 語(yǔ)言 - 動(dòng)作版本稱為 RT-2-PaLI-X 以及 RT-2-PaLM-E 。
為了使視覺 - 語(yǔ)言模型能夠控制機(jī)器人,還差對(duì)動(dòng)作控制這一步。該研究采用了非常簡(jiǎn)單的方法:他們將機(jī)器人動(dòng)作表示為另一種語(yǔ)言,即文本 token,并與 Web 規(guī)模的視覺 - 語(yǔ)言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。
對(duì)機(jī)器人的動(dòng)作編碼基于 Brohan 等人為 RT-1 模型提出的離散化方法。
如下圖所示,該研究將機(jī)器人動(dòng)作表示為文本字符串,這種字符串可以是機(jī)器人動(dòng)作 token 編號(hào)的序列,例如「1 128 91 241 5 101 127 217」。
該字符串以一個(gè)標(biāo)志開始,該標(biāo)志指示機(jī)器人是繼續(xù)還是終止當(dāng)前情節(jié),然后機(jī)器人根據(jù)指示改變末端執(zhí)行器的位置和旋轉(zhuǎn)以及機(jī)器人抓手等命令。
由于動(dòng)作被表示為文本字符串,因此機(jī)器人執(zhí)行動(dòng)作命令就像執(zhí)行字符串命令一樣簡(jiǎn)單。有了這種表示,我們可以直接對(duì)現(xiàn)有的視覺 - 語(yǔ)言模型進(jìn)行微調(diào),并將其轉(zhuǎn)換為視覺 - 語(yǔ)言 - 動(dòng)作模型。
在推理過程中,文本 token 被分解為機(jī)器人動(dòng)作,從而實(shí)現(xiàn)閉環(huán)控制。
實(shí)驗(yàn)
研究人員對(duì) RT-2 模型進(jìn)行了一系列定性和定量實(shí)驗(yàn)。
下圖展示了 RT-2 在語(yǔ)義理解和基本推理方面的性能。例如,對(duì)于「把草莓放進(jìn)正確的碗里」這一項(xiàng)任務(wù),RT-2 不僅需要對(duì)草莓和碗進(jìn)行表征理解,還需要在場(chǎng)景上下文中進(jìn)行推理,以知道草莓應(yīng)該與相似的水果放在一起。而對(duì)于「拾起即將從桌子上掉下來的袋子」這一任務(wù),RT-2 需要理解袋子的物理屬性,以消除兩個(gè)袋子之間的歧義并識(shí)別處于不穩(wěn)定位置的物體。
需要說明的是,所有這些場(chǎng)景中測(cè)試的交互過程在機(jī)器人數(shù)據(jù)中從未見過。
下圖表明在四個(gè)基準(zhǔn)測(cè)試上,RT-2 模型優(yōu)于之前的 RT-1 和視覺預(yù)訓(xùn)練 (VC-1) 基線。
RT-2 保留了機(jī)器人在原始任務(wù)上的性能,并提高了機(jī)器人在以前未見過場(chǎng)景中的性能,從 RT-1 的 32% 提高到 62%。
一系列結(jié)果表明,視覺 - 語(yǔ)言模型(VLM)是可以轉(zhuǎn)化為強(qiáng)大的視覺 - 語(yǔ)言 - 動(dòng)作(VLA)模型的,通過將 VLM 預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,可以直接控制機(jī)器人。
和 ChatGPT 類似,這樣的能力如果大規(guī)模應(yīng)用起來,世界估計(jì)會(huì)發(fā)生不小的變化。不過谷歌沒有立即應(yīng)用 RT-2 機(jī)器人的計(jì)劃,只表示研究人員相信這些能理解人話的機(jī)器人絕不只會(huì)停留在展示能力的層面上。
簡(jiǎn)單想象一下,具有內(nèi)置語(yǔ)言模型的機(jī)器人可以放入倉(cāng)庫(kù)、幫你抓藥,甚至可以用作家庭助理 —— 折疊衣物、從洗碗機(jī)中取出物品、在房子周圍收拾東西。
它可能真正開啟了在有人環(huán)境下使用機(jī)器人的大門,所有需要體力勞動(dòng)的方向都可以接手 —— 就是之前 OpenAI 有關(guān)預(yù)測(cè) ChatGPT 影響工作崗位的報(bào)告中,大模型影響不到的那部分,現(xiàn)在也能被覆蓋。
具身智能,離我們不遠(yuǎn)了?
最近一段時(shí)間,具身智能是大量研究者正在探索的方向。本月斯坦福大學(xué)李飛飛團(tuán)隊(duì)就展示了一些新成果,通過大語(yǔ)言模型加視覺語(yǔ)言模型,AI 能在 3D 空間分析規(guī)劃,指導(dǎo)機(jī)器人行動(dòng)。
圖片
稚暉君的通用人形機(jī)器人創(chuàng)業(yè)公司「智元機(jī)器人(Agibot)」昨天晚上放出的視頻,也展示了基于大語(yǔ)言模型的機(jī)器人行為自動(dòng)編排和任務(wù)執(zhí)行能力。
圖片
預(yù)計(jì)在 8 月,稚暉君的公司即將對(duì)外展示最近取得的一些成果。
可見在大模型領(lǐng)域里,還有大事即將發(fā)生。