全世界機(jī)器人共用一個(gè)大腦,谷歌DeepMind已經(jīng)完成了第一步
過去一年,生成式人工智能發(fā)展的核心關(guān)鍵詞,就是「大」。
人們逐漸接受了強(qiáng)化學(xué)習(xí)先驅(qū) Rich Sutton 充分利用算力「大力出奇跡」的思潮,龐大的數(shù)據(jù)量是 AI 模型展現(xiàn)出驚人智慧的核心原因。數(shù)據(jù)規(guī)模越大、質(zhì)量越高、標(biāo)注越細(xì),模型就能了解到更全面的世界知識(shí),從而擬合出更加智能的結(jié)果。
那么,為什么人工智能的進(jìn)展還沒有轉(zhuǎn)化成科幻片中那種全能管家機(jī)器人呢?能清理桌子、疊衣服、做早餐的機(jī)器人在哪里?
一個(gè)重要的原因是機(jī)器人領(lǐng)域很難「大力出奇跡」,生成式 AI 的文字或圖片訓(xùn)練數(shù)據(jù)在網(wǎng)絡(luò)上就能輕松獲取,而機(jī)器人的訓(xùn)練數(shù)據(jù)通常是由研究人員在實(shí)驗(yàn)室里根據(jù)具體的任務(wù)一個(gè)一個(gè)地創(chuàng)建的。這個(gè)過程往往漫長而又乏味。
如果沒有大量數(shù)據(jù)的支撐,機(jī)器人將無法脫離實(shí)驗(yàn)室,無法獨(dú)立執(zhí)行做早餐等任務(wù)。令人驚艷的機(jī)器人研究成果,往往也只是某一個(gè)實(shí)驗(yàn)室研發(fā)出來的某一款機(jī)器人在執(zhí)行某幾項(xiàng)任務(wù),對(duì)于其他實(shí)驗(yàn)室的機(jī)器人研究,可參考性有限。
特斯拉機(jī)器人 Optimus 在遠(yuǎn)程操控下疊衣服。
如果有一個(gè)匯集了許多機(jī)器人經(jīng)驗(yàn)的「課本」,新機(jī)器人可以從中一次性學(xué)習(xí),讓機(jī)器人共享訓(xùn)練數(shù)據(jù)。這種做法是否能突破手動(dòng)讓機(jī)器人執(zhí)行新任務(wù)帶來的時(shí)間與精力限制?
為了得到問題的答案,由谷歌 Deepmind 發(fā)起,來自北美、歐洲、亞洲的 34 個(gè)機(jī)器人實(shí)驗(yàn)室共同啟動(dòng)了 RT-X 項(xiàng)目。RT-X 項(xiàng)目的目標(biāo)是匯集數(shù)據(jù)、資源和代碼,讓通用機(jī)器人走進(jìn)現(xiàn)實(shí)。該項(xiàng)目的主要參與者加州大學(xué)伯克利分校的 Sergey Levine 教授和 Google DeepMind 的資深科學(xué)家 Karol Hausman 聯(lián)合撰寫了「THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用機(jī)器人大腦的全球合作項(xiàng)目)」一文,總結(jié)了 RT-X 項(xiàng)目取得的進(jìn)展。
RT-X 項(xiàng)目至今都做了哪些努力,讓我們一起來看看。
造通用機(jī)器人,要從哪方面下手?
人類擁有強(qiáng)大的學(xué)習(xí)能力。我們的大腦在經(jīng)過一點(diǎn)練習(xí)后,就可以指揮四肢行動(dòng),比如拿起工具、騎自行車或上車這種動(dòng)作。換句話說,也就是我們的軀體發(fā)生了一些變化,但大腦能夠理解。RT-X 的目標(biāo)是讓機(jī)器人也擁有這種「思維方式」:使單個(gè)深度神經(jīng)網(wǎng)絡(luò)能夠控制許多不同類型的機(jī)器人。這種能力稱為「交叉體現(xiàn)」。
然而「交叉體現(xiàn)」的問題在于,經(jīng)過機(jī)器人數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)能否「駕馭」各種各樣的機(jī)器人。一旦這些外觀、物理特性和能力截然不同的機(jī)器人能被單個(gè)神經(jīng)網(wǎng)絡(luò)「大一統(tǒng)」,那么將釋放出大型數(shù)據(jù)集對(duì)機(jī)器人學(xué)習(xí)的潛力。
RT-X 項(xiàng)目發(fā)布的 Open X-Embodiment 數(shù)據(jù)集規(guī)模龐大,目前它含有 22 種機(jī)器人的近 100 萬次試驗(yàn)數(shù)據(jù),其中包括市場上常用的機(jī)器臂。像拾取和放置物體、組裝以及電纜布線這種專項(xiàng)任務(wù)的數(shù)據(jù)也都包含在其中,共有約 500 種不同的操作和數(shù)千種與其他物體的互動(dòng)數(shù)據(jù)。Open X-Embodiment 是目前最大的真實(shí)機(jī)器人動(dòng)作開源數(shù)據(jù)集。
一個(gè)驚喜的發(fā)現(xiàn)是,大模型從大型數(shù)據(jù)集學(xué)習(xí)的思路也適用于機(jī)器人領(lǐng)域。使用相對(duì)簡單的機(jī)器學(xué)習(xí)方法,利用與當(dāng)前 LLM(如 ChatGPT)相同的模型,研究者能夠根據(jù) Open X-Embodiment 數(shù)據(jù)集訓(xùn)練普遍的機(jī)器人控制算法。就像一個(gè)人可以通過大腦學(xué)習(xí)開車或騎自行車一樣,在 Open X-Embodiment 數(shù)據(jù)集上訓(xùn)練的模型可以簡單地通過機(jī)器人自帶的攝像頭識(shí)別模型所控制的機(jī)器人類型。例如攝像頭識(shí)別出的是 UR10 工業(yè)臂,模型將發(fā)送適合 UR10 的命令。如果識(shí)別出的是低成本的 WidowX hobbyiest 機(jī)械臂,模型也會(huì)相應(yīng)地調(diào)整指令。
谷歌基于 Open X-Embodiment 數(shù)據(jù)集訓(xùn)練出來了 RT-X 模型。為了測(cè)試「機(jī)器人大模型」的能力,參與 RT-X 項(xiàng)目的五個(gè)實(shí)驗(yàn)室分別對(duì)其進(jìn)行了測(cè)試。他們將 RT-X 的訓(xùn)練結(jié)果與各自獨(dú)立開發(fā)的最佳控制系統(tǒng)進(jìn)行了比較。每個(gè)實(shí)驗(yàn)室的測(cè)試項(xiàng)目都涉及其機(jī)器人原本的研究任務(wù),如拾取和移動(dòng)物體、開門和通過夾子布線等。值得注意的是,統(tǒng)一的「大模型」超越了各個(gè)實(shí)驗(yàn)室的最佳方法,使機(jī)器人完成任務(wù)的平均成功率提高了約 50%。
更驚人的發(fā)現(xiàn)是,如下列動(dòng)圖所示,RT-X 模型可以運(yùn)用其他機(jī)器人的經(jīng)驗(yàn)來提高不同環(huán)境中正在被訓(xùn)練的機(jī)器人的魯棒性。
在同一個(gè)實(shí)驗(yàn)室中,即使機(jī)器人在執(zhí)行相同的任務(wù),環(huán)境稍微不同,它也有可能無法成功完成同一動(dòng)作。怪不得馬斯克要強(qiáng)調(diào)在換了衣服、盒子和桌子和之后,特斯拉 Optimus 在未來肯定能學(xué)會(huì)疊衣服呢。
因此,能夠借鑒其他機(jī)器人在其他情況下的經(jīng)驗(yàn)有助 RT-X 模型控制的機(jī)器人應(yīng)對(duì)變化和特殊情況。
搭建可以自主推理的機(jī)器人
受到以上成果的鼓舞,谷歌 DeepMind 的研究團(tuán)隊(duì)繼續(xù)研究了如何如何將這些數(shù)據(jù)整合到一個(gè)具有更加深入的推理能力的系統(tǒng)中。僅從機(jī)器人數(shù)據(jù)中很難學(xué)習(xí)到復(fù)雜的語義推理。如「在罐子和橘子之間移動(dòng)蘋果」這個(gè)復(fù)雜任務(wù),需要機(jī)器人理解圖像中物體之間的語義關(guān)系、基本常識(shí)還有其他與物理能力不直接相關(guān)的符號(hào)知識(shí)等等。
為了解決復(fù)雜語義推理的問題,研究人員決定加入另一個(gè)龐大的數(shù)據(jù)源:全網(wǎng)的圖像和文本數(shù)據(jù)。他們使用了一個(gè)現(xiàn)有的大型視覺語言模型,該模型已經(jīng)精通許多需要理解自然語言和圖像之間聯(lián)系的任務(wù)。它是一個(gè)類似 ChatGPT 或 Bard 這樣公開可用的模型。這個(gè)模型可以根據(jù)圖片輸入做出回答,能夠解決視覺問答、字幕以及其他開放式視覺理解任務(wù)之類的問題。
研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過訓(xùn)練,生成式 AI 模型也能輸出機(jī)器人動(dòng)作以響應(yīng)機(jī)器人命令(如「把香蕉放在盤子上」),機(jī)器人繼而根據(jù)命令執(zhí)行動(dòng)作?;谶@些發(fā)現(xiàn),谷歌 DeepMind 研究團(tuán)隊(duì)將這種方法應(yīng)用到 Open X-Embodiment 數(shù)據(jù)集中。
為了評(píng)估從互聯(lián)網(wǎng)獲取的智能和來自全世界的機(jī)器人數(shù)據(jù)的結(jié)合情況,谷歌 DeepMind 用他們的移動(dòng)機(jī)械臂對(duì) RT-X 模型進(jìn)行了測(cè)試。研究人員對(duì)它進(jìn)行了最嚴(yán)格的通用化基準(zhǔn)測(cè)試。這要求機(jī)器人掌握識(shí)別物體、成功操縱物體、根據(jù)復(fù)雜的文本命令、整合文本和圖像信息、進(jìn)行邏輯推理等能力。這種能力正是人類成為通才的原因之一。
研究人員進(jìn)行了兩組評(píng)估。他們使用了一個(gè)不涉及谷歌的機(jī)器人、不包括多機(jī)器人數(shù)據(jù)的模型作為基準(zhǔn)。事實(shí)上,由于 Open X-Embodiment 數(shù)據(jù)集中有超過 10 萬次演示來自谷歌 DeepMind 的機(jī)器人,數(shù)據(jù)集中其他機(jī)器人數(shù)據(jù)是否起效,這個(gè)問題的答案仍然未知。因此,他們又嘗試了基于 Open X-Embodiment 整體數(shù)據(jù)的評(píng)估。
對(duì)谷歌機(jī)器臂而言,「將蘋果移到易拉罐和橘子之間」是最難的評(píng)估任務(wù)之一。這是一項(xiàng)涉及空間關(guān)系推理的任務(wù)。在「將一個(gè)物體放在寫著解為 2+3 的紙上」這項(xiàng)任務(wù)中,它還需要解數(shù)學(xué)題。這些挑戰(zhàn)旨在測(cè)試 RT-X 模型賦予機(jī)器臂的推理以及得出結(jié)論的能力。
在這種情況下,機(jī)器臂推理能力(例如推理出 「之間 」和 「上面 」的含義)來自于視覺語言模型訓(xùn)練中的全網(wǎng)數(shù)據(jù),而將推理輸出應(yīng)用于機(jī)器人行為的能力(即使機(jī)器臂向正確方向移動(dòng)的命令)來自 RT-X 對(duì)機(jī)器人數(shù)據(jù)的訓(xùn)練。下面的視頻展示了一個(gè)評(píng)估實(shí)例,研究團(tuán)隊(duì)要求機(jī)器人執(zhí)行一項(xiàng)未包含在訓(xùn)練數(shù)據(jù)中的任務(wù)。
即使沒有經(jīng)過專門訓(xùn)練,谷歌的機(jī)器臂也能夠遵循指令「在罐子和橘子之間移動(dòng)蘋果」。這種能力是由 RT-X 實(shí)現(xiàn)的,這是邁向通用機(jī)器人大腦的第一步。
雖然這些任務(wù)對(duì)人類來說可能不值一提,但對(duì)通用機(jī)器人來說卻是一大難題。如果沒有具體的機(jī)器人演示數(shù)據(jù)清楚地說明「之間」、「附近」和「上面」是什么意思,即使共享了機(jī)器人的訓(xùn)練數(shù)據(jù),基于此的系統(tǒng)也無法弄清楚這些命令的含義。
通過整合視覺語言模型中的全網(wǎng)知識(shí),RT-X 的完整系統(tǒng)為機(jī)器人研究解決了很多問題。研究團(tuán)隊(duì)發(fā)現(xiàn)共享機(jī)器人數(shù)據(jù)的加入使谷歌機(jī)器人的泛化能力提高了三倍。這表明,Open X-Embodiment 數(shù)據(jù)集不僅有助于機(jī)器人獲得各種物理技能,還有助于更好地讓與物理動(dòng)作與視覺語言模型中的語義和符號(hào)知識(shí)聯(lián)系起來。這些聯(lián)系使得機(jī)器人具備了一定的常識(shí)。有朝一日,機(jī)器人能夠基于這些方法理解「給我拿早餐」這種復(fù)雜和微妙的命令,并為你端上一份熱乎乎的早飯。
RT-X 項(xiàng)目的下一步
RT-X 項(xiàng)目展示了機(jī)器人社區(qū)凝心聚力之后取得的巨大進(jìn)展。得益于跨地區(qū)、跨機(jī)構(gòu)的努力,谷歌 DeepMind 匯集了多樣化的機(jī)器人數(shù)據(jù)集,進(jìn)行了全面的多機(jī)器人評(píng)估。此前,這對(duì)于任何單一機(jī)構(gòu)都是不可能做到的事。RT-X 的發(fā)起者希望能有更多的研究人員入這項(xiàng)合作,分享他們的數(shù)據(jù)。他們還將開發(fā)工具、模型和基礎(chǔ)設(shè)施來支持具身智能研究。
就像大型語言模型已經(jīng)掌握了廣泛的基于語言的任務(wù)一樣,RT-X 項(xiàng)目目前的進(jìn)展已經(jīng)提供了一種大型具身機(jī)器人模型改變機(jī)器人領(lǐng)域的可能性。在未來,谷歌 DeepMind 將會(huì)使用相同的基礎(chǔ)模型作為許多現(xiàn)實(shí)中的機(jī)器人做任務(wù)的基礎(chǔ)。也許有一天,只通過微調(diào),甚至只向預(yù)訓(xùn)練的基礎(chǔ)模型輸入提示,機(jī)器人就能獲得新技能。你可以像使用 ChatGPT 一樣,無需告訴機(jī)器人如何使用裱花袋或要寫什么字體,機(jī)器人就能在一個(gè)蛋糕上做「生日快樂」的裱花。
隨著越來越多的實(shí)驗(yàn)室參與 RT-X 項(xiàng)目,谷歌 DeepMind 希望進(jìn)一步推進(jìn)單個(gè)神經(jīng)網(wǎng)絡(luò)控制多臺(tái)機(jī)器人的可能。未來他們可能將添加生成的各種模擬數(shù)據(jù),加入更多種類的機(jī)器人(例如有不同數(shù)量的手臂或手指的機(jī)器人),引入不同的傳感器套件(如深度相機(jī)和觸覺傳感器),結(jié)合操縱和運(yùn)動(dòng)行為等。
也許在未來,通用化的機(jī)器人大腦可以驅(qū)動(dòng)任何機(jī)器人,全球所有機(jī)器人都可以從共享的數(shù)據(jù)中受益。