終結(jié)者最強(qiáng)大腦!谷歌發(fā)布史上最大「通才」模型PaLM-E,5620億參數(shù),看圖說(shuō)話還能操控機(jī)器人
大語(yǔ)言模型的飛速「變異」,讓人類(lèi)社會(huì)的走向越來(lái)越科幻了。點(diǎn)亮這棵科技樹(shù)后,「終結(jié)者」的現(xiàn)實(shí)仿佛離我們?cè)絹?lái)越近。
前幾天,微軟剛宣布了一個(gè)實(shí)驗(yàn)框架,能用ChatGPT來(lái)控制機(jī)器人和無(wú)人機(jī)。
谷歌當(dāng)然也不甘其后,在周一,來(lái)自谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大視覺(jué)語(yǔ)言模型——PaLM-E。
論文地址:https://arxiv.org/abs/2303.03378
作為一種多模態(tài)具身視覺(jué)語(yǔ)言模型 (VLM),PaLM-E不僅可以理解圖像,還能理解、生成語(yǔ)言,而且竟然還能將兩者結(jié)合起來(lái),處理復(fù)雜的機(jī)器人指令。
此外,通過(guò)PaLM-540B語(yǔ)言模型與ViT-22B視覺(jué)Transformer模型相結(jié)合,PaLM-E最終的參數(shù)量高達(dá)5620億。
橫跨機(jī)器人、視覺(jué)-語(yǔ)言領(lǐng)域的「通才」模型
PaLM-E,全稱(chēng)Pathways Language Model with Embodied,是一種具身視覺(jué)語(yǔ)言模型。
它的強(qiáng)大之處在于,能夠利用視覺(jué)數(shù)據(jù)來(lái)增強(qiáng)其語(yǔ)言處理能力。
當(dāng)我們訓(xùn)練出最大的視覺(jué)語(yǔ)言模型,并與機(jī)器人結(jié)合后,會(huì)發(fā)生什么?結(jié)果就是PaLM-E,一個(gè) 5620億參數(shù)、通用、具身的視覺(jué)語(yǔ)言通才——橫跨機(jī)器人、視覺(jué)和語(yǔ)言
據(jù)論文介紹,PaLM-E是一個(gè)僅有解碼器的LLM,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補(bǔ)全。
其訓(xùn)練數(shù)據(jù)為包含視覺(jué)、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語(yǔ)句。
經(jīng)過(guò)單個(gè)圖像提示訓(xùn)練,PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還可以生成描述圖像的語(yǔ)言。
可以說(shuō),PaLM-E展示了前所未有的靈活性和適應(yīng)性,代表著一次重大飛躍,特別是人機(jī)交互領(lǐng)域。
更重要的是,研究人員證明,通過(guò)在多個(gè)機(jī)器人和一般視覺(jué)語(yǔ)言的不同混合任務(wù)組合進(jìn)行訓(xùn)練,可以帶來(lái)從視覺(jué)語(yǔ)言轉(zhuǎn)移到具身決策的幾種方法,讓機(jī)器人規(guī)劃任務(wù)時(shí)能夠有效地利用數(shù)據(jù)。
除此之外,PaLM-E尤為突出的一點(diǎn)在于,擁有強(qiáng)大的正遷移能力。
在不同領(lǐng)域訓(xùn)練的PaLM-E,包括互聯(lián)網(wǎng)規(guī)模的一般視覺(jué)-語(yǔ)言任務(wù),與執(zhí)行單一任務(wù)機(jī)器人模型相比,性能明顯提高。
而在模型尺度上,研究人員則觀察到了一個(gè)顯著的優(yōu)勢(shì)。
語(yǔ)言模型越大,在視覺(jué)語(yǔ)言與機(jī)器人任務(wù)的訓(xùn)練中,保持的語(yǔ)言能力就越強(qiáng)。
從模型規(guī)模來(lái)看,5620億參數(shù)的PaLM-E幾乎保持了它所有的語(yǔ)言能力。
盡管只在單個(gè)圖像進(jìn)行訓(xùn)練,但PaLM-E在多模態(tài)思維鏈推理和多圖像推理等任務(wù)中表現(xiàn)出突出的能力。
在OK-VQA基準(zhǔn)上,PaLM-E取得了新的SOTA。
測(cè)評(píng)結(jié)果
在測(cè)試中,研究人員展示了如何使用PaLM-E在兩個(gè)不同實(shí)體上執(zhí)行規(guī)劃以及長(zhǎng)跨度的任務(wù)。
值得注意的是,所有這些結(jié)果都是使用基于相同數(shù)據(jù)訓(xùn)練的相同模型獲得的。
在以前,機(jī)器人通常需要人工的協(xié)助才能完成長(zhǎng)跨度任務(wù)。但現(xiàn)在,PaLM-E通過(guò)自主學(xué)習(xí)就可以搞定了。
比如,「從抽屜里拿出薯片」這類(lèi)指令中,就包括了多個(gè)計(jì)劃步驟,以及來(lái)自機(jī)器人攝像頭的視覺(jué)反饋。
經(jīng)過(guò)端到端訓(xùn)練的PaLM-E,可以直接從像素開(kāi)始對(duì)機(jī)器人進(jìn)行規(guī)劃。由于模型被集成到一個(gè)控制回路中,所以機(jī)器人在拿薯片的過(guò)程中,對(duì)途中的干擾都有魯棒性。
人類(lèi):給我來(lái)點(diǎn)薯片。
機(jī)器人:1. 走到抽屜旁 2.打開(kāi)最上面的抽屜 3. 從最上面的抽屜里拿起綠色的薯片 4.放在柜臺(tái)上。
同樣,讓機(jī)器人去拿一個(gè)蘋(píng)果時(shí),給出圖片后,機(jī)器人執(zhí)行任務(wù)步驟如下——
人類(lèi):給我拿一個(gè)蘋(píng)果。
機(jī)器人:1.走向蘋(píng)果 2.拿起蘋(píng)果 3.把它拿給操作員 4.放下蘋(píng)果 5.完成。
除了執(zhí)行長(zhǎng)跨度任務(wù),PaLM-E可以讓機(jī)器人執(zhí)行規(guī)劃任務(wù),比如排列積木。
研究人員根據(jù)視覺(jué)和語(yǔ)言輸入成功地進(jìn)行多階段的計(jì)劃,并結(jié)合了長(zhǎng)時(shí)間范圍的視覺(jué)反饋,進(jìn)而讓模型能夠成功地規(guī)劃一個(gè)長(zhǎng)周期的任務(wù)「將積木按顏色分類(lèi)到不同的角落」。
如下,在排列組合上,機(jī)器人化身為多面手,按顏色將積木排序。
模型的泛化方面,PaLM- E控制的機(jī)器人可以把紅色積木移到咖啡杯的旁邊。
值得一提的是,數(shù)據(jù)集只包含有咖啡杯的三個(gè)演示,但其中沒(méi)有一個(gè)包括紅色的積木塊。
類(lèi)似的,雖然模型此前從未見(jiàn)過(guò)烏龜,但照樣可以順利地把綠色積木推到烏龜旁邊
在零樣本推理方面,PaLM-E可以在給定圖像的情況下講述笑話,并展示了包括感知,基于視覺(jué)的對(duì)話和計(jì)劃在內(nèi)的能力。
多張圖的關(guān)系,PaLM-E也整得很明白,比如圖一(左)在圖二(右)的哪個(gè)位置。
此外,PaLM-E還可以在給定帶有手寫(xiě)數(shù)字的圖像執(zhí)行數(shù)學(xué)運(yùn)算。
比如,如下手寫(xiě)餐館的菜單圖,2張披薩需要多少錢(qián),PaLM-E就直接給算出來(lái)了。
以及一般的QA和標(biāo)注等多種任務(wù)。
最后,研究結(jié)果還表明,凍結(jié)語(yǔ)言模型是通向完全保留其語(yǔ)言能力的通用具身多模態(tài)模型的可行之路。
但同時(shí),研究人員還發(fā)現(xiàn)了一條解凍模型的替代路線,即擴(kuò)大語(yǔ)言模型的規(guī)??梢燥@著減少災(zāi)難性遺忘。