自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

終結(jié)者最強(qiáng)大腦!谷歌發(fā)布史上最大「通才」模型PaLM-E,5620億參數(shù),看圖說(shuō)話還能操控機(jī)器人

人工智能 新聞
谷歌剛剛上線了一個(gè)炸彈級(jí)「通才」模型PaLM-E,足足有5620億參數(shù)。它是一種多模態(tài)具身視覺(jué)語(yǔ)言模型,從引導(dǎo)機(jī)器人執(zhí)行任務(wù),到回答關(guān)于可觀察世界的問(wèn)題,全都能搞定。

大語(yǔ)言模型的飛速「變異」,讓人類(lèi)社會(huì)的走向越來(lái)越科幻了。點(diǎn)亮這棵科技樹(shù)后,「終結(jié)者」的現(xiàn)實(shí)仿佛離我們?cè)絹?lái)越近。

前幾天,微軟剛宣布了一個(gè)實(shí)驗(yàn)框架,能用ChatGPT來(lái)控制機(jī)器人和無(wú)人機(jī)。

谷歌當(dāng)然也不甘其后,在周一,來(lái)自谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大視覺(jué)語(yǔ)言模型——PaLM-E。

圖片

論文地址:https://arxiv.org/abs/2303.03378

作為一種多模態(tài)具身視覺(jué)語(yǔ)言模型 (VLM),PaLM-E不僅可以理解圖像,還能理解、生成語(yǔ)言,而且竟然還能將兩者結(jié)合起來(lái),處理復(fù)雜的機(jī)器人指令。

此外,通過(guò)PaLM-540B語(yǔ)言模型與ViT-22B視覺(jué)Transformer模型相結(jié)合,PaLM-E最終的參數(shù)量高達(dá)5620億。

圖片

橫跨機(jī)器人、視覺(jué)-語(yǔ)言領(lǐng)域的「通才」模型

PaLM-E,全稱(chēng)Pathways Language Model with Embodied,是一種具身視覺(jué)語(yǔ)言模型。

它的強(qiáng)大之處在于,能夠利用視覺(jué)數(shù)據(jù)來(lái)增強(qiáng)其語(yǔ)言處理能力。

圖片

當(dāng)我們訓(xùn)練出最大的視覺(jué)語(yǔ)言模型,并與機(jī)器人結(jié)合后,會(huì)發(fā)生什么?結(jié)果就是PaLM-E,一個(gè) 5620億參數(shù)、通用、具身的視覺(jué)語(yǔ)言通才——橫跨機(jī)器人、視覺(jué)和語(yǔ)言

據(jù)論文介紹,PaLM-E是一個(gè)僅有解碼器的LLM,在給定前綴(prefix)或提示(prompt)下,能夠以自回歸方式生成文本補(bǔ)全。

其訓(xùn)練數(shù)據(jù)為包含視覺(jué)、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語(yǔ)句。

經(jīng)過(guò)單個(gè)圖像提示訓(xùn)練,PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還可以生成描述圖像的語(yǔ)言。

可以說(shuō),PaLM-E展示了前所未有的靈活性和適應(yīng)性,代表著一次重大飛躍,特別是人機(jī)交互領(lǐng)域。

更重要的是,研究人員證明,通過(guò)在多個(gè)機(jī)器人和一般視覺(jué)語(yǔ)言的不同混合任務(wù)組合進(jìn)行訓(xùn)練,可以帶來(lái)從視覺(jué)語(yǔ)言轉(zhuǎn)移到具身決策的幾種方法,讓機(jī)器人規(guī)劃任務(wù)時(shí)能夠有效地利用數(shù)據(jù)。

圖片

除此之外,PaLM-E尤為突出的一點(diǎn)在于,擁有強(qiáng)大的正遷移能力。

在不同領(lǐng)域訓(xùn)練的PaLM-E,包括互聯(lián)網(wǎng)規(guī)模的一般視覺(jué)-語(yǔ)言任務(wù),與執(zhí)行單一任務(wù)機(jī)器人模型相比,性能明顯提高。

圖片

而在模型尺度上,研究人員則觀察到了一個(gè)顯著的優(yōu)勢(shì)。

語(yǔ)言模型越大,在視覺(jué)語(yǔ)言與機(jī)器人任務(wù)的訓(xùn)練中,保持的語(yǔ)言能力就越強(qiáng)。

從模型規(guī)模來(lái)看,5620億參數(shù)的PaLM-E幾乎保持了它所有的語(yǔ)言能力。

盡管只在單個(gè)圖像進(jìn)行訓(xùn)練,但PaLM-E在多模態(tài)思維鏈推理和多圖像推理等任務(wù)中表現(xiàn)出突出的能力。

在OK-VQA基準(zhǔn)上,PaLM-E取得了新的SOTA。

圖片

測(cè)評(píng)結(jié)果

在測(cè)試中,研究人員展示了如何使用PaLM-E在兩個(gè)不同實(shí)體上執(zhí)行規(guī)劃以及長(zhǎng)跨度的任務(wù)。

值得注意的是,所有這些結(jié)果都是使用基于相同數(shù)據(jù)訓(xùn)練的相同模型獲得的。

在以前,機(jī)器人通常需要人工的協(xié)助才能完成長(zhǎng)跨度任務(wù)。但現(xiàn)在,PaLM-E通過(guò)自主學(xué)習(xí)就可以搞定了。

圖片

比如,「從抽屜里拿出薯片」這類(lèi)指令中,就包括了多個(gè)計(jì)劃步驟,以及來(lái)自機(jī)器人攝像頭的視覺(jué)反饋。

經(jīng)過(guò)端到端訓(xùn)練的PaLM-E,可以直接從像素開(kāi)始對(duì)機(jī)器人進(jìn)行規(guī)劃。由于模型被集成到一個(gè)控制回路中,所以機(jī)器人在拿薯片的過(guò)程中,對(duì)途中的干擾都有魯棒性。

人類(lèi):給我來(lái)點(diǎn)薯片。

機(jī)器人:1. 走到抽屜旁 2.打開(kāi)最上面的抽屜 3. 從最上面的抽屜里拿起綠色的薯片 4.放在柜臺(tái)上。

圖片

同樣,讓機(jī)器人去拿一個(gè)蘋(píng)果時(shí),給出圖片后,機(jī)器人執(zhí)行任務(wù)步驟如下——

人類(lèi):給我拿一個(gè)蘋(píng)果。

機(jī)器人:1.走向蘋(píng)果 2.拿起蘋(píng)果 3.把它拿給操作員 4.放下蘋(píng)果 5.完成。

圖片

除了執(zhí)行長(zhǎng)跨度任務(wù),PaLM-E可以讓機(jī)器人執(zhí)行規(guī)劃任務(wù),比如排列積木。

研究人員根據(jù)視覺(jué)和語(yǔ)言輸入成功地進(jìn)行多階段的計(jì)劃,并結(jié)合了長(zhǎng)時(shí)間范圍的視覺(jué)反饋,進(jìn)而讓模型能夠成功地規(guī)劃一個(gè)長(zhǎng)周期的任務(wù)「將積木按顏色分類(lèi)到不同的角落」。

如下,在排列組合上,機(jī)器人化身為多面手,按顏色將積木排序。

圖片

模型的泛化方面,PaLM- E控制的機(jī)器人可以把紅色積木移到咖啡杯的旁邊。

值得一提的是,數(shù)據(jù)集只包含有咖啡杯的三個(gè)演示,但其中沒(méi)有一個(gè)包括紅色的積木塊。

圖片

類(lèi)似的,雖然模型此前從未見(jiàn)過(guò)烏龜,但照樣可以順利地把綠色積木推到烏龜旁邊

圖片

在零樣本推理方面,PaLM-E可以在給定圖像的情況下講述笑話,并展示了包括感知,基于視覺(jué)的對(duì)話和計(jì)劃在內(nèi)的能力。

圖片

多張圖的關(guān)系,PaLM-E也整得很明白,比如圖一(左)在圖二(右)的哪個(gè)位置。

圖片

此外,PaLM-E還可以在給定帶有手寫(xiě)數(shù)字的圖像執(zhí)行數(shù)學(xué)運(yùn)算。

比如,如下手寫(xiě)餐館的菜單圖,2張披薩需要多少錢(qián),PaLM-E就直接給算出來(lái)了。

圖片

以及一般的QA和標(biāo)注等多種任務(wù)。

圖片

最后,研究結(jié)果還表明,凍結(jié)語(yǔ)言模型是通向完全保留其語(yǔ)言能力的通用具身多模態(tài)模型的可行之路。

但同時(shí),研究人員還發(fā)現(xiàn)了一條解凍模型的替代路線,即擴(kuò)大語(yǔ)言模型的規(guī)??梢燥@著減少災(zāi)難性遺忘。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-03-09 06:31:14

視覺(jué)語(yǔ)言模型人工智能

2025-03-21 10:21:19

2018-05-06 16:52:51

2023-02-27 09:40:47

機(jī)器人ChatGPT

2022-08-18 15:13:37

模型參數(shù)

2017-01-09 17:41:41

2023-03-10 13:01:50

模型AI

2021-10-25 09:06:29

模型人工智能計(jì)算

2019-10-29 09:10:05

機(jī)器人人工智能系統(tǒng)

2024-07-12 13:40:23

2022-08-17 14:35:49

谷歌機(jī)器人模型

2009-06-04 15:26:18

2023-04-06 13:45:50

模型

2017-03-30 09:21:15

智能機(jī)器人互動(dòng)

2019-01-16 23:58:06

曠視科技機(jī)器人

2012-09-10 09:28:51

2014-09-02 10:54:20

架構(gòu)設(shè)計(jì)權(quán)限系統(tǒng)

2023-09-21 10:29:01

AI模型

2022-03-21 11:05:28

機(jī)器人遠(yuǎn)程操控升級(jí)

2023-05-19 10:26:01

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)