自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="khhrm"><rp id="khhrm"></rp></cite>

<cite id="khhrm"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

終結(jié)者最強(qiáng)大腦！谷歌發(fā)布史上最大「通才」模型PaLM-E，5620億參數(shù)，看圖說(shuō)話還能操控機(jī)器人

作者：新智元 2023-03-08 13:54:19

人工智能新聞

谷歌剛剛上線了一個(gè)炸彈級(jí)「通才」模型PaLM-E，足足有5620億參數(shù)。它是一種多模態(tài)具身視覺(jué)語(yǔ)言模型，從引導(dǎo)機(jī)器人執(zhí)行任務(wù)，到回答關(guān)于可觀察世界的問(wèn)題，全都能搞定。

大語(yǔ)言模型的飛速「變異」，讓人類(lèi)社會(huì)的走向越來(lái)越科幻了。點(diǎn)亮這棵科技樹(shù)后，「終結(jié)者」的現(xiàn)實(shí)仿佛離我們?cè)絹?lái)越近。

前幾天，微軟剛宣布了一個(gè)實(shí)驗(yàn)框架，能用ChatGPT來(lái)控制機(jī)器人和無(wú)人機(jī)。

谷歌當(dāng)然也不甘其后，在周一，來(lái)自谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大視覺(jué)語(yǔ)言模型——PaLM-E。

論文地址：https://arxiv.org/abs/2303.03378

作為一種多模態(tài)具身視覺(jué)語(yǔ)言模型 (VLM)，PaLM-E不僅可以理解圖像，還能理解、生成語(yǔ)言，而且竟然還能將兩者結(jié)合起來(lái)，處理復(fù)雜的機(jī)器人指令。

此外，通過(guò)PaLM-540B語(yǔ)言模型與ViT-22B視覺(jué)Transformer模型相結(jié)合，PaLM-E最終的參數(shù)量高達(dá)5620億。

橫跨機(jī)器人、視覺(jué)-語(yǔ)言領(lǐng)域的「通才」模型

PaLM-E，全稱(chēng)Pathways Language Model with Embodied，是一種具身視覺(jué)語(yǔ)言模型。

它的強(qiáng)大之處在于，能夠利用視覺(jué)數(shù)據(jù)來(lái)增強(qiáng)其語(yǔ)言處理能力。

當(dāng)我們訓(xùn)練出最大的視覺(jué)語(yǔ)言模型，并與機(jī)器人結(jié)合后，會(huì)發(fā)生什么？結(jié)果就是PaLM-E，一個(gè) 5620億參數(shù)、通用、具身的視覺(jué)語(yǔ)言通才——橫跨機(jī)器人、視覺(jué)和語(yǔ)言

據(jù)論文介紹，PaLM-E是一個(gè)僅有解碼器的LLM，在給定前綴（prefix）或提示（prompt）下，能夠以自回歸方式生成文本補(bǔ)全。

其訓(xùn)練數(shù)據(jù)為包含視覺(jué)、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語(yǔ)句。

經(jīng)過(guò)單個(gè)圖像提示訓(xùn)練，PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù)，還可以生成描述圖像的語(yǔ)言。

可以說(shuō)，PaLM-E展示了前所未有的靈活性和適應(yīng)性，代表著一次重大飛躍，特別是人機(jī)交互領(lǐng)域。

更重要的是，研究人員證明，通過(guò)在多個(gè)機(jī)器人和一般視覺(jué)語(yǔ)言的不同混合任務(wù)組合進(jìn)行訓(xùn)練，可以帶來(lái)從視覺(jué)語(yǔ)言轉(zhuǎn)移到具身決策的幾種方法，讓機(jī)器人規(guī)劃任務(wù)時(shí)能夠有效地利用數(shù)據(jù)。

除此之外，PaLM-E尤為突出的一點(diǎn)在于，擁有強(qiáng)大的正遷移能力。

在不同領(lǐng)域訓(xùn)練的PaLM-E，包括互聯(lián)網(wǎng)規(guī)模的一般視覺(jué)-語(yǔ)言任務(wù)，與執(zhí)行單一任務(wù)機(jī)器人模型相比，性能明顯提高。

而在模型尺度上，研究人員則觀察到了一個(gè)顯著的優(yōu)勢(shì)。

語(yǔ)言模型越大，在視覺(jué)語(yǔ)言與機(jī)器人任務(wù)的訓(xùn)練中，保持的語(yǔ)言能力就越強(qiáng)。

從模型規(guī)模來(lái)看，5620億參數(shù)的PaLM-E幾乎保持了它所有的語(yǔ)言能力。

盡管只在單個(gè)圖像進(jìn)行訓(xùn)練，但PaLM-E在多模態(tài)思維鏈推理和多圖像推理等任務(wù)中表現(xiàn)出突出的能力。

在OK-VQA基準(zhǔn)上，PaLM-E取得了新的SOTA。

測(cè)評(píng)結(jié)果

在測(cè)試中，研究人員展示了如何使用PaLM-E在兩個(gè)不同實(shí)體上執(zhí)行規(guī)劃以及長(zhǎng)跨度的任務(wù)。

值得注意的是，所有這些結(jié)果都是使用基于相同數(shù)據(jù)訓(xùn)練的相同模型獲得的。

在以前，機(jī)器人通常需要人工的協(xié)助才能完成長(zhǎng)跨度任務(wù)。但現(xiàn)在，PaLM-E通過(guò)自主學(xué)習(xí)就可以搞定了。

比如，「從抽屜里拿出薯片」這類(lèi)指令中，就包括了多個(gè)計(jì)劃步驟，以及來(lái)自機(jī)器人攝像頭的視覺(jué)反饋。

經(jīng)過(guò)端到端訓(xùn)練的PaLM-E，可以直接從像素開(kāi)始對(duì)機(jī)器人進(jìn)行規(guī)劃。由于模型被集成到一個(gè)控制回路中，所以機(jī)器人在拿薯片的過(guò)程中，對(duì)途中的干擾都有魯棒性。

人類(lèi)：給我來(lái)點(diǎn)薯片。

機(jī)器人：1. 走到抽屜旁 2.打開(kāi)最上面的抽屜 3. 從最上面的抽屜里拿起綠色的薯片 4.放在柜臺(tái)上。

同樣，讓機(jī)器人去拿一個(gè)蘋(píng)果時(shí)，給出圖片后，機(jī)器人執(zhí)行任務(wù)步驟如下——

人類(lèi)：給我拿一個(gè)蘋(píng)果。

機(jī)器人：1.走向蘋(píng)果 2.拿起蘋(píng)果 3.把它拿給操作員 4.放下蘋(píng)果 5.完成。

除了執(zhí)行長(zhǎng)跨度任務(wù)，PaLM-E可以讓機(jī)器人執(zhí)行規(guī)劃任務(wù)，比如排列積木。

研究人員根據(jù)視覺(jué)和語(yǔ)言輸入成功地進(jìn)行多階段的計(jì)劃，并結(jié)合了長(zhǎng)時(shí)間范圍的視覺(jué)反饋，進(jìn)而讓模型能夠成功地規(guī)劃一個(gè)長(zhǎng)周期的任務(wù)「將積木按顏色分類(lèi)到不同的角落」。

如下，在排列組合上，機(jī)器人化身為多面手，按顏色將積木排序。

模型的泛化方面，PaLM- E控制的機(jī)器人可以把紅色積木移到咖啡杯的旁邊。

值得一提的是，數(shù)據(jù)集只包含有咖啡杯的三個(gè)演示，但其中沒(méi)有一個(gè)包括紅色的積木塊。

類(lèi)似的，雖然模型此前從未見(jiàn)過(guò)烏龜，但照樣可以順利地把綠色積木推到烏龜旁邊

在零樣本推理方面，PaLM-E可以在給定圖像的情況下講述笑話，并展示了包括感知，基于視覺(jué)的對(duì)話和計(jì)劃在內(nèi)的能力。

多張圖的關(guān)系，PaLM-E也整得很明白，比如圖一（左）在圖二（右）的哪個(gè)位置。

此外，PaLM-E還可以在給定帶有手寫(xiě)數(shù)字的圖像執(zhí)行數(shù)學(xué)運(yùn)算。

比如，如下手寫(xiě)餐館的菜單圖，2張披薩需要多少錢(qián)，PaLM-E就直接給算出來(lái)了。

以及一般的QA和標(biāo)注等多種任務(wù)。

最后，研究結(jié)果還表明，凍結(jié)語(yǔ)言模型是通向完全保留其語(yǔ)言能力的通用具身多模態(tài)模型的可行之路。

但同時(shí)，研究人員還發(fā)現(xiàn)了一條解凍模型的替代路線，即擴(kuò)大語(yǔ)言模型的規(guī)?？梢燥@著減少災(zāi)難性遺忘。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="jhq2d"></style>

<sub id="jhq2d"></sub>

<cite id="jhq2d"></cite>