自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌報復性砸出5620億參數(shù)大模型!比ChatGPT更恐怖,機器人都能用,學術圈已刷屏

人工智能 新聞
這兩天,一個名叫PaLM-E的大模型在AI學術圈瘋狂刷屏。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

為應對新一輪技術競賽,谷歌還在不斷出后手。

這兩天,一個名叫PaLM-E的大模型在AI學術圈瘋狂刷屏。

圖片

它能只需一句話,就讓機器人去廚房抽屜里拿薯片。

即便是中途干擾它,它也會堅持執(zhí)行任務。

圖片

PaLM-E擁有5620億參數(shù),是GPT-3的三倍多,號稱史上最大規(guī)模視覺語言模型。而它背后的打造團隊,正是谷歌和柏林工業(yè)大學。

作為一個能處理多模態(tài)信息的大模型,它還兼具非常強的邏輯思維。

比如能從一堆圖片里,判斷出哪個是能滾動的。

圖片

還會看圖做算數(shù):

圖片

有人感慨:

這項工作比ChatGPT離AGI更近一步??!

圖片

而另一邊,微軟其實也在嘗試ChatGPT指揮機器人干活。

這么看,谷歌是憑借PaLM-E一步到位了?

邏輯性更強的大模型

PaLM-E是將PaLM和ViT強強聯(lián)合。

5620億的參數(shù)量,其實就是如上兩個模型參數(shù)量相加而來(5400億+220億)。

PaLM是谷歌在22年發(fā)布的語言大模型,它是Pathways架構訓練出來的,能通過“思考過程提示”獲得更準確的邏輯推理能力,減少AI生成內容中的錯誤和胡言亂語。

Pathways是一種稀疏模型架構,是谷歌AI這兩年重點發(fā)展方向之一,目標就是訓練出可執(zhí)行成千上百種任務的通用模型。

ViT是計算機視覺領域的經典工作了,即Vision Transformer。

兩者結合后,PaLM-E可以處理多模態(tài)信息。包括:

  • 語言
  • 圖像
  • 場景表征
  • 物體表征

通過加一個編碼器,模型可以將圖像或傳感器數(shù)據(jù)編碼為一系列與語言標記大小相同的向量,將此作為輸入用于下一個token預測,進行端到端訓練。

具體能力方面,PaLM-E表現(xiàn)出了比較強的邏輯性。

比如給它一張圖片,然后讓它根據(jù)所看到的做出蛋糕。

模型能先判斷出圖像中都有什么,然后分成9步講了該如何制作蛋糕,從最初的磕雞蛋到最后洗碗都包括在內。

圖片

有人還調侃說,這機器人怎么在把蛋糕給我前先自己吃了?

圖片

還有根據(jù)圖片做判斷:我能在這條路上騎自行車嗎?

模型進行一系列邏輯推斷:

1、不能進入
2、除了自行車
3、除了自行車以外都不能進入
4、答案是可以

圖片

這和人類思考的過程確實很像了。

不僅如此,模型的最強大之處在于,它無需經過預處理,即提前理解環(huán)境。

它做出判斷和回答,完全是基于它自己的“經驗”。

研究人員表示,這項成果表現(xiàn)出了很強的正向遷移(positive transfer)能力。

在多個領域任務的訓練中,PaLM-E的表現(xiàn)都優(yōu)于單項任務機器人模型。

而且他們還發(fā)現(xiàn),語言模型的規(guī)模越大,它最終能保持的語言理解能力越強。

比如使用5400億參數(shù)規(guī)模的PaLM時,PaLM-E在語言任務上的實際能力僅下降了3.9%。

圖片

從實驗結果來看,PaLM-E在OK-VQA基準上達到新SOTA。

圖片

在模擬環(huán)境下的任務完成度也都不錯。

再次驗證大力出奇跡

目前這項研究已引發(fā)非常廣泛的討論。

主要在于以下幾個方面:

1、一定程度上驗證了“大力出奇跡”
2、比ChatGPT更接近AGI?

一方面,作為目前已知的規(guī)模最大的視覺語言模型,PaLM-E的表現(xiàn)已經足夠驚艷了。

去年,DeepMind也發(fā)布過一個通才大模型Gota,在604個不同的任務上接受了訓練。

但當時有很多人認為它并不算真正意義上的通用,因為研究無法證明模型在不同任務之間發(fā)生了正向遷移。

論文作者表示,這或許是因為模型規(guī)模還不夠大。

如今,PaLM-E似乎完成了這一論證。

圖片

不過也有聲音擔心,這是不是把卷參數(shù)從NLP引到了CV圈?

另一方面,是從大趨勢上來看。

有人表示,這項工作看上去要比ChatGPT更接近AGI啊。

的確,用ChatGPT還只是提供文字建議,很多具體動手的事還要自己來。

但PaLM-E屬于把大模型能力拉入到具象化層面,AI和物理世界之間的結界要被打破了。

圖片

而且這個趨勢顯然也是大家都在琢磨的,微軟前不久也發(fā)布了一項非常相似的工作——讓ChatGPT指揮機器人。

除此之外,還有很多人表示,這再一次驗證了多模態(tài)是未來。

不過,這項成果現(xiàn)在只有論文和demo發(fā)布,真正能力有待驗證。

圖片

此外還有人發(fā)現(xiàn),模型驅動的機器人,背后的開發(fā)團隊在幾周前被谷歌一鍋端了。。。

圖片

所以關于PaLM-E的更多后續(xù),咱們還得再蹲蹲看。

論文地址:https://arxiv.org/abs/2303.03378


責任編輯:張燕妮 來源: 量子位
相關推薦

2019-06-19 09:19:35

職場互聯(lián)網網絡

2023-03-09 06:31:14

視覺語言模型人工智能

2024-05-07 13:24:54

2023-03-08 13:54:19

谷歌模型

2009-03-11 08:03:23

摩托羅拉解雇CFO

2020-04-30 13:30:30

Facebook 機器人開源

2012-07-27 14:16:14

2020-12-31 06:55:37

機器人自然語言人工智能

2019-03-27 09:27:06

機器人人工智能系統(tǒng)

2024-11-25 08:20:00

2024-09-18 13:30:00

2023-07-29 13:43:26

機器人模型

2022-07-20 16:36:02

模型AI

2019-10-18 09:11:55

工業(yè)機器人智能制造智能化

2010-02-05 10:31:46

谷歌機器人

2024-12-13 15:41:46

2023-05-23 09:56:14

機器人谷歌

2023-02-13 11:42:39

2023-01-28 09:10:09

ChatGPTAI機器人

2023-02-15 14:33:26

點贊
收藏

51CTO技術棧公眾號