出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
想知道世界SOTA級(jí)別的模型用在物理世界中有多震撼嗎?Google DeepMind做了一件破天荒的事情。
大模型自爆火以來(lái),已經(jīng)過(guò)去兩年多,但在物理世界中真正能轉(zhuǎn)化為機(jī)器人行為,還是一個(gè)世界級(jí)難題。如何讓機(jī)器人理解物理世界,并能與之安全、高效地交互也是各大科技巨頭一直在研究的兩大前沿命題。
圖片
這一次,以Google DeepMind為主導(dǎo)的研究團(tuán)隊(duì)投入了近120名研究人員,耗時(shí)一年半,一次性給這兩個(gè)命題做出了突破性的進(jìn)展。
新定義具身通用最強(qiáng)SOTA,轟動(dòng)硅谷!物理世界的原生推理能力、靈活性讓人驚掉下巴!網(wǎng)友:億些震撼!51CTO技術(shù)棧已關(guān)注分享點(diǎn)贊在看已同步到看一看寫(xiě)下你的評(píng)論 視頻詳情
先來(lái)看看DeepMind重磅推出的兩大模型:Gemini Robotics-ER 和 Gemini Robotics。
首先,Gemini Robotics-ER(Embodied Reasoning):這是一個(gè)增強(qiáng)版的多模態(tài)模型,專注于物理世界的推理能力,包括物體檢測(cè)、軌跡預(yù)測(cè)、抓取預(yù)測(cè)和 3D 理解等。
其次,Gemini Robotics:這是基于 Gemini Robotics-ER 的 VLA 模型,能夠直接控制機(jī)器人,執(zhí)行復(fù)雜的操作任務(wù),并支持零樣本和少樣本學(xué)習(xí),同時(shí)在不同環(huán)境中表現(xiàn)出強(qiáng)大的泛化能力。
圖片
可以說(shuō),谷歌DeepMind把“通用大模型用在機(jī)器人領(lǐng)用“重新立了一個(gè)領(lǐng)先的樣板。
進(jìn)廠給齒輪套個(gè)皮圈,完全無(wú)壓力:
圖片
可以和人類玩家下井字棋,水平還不低:
圖片
甚至可以疊個(gè)千紙鶴:
圖片
網(wǎng)友看完展示的demo感受到億些震撼,直接說(shuō):
我一直認(rèn)為阿西莫夫的機(jī)器人定律("機(jī)器人不得傷害人類 "等)是科幻小說(shuō)中的一個(gè)有趣道具,與計(jì)算和機(jī)器人技術(shù)的實(shí)際工作方式完全脫節(jié)。原來(lái),他只是在寫(xiě)大模型的提示語(yǔ)。
圖片
Gemini 2.0 的物理世界推理能力究竟有多強(qiáng)?
用大模型解決機(jī)器人問(wèn)題就需要讓其全面了解物理世界。GoogleDeepmind華人研究員Ted Xiao表示,“多模態(tài)模型是解決這一難題的關(guān)鍵部分,因此我們從最強(qiáng)大的模型-- Gemini 2.0 開(kāi)始。我們利用新的具身推理問(wèn)答 (ERQA) 基準(zhǔn)來(lái)驗(yàn)證 Gemini 的真實(shí)世界知識(shí)?!?/span>
圖片
這里需要注意,具身問(wèn)答推理ERQA是DeepMind團(tuán)隊(duì)研發(fā)的一套新基準(zhǔn),用于評(píng)估多模態(tài)模型的物理世界推理能力。Gemini 2.0 在該基準(zhǔn)測(cè)試中表現(xiàn)出色,顯示出其在空間推理、軌跡推理和動(dòng)作推理等方面的能力。
圖片
究竟Geimini2.0有多厲害?可以看下測(cè)試詳情和表現(xiàn):
- 2D 和 3D 物體檢測(cè):Gemini 2.0 能夠通過(guò)自然語(yǔ)言指令檢測(cè)圖像中的物體,并提供精確的 2D 和 3D 邊界框。
- 指向和軌跡預(yù)測(cè):模型能夠根據(jù)語(yǔ)言描述指向特定物體或空間位置,并生成 2D 軌跡。
- 抓取預(yù)測(cè):Gemini Robotics-ER 增強(qiáng)了 Gemini 2.0 的抓取預(yù)測(cè)能力,使其能夠預(yù)測(cè)物體的抓取點(diǎn)。
開(kāi)啟具身推理時(shí)代:Gemini Robotics-ER徹底解鎖了機(jī)器人雙手的鐐銬
Gemini Robotics-ER(具身推理)是 Gemini 2.0 的增強(qiáng)版,以機(jī)器人技術(shù)所需的方式增強(qiáng)了其空間和時(shí)間理解能力。這就解鎖了機(jī)器人在指向、多視圖和 3D 理解以及抓握預(yù)測(cè)等基本功能。
圖片
它牛在何處呢?簡(jiǎn)單來(lái)說(shuō),這個(gè)模型的目標(biāo)是讓機(jī)器人理解復(fù)雜的、動(dòng)態(tài)的世界。
以打包午餐盒為例,這種任務(wù)哪怕幾歲的小孩都能輕松的完成。
圖片
但訓(xùn)練一個(gè)機(jī)器人完成同樣的工作,涉及的問(wèn)題就多了:當(dāng)桌上擺放著多個(gè)物品時(shí),需要知道每樣物品的準(zhǔn)確位置、如何打開(kāi)午餐盒、如何抓取物品、以及如何正確擺放它們,才能夠完成整個(gè)工作。
最令人可貴的是,該模型可以直接用于機(jī)器人應(yīng)用,端到端機(jī)器人控制能力。據(jù)介紹,Gemini Robotics-ER 可以執(zhí)行開(kāi)箱即用控制機(jī)器人所需的所有步驟,包括感知、狀態(tài)估計(jì)、空間理解、規(guī)劃和代碼生成。
在這樣的端到端設(shè)置中,與 Gemini 2.0 相比,該模型實(shí)現(xiàn)了 2 到 3 倍的成功率。
在代碼生成不足的情況下,Gemini Robotics-ER 甚至可以利用上下文學(xué)習(xí)的力量,機(jī)器人還能通過(guò)上下文學(xué)習(xí),借鑒少量人類示范來(lái)生成解決方案。真的是越來(lái)越聰明了!
一個(gè)明顯的例子是,Gemini Robotics-ER 結(jié)合了空間推理和 Gemini 的編碼能力,可以動(dòng)態(tài)實(shí)例化全新的功能。
例如,當(dāng)展示一個(gè)咖啡杯時(shí),模型可以憑直覺(jué)判斷出適當(dāng)?shù)碾p指抓握以通過(guò)手柄拾取它,并可以安全地接近它。
而且,如果代碼生成無(wú)法完全滿足需求,機(jī)器人還能通過(guò)上下文學(xué)習(xí),借鑒少量人類示范來(lái)生成解決方案。真的是越來(lái)越聰明了!
此外,模型可以連接到現(xiàn)有的 低級(jí)控制器(robot low-level controllers,例如,馬達(dá)、傳感器、執(zhí)行器),從而解鎖 Gemini Robotics-ER 賦能的新功能。
舉個(gè)例子來(lái)說(shuō),無(wú)論機(jī)器人配備的是兩個(gè)機(jī)械手指還是靈巧手,Gemini Robotics-ER 都能提供所需的推理結(jié)果,幫助機(jī)器人識(shí)別最佳的抓取位置等,從而順利完成目標(biāo)動(dòng)作。
從Robotics-ER驗(yàn)證了一件事:具身智能自己做模型,而不是直接接入主流模型,是有很意義的!
新SOTA模型誕生:Gemini Robotics !原生多模態(tài)的通用VLA模型
在具身推理能力的基礎(chǔ)上,DeepMind團(tuán)隊(duì)引入了 Gemini Robotics,這是一種新的 SOTA 視覺(jué)-語(yǔ)言-動(dòng)作 (VLA) 模型。這是一個(gè)非常強(qiáng)大的通用模型,能夠執(zhí)行非常靈巧的任務(wù),同時(shí)仍遵循指令并進(jìn)行概括。
圖片
Gemini Robotics 已經(jīng)是一款突破性的預(yù)訓(xùn)練通用 VLA,但這還不是全部!研究團(tuán)隊(duì)還展示了它如何輕松地專門(mén)用于長(zhǎng)距離靈活性、高級(jí)推理、快速適應(yīng)新任務(wù),并轉(zhuǎn)移到全新的機(jī)器人化身(如人形機(jī)器人)。
Ted Xiao表示:“很難描述體驗(yàn)通用 VLA 行動(dòng)策略、強(qiáng)大的具身推理世界知識(shí)和 Gemini 2.0 --的原生多模態(tài)性的結(jié)合是多么神奇,這些的交互性和凝聚力整合非常有意義。”
圖片
七大創(chuàng)新,定義機(jī)器人世界的原生多模態(tài)通用SOTA
整體看下來(lái),Gemini Robotics 有以下7個(gè)創(chuàng)新點(diǎn):
1.長(zhǎng)時(shí)序復(fù)雜任務(wù)通過(guò)進(jìn)一步的微調(diào),Gemini Robotics 能夠解決更復(fù)雜的長(zhǎng)時(shí)序任務(wù),例如折紙、玩牌游戲等。在這些任務(wù)中,Gemini Robotics 的成功率顯著高于其他基線模型,甚至在一些任務(wù)中達(dá)到了 100% 的成功率。
2. 快速適應(yīng)新任務(wù)在技術(shù)報(bào)告中展示了 Gemini Robotics 在通過(guò)少量演示數(shù)據(jù)快速適應(yīng)新任務(wù)方面的能力。在多個(gè)短時(shí)序任務(wù)中,Gemini Robotics 只需 100 個(gè)演示數(shù)據(jù)即可達(dá)到超過(guò) 70% 的成功率,顯示出強(qiáng)大的學(xué)習(xí)能力。
3. 適應(yīng)新機(jī)器人形態(tài)Gemini Robotics 能夠通過(guò)少量數(shù)據(jù)適應(yīng)全新的機(jī)器人形態(tài),例如雙臂機(jī)器人和人形機(jī)器人。在這些新形態(tài)的機(jī)器人上,Gemini Robotics 的表現(xiàn)與專門(mén)的單任務(wù)模型相當(dāng),甚至在某些任務(wù)中表現(xiàn)更好。
4. 安全性和責(zé)任開(kāi)發(fā)該項(xiàng)目在開(kāi)發(fā)過(guò)程中遵循 Google AI 原則,確保模型的安全性和責(zé)任性。開(kāi)發(fā)了安全策略,以防止模型生成有害內(nèi)容或執(zhí)行不安全的動(dòng)作。通過(guò) ASIMOV 數(shù)據(jù)集對(duì)模型進(jìn)行了安全評(píng)估,確保其在物理世界中的行為符合人類的安全標(biāo)準(zhǔn)。
5. 模型架構(gòu)和低延遲設(shè)計(jì)Gemini Robotics 由云端的 VLA 主干網(wǎng)絡(luò)和機(jī)器人本地的動(dòng)作解碼器組成,能夠在低延遲下實(shí)現(xiàn)流暢的運(yùn)動(dòng)和實(shí)時(shí)控制。這種架構(gòu)設(shè)計(jì)使得模型能夠在保持強(qiáng)大泛化能力的同時(shí),實(shí)現(xiàn)高效的實(shí)時(shí)控制。
6. 多樣化任務(wù)的泛化能力Gemini Robotics 在多樣化任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力,能夠處理從簡(jiǎn)單抓取到復(fù)雜操作的各種任務(wù)。在多個(gè)任務(wù)中,Gemini Robotics 的成功率和進(jìn)度得分顯著高于基線模型,尤其是在需要泛化能力的任務(wù)中。
7. 語(yǔ)言指令的精確跟隨Gemini Robotics 能夠精確地遵循自然語(yǔ)言指令,即使在包含新物體和復(fù)雜指令的場(chǎng)景中也能表現(xiàn)出色。在多個(gè)語(yǔ)言指令跟隨任務(wù)中,Gemini Robotics 的成功率顯著高于其他基線模型,顯示出其在語(yǔ)言理解和執(zhí)行方面的強(qiáng)大能力。
耗時(shí)一年半摸索出物理世界通用大模型的基本路線
如此先進(jìn)的模型遠(yuǎn)比訓(xùn)練微調(diào)一個(gè)定制模型那么簡(jiǎn)單,據(jù)Ted Xiao介紹,這個(gè)項(xiàng)目耗時(shí)一年半!整個(gè)過(guò)程非常有趣:從基本的前沿模型多模態(tài)能力,到先進(jìn)的具身推理,再到機(jī)器人低級(jí)控制。《Gemini Robotics: Bringing AI into the Physical World》的作者包括來(lái)自 Google DeepMind 的研究團(tuán)隊(duì)成員,多達(dá)116位。
圖片
具身智能們都在“卷”這三件事
最近,具身智能領(lǐng)域的驚喜頻頻!
從稚暉君靈犀X2機(jī)器人刷屏的“騎自行車”“針縫葡萄”,到今天谷歌推出兩款SOTA級(jí)別的具身智能模型。
其實(shí),具身智能們都在緊鑼密鼓地卷這三件事,以讓AI機(jī)器人真正有用:
- 通用性(Generality):能夠適應(yīng)不同場(chǎng)景并解決多種任務(wù),包括訓(xùn)練時(shí)未見(jiàn)過(guò)的任務(wù)。
- 交互性(Interactivity):能夠理解并迅速響應(yīng)指令,適應(yīng)環(huán)境變化。
- 靈巧性(Dexterity):能夠執(zhí)行需要精細(xì)操作的任務(wù),例如精準(zhǔn)操控物體。
圖片
稚暉君則將這三個(gè)方向總結(jié)為:運(yùn)動(dòng)智能(靈巧性)、交互智能(交互性)、和作業(yè)智能(通用性)。
圖片
在通用性方面,未來(lái)的目標(biāo)聚焦在零樣本泛化能力上。稚暉君介紹,靈犀X2目前已具備簡(jiǎn)單任務(wù)的零樣本泛化能力。而Gemini Robotics 則依托 Gemini 的世界知識(shí)實(shí)現(xiàn)了這一點(diǎn)。任務(wù)的零樣本泛化賦予機(jī)器人“隨機(jī)應(yīng)變”的能力,真正能處理新物體、復(fù)雜指令和未知環(huán)境。
在交互性方面,則要依靠模型能力的提升。無(wú)論是靈犀X2定制的多模態(tài)交互大模型硅光動(dòng)語(yǔ),還是Gemini Robotics從Gemini 2.0上獲取了強(qiáng)大的語(yǔ)言理解能力,都是為了讓機(jī)器人在協(xié)作過(guò)程中更加自然、流暢。
在靈巧性方面,考驗(yàn)的是機(jī)器人精細(xì)操作的能力,除了模型大腦的指揮要到位以外,硬件和材料的更新也同樣重要。現(xiàn)在,Gemini Robotics 已經(jīng)勝任了折紙、將零食裝入密封袋等,需要高度精準(zhǔn)的多步操作,但每步動(dòng)作的流暢度還有很大提升空間。
寫(xiě)在最后
隨著具身智能領(lǐng)域的進(jìn)展,通用性、交互性和靈巧性已成為共識(shí)。無(wú)論是Google推出的Gemini Robotics,還是稚暉君的靈犀X2,機(jī)器人都在這些核心領(lǐng)域持續(xù)突破,讓我們離真正的智能機(jī)器人越來(lái)越近。
去年,Google發(fā)布了“機(jī)器人憲章”,內(nèi)容就受到阿西莫夫機(jī)器人三定律的啟發(fā)。我們有理由相信,這波科技浪潮的涌動(dòng),正在把我們帶向一個(gè)科幻世界。
或許,下一個(gè)出現(xiàn)在我們身邊的“機(jī)器人伙伴”,就是那個(gè)帶領(lǐng)我們進(jìn)入新時(shí)代的智能使者。
參考鏈接:
1.https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
2.https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models?utm_source=chatgpt.com