自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福炒蝦機(jī)器人原班人馬新作!最強(qiáng)大腦Gemini加持,機(jī)器人炫技導(dǎo)航玩出新花樣

人工智能 機(jī)器人
斯坦福炒蝦機(jī)器人團(tuán)隊(duì)時(shí)隔半年再出新作,谷歌最強(qiáng)Gemini 1.5 Pro加持,Mobility VLA讓機(jī)器人在836平方米的辦公室里輕松導(dǎo)航。

時(shí)隔半年,原班人馬聯(lián)合谷歌研究人員,重磅推出全新機(jī)器人自主導(dǎo)航的基礎(chǔ)模型——Mobility VLA。

圖片圖片

與以往不同的是,新架構(gòu)得到了谷歌迄今為止最強(qiáng)Gemini 1.5 Pro大模型的加持。

Gemini 1.5 Pro不僅擁有100k長(zhǎng)上下文,還具備了強(qiáng)大的多模態(tài)能力。給機(jī)器人安上「最強(qiáng)大腦」,可想而知,用在RT-2機(jī)器人身上有多么無(wú)敵。

通過(guò)觀看9000平方英尺谷歌辦公室視頻之后,RT-2機(jī)器人建立起了對(duì)整個(gè)環(huán)境感知的概念。

接下來(lái),就是讓RT-2炫技的時(shí)刻了。

首先,讓RT-2帶自己去一個(gè)能畫(huà)東西的地方。

戴著一個(gè)可愛(ài)的的黃色領(lǐng)結(jié)機(jī)器人回應(yīng)道,「好的,給我一分鐘,讓我用Gemini稍加思考」。

圖片圖片

不一會(huì)兒功夫,它就把人類帶到一塊墻壁大小的白板前。

圖片圖片

然后,它再次收到新的命令,按照白板上指示的路線圖,抵達(dá)「藍(lán)色區(qū)域」。

RT-2再次思考了片刻,然后走了很長(zhǎng)一段路,最終來(lái)到了機(jī)器人測(cè)試區(qū)。

圖片圖片

不僅如此,研究人員主動(dòng)帶領(lǐng)RT-2參觀了Lewis的辦公桌,以及臨時(shí)辦公桌區(qū)域之后,再要求RT-2帶路。

可見(jiàn),RT-2有著強(qiáng)大的記憶能力,能夠準(zhǔn)確識(shí)別位置。

50條指令,完成率90%

RT-2能夠流暢完成以上任務(wù)的奧秘就在于,利用Genimi訓(xùn)練機(jī)器人的導(dǎo)航系統(tǒng)。

具體做法是,拍攝指定區(qū)域(如家庭或辦公空間)的視頻導(dǎo)覽,讓Gemini 1.5 Pro加持的機(jī)器人「觀看」視頻以了解環(huán)境。

接下來(lái),利用Mobility VLA將環(huán)境理解和常識(shí)推理能力結(jié)合起來(lái)。

然后,機(jī)器人可以根據(jù)觀察和學(xué)習(xí)到的情況,對(duì)書(shū)寫(xiě)和語(yǔ)音的指令以及手勢(shì)做出反應(yīng)。

例如,在用戶展示一部手機(jī)并詢問(wèn)「在哪里可以充電」后,機(jī)器人會(huì)引導(dǎo)用戶找到電源插座。

DeepMind表示,在一定空間內(nèi),用Gemini驅(qū)動(dòng)的機(jī)器人,在發(fā)出50多條用戶指令后,完成指令成功率高達(dá)90%。

研究人員還發(fā)現(xiàn),Gemini 1.5 Pro能讓機(jī)器人規(guī)劃如何完成導(dǎo)航以外的指令。

例如,一位小哥桌上擺放著兩排喝光了的肥宅快樂(lè)水罐子,還想再來(lái)一瓶,于是向機(jī)器人詢問(wèn)他最喜歡的飲料是否有貨。

研究小組說(shuō),Gemini指引機(jī)器人應(yīng)該導(dǎo)航到冰箱,檢查是否有可樂(lè),然后返回用戶處報(bào)告結(jié)果。

圖片圖片

DeepMind表示,團(tuán)隊(duì)將進(jìn)一步研究這些機(jī)器人反饋的結(jié)果。

目前,機(jī)器人處理這些指令需要10-30秒的時(shí)間,對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)太慢了,在響應(yīng)速度方面仍有提升空間。

Mobility VLA

在導(dǎo)航研究領(lǐng)域,一個(gè)難以實(shí)現(xiàn)的目標(biāo)是構(gòu)建一個(gè)能夠理解自然語(yǔ)言和圖像等多模態(tài)指令,并執(zhí)行有效導(dǎo)航的智能體。

為了達(dá)成這一目標(biāo),研究人員提出了一類廣泛應(yīng)用的導(dǎo)航任務(wù)——帶有演示路線的多模態(tài)指令導(dǎo)航(Multimodal Instruction Navigation with demonstration Tours,MINT)。

在這種任務(wù)中,環(huán)境信息通過(guò)預(yù)先錄制的演示視頻提供。

圖片圖片

論文地址:https://arxiv.org/abs/2407.07775v1

為了解決MINT任務(wù),研究人員進(jìn)一步提出了一種分層的視覺(jué)-語(yǔ)言-行動(dòng)(Vision-Language-Action,VLA)導(dǎo)航策略——Mobility VLA。它結(jié)合了長(zhǎng)上下文VLMs的環(huán)境理解和常識(shí)推理能力,以及基于拓?fù)鋱D的強(qiáng)大低層導(dǎo)航策略。

其中,高層策略使用長(zhǎng)上下文VLM,將演示路線視頻和多模態(tài)用戶指令作為輸入,在演示視頻中找到目標(biāo)幀。接下來(lái),低層策略利用目標(biāo)幀和離線構(gòu)建的拓?fù)鋱D,在每個(gè)時(shí)間步生成機(jī)器人動(dòng)作。

在一個(gè)836平方米的真實(shí)環(huán)境中的評(píng)估結(jié)果表明,Mobility VLA在以前未解決的多模態(tài)指令上,具有很高的端到端成功率。(例如,「我應(yīng)該把這個(gè)放在哪里?」同時(shí)拿著一個(gè)塑料箱)

圖片圖片

如圖1所示,Mobility VLA是一種分層導(dǎo)航策略,包含在線和離線兩個(gè)部分。

離線階段,會(huì)從演示路線(N,F)中生成一個(gè)拓?fù)鋱DG。在線上,高層策略會(huì)使用演示路線和多模態(tài)用戶指令(d,I)來(lái)找到導(dǎo)航目標(biāo)幀的索引g。

接下來(lái),低層策略會(huì)利用拓?fù)鋱D、當(dāng)前相機(jī)觀測(cè)O和目標(biāo)幀索引g,為機(jī)器人在每個(gè)時(shí)間步生成一個(gè)路徑點(diǎn)動(dòng)作a,以便機(jī)器人執(zhí)行。

圖片圖片

演示路線和離線拓?fù)鋱D生成

首先需要的是環(huán)境演示路線,這個(gè)可以由人類用戶通過(guò)遠(yuǎn)程操作提供,或者只需在環(huán)境中行走時(shí)用智能手機(jī)錄制視頻即可。

然后,Mobility VLA會(huì)離線構(gòu)建一個(gè)拓?fù)鋱DG=(V, E),其中每個(gè)頂點(diǎn)vi∈V對(duì)應(yīng)于演示路線視頻(F, N)中的幀fi。

通過(guò)使用COLMAP這個(gè)現(xiàn)成的結(jié)構(gòu)-從-運(yùn)動(dòng)(structure-from-motion)管線來(lái)確定每幀的近似六自由度(6-Degree-of-Freedom)相機(jī)姿態(tài),并將其存儲(chǔ)在頂點(diǎn)中。

接下來(lái),如果目標(biāo)頂點(diǎn)「在源頂點(diǎn)前面」(距離源頂點(diǎn)的姿態(tài)小于90度)并且在2米以內(nèi),則向G中添加一個(gè)有向邊。

與傳統(tǒng)的導(dǎo)航管線相比(例如,先映射環(huán)境,再識(shí)別可通行區(qū)域,最后構(gòu)建PRM),撲圖方法要簡(jiǎn)單得多,因?yàn)樗芨鶕?jù)游覽軌跡捕捉環(huán)境的一般連通性。

使用長(zhǎng)上下文多模態(tài)VLM進(jìn)行高層目標(biāo)查找

在在線執(zhí)行過(guò)程中,高層策略利用VLMs的常識(shí)推理能力,從演示路線中識(shí)別出符合各種多模態(tài)、口語(yǔ)化且通常模糊的用戶指令的導(dǎo)航目標(biāo)。

為此,研究人員準(zhǔn)備了一個(gè)由交錯(cuò)文本和圖像組成的提示P(F,N,d,I)。

圖片圖片

以下是表1中關(guān)于多模態(tài)用戶指令「我應(yīng)該把這個(gè)放在哪里?」的具體P示例:

You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . 
These frames are from the tour of the building last year . 
[ Frame 1 Image f1] 
Frame 1. [ Frame narrative n1] 
...
[ Frame k Image fk ] 
Frame k . [ Frame narrative nk ] 
This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] 
The user says : Where should I return this ? 
How would you respond ? Can you find the closest frame ?

此時(shí),VLM會(huì)返回一個(gè)整數(shù)形式的目標(biāo)幀索引g。

使用拓?fù)鋱D實(shí)現(xiàn)低層目標(biāo)到達(dá)

一旦高層策略識(shí)別出目標(biāo)幀索引g,低層策略(算法1)就會(huì)接管,并在每個(gè)時(shí)間步生成一個(gè)路徑點(diǎn)動(dòng)作(公式1)。

圖片圖片

對(duì)于每個(gè)時(shí)間步,使用一個(gè)實(shí)時(shí)的分層視覺(jué)定位系統(tǒng),來(lái)基于當(dāng)前的相機(jī)觀測(cè)O,來(lái)估計(jì)機(jī)器人的姿態(tài)T和最近的起始頂點(diǎn)vs∈G。

這個(gè)定位系統(tǒng)會(huì)根據(jù)全局描述符找到拓?fù)鋱DG中的k個(gè)最近候選幀,然后通過(guò)PnP計(jì)算出機(jī)器人的姿態(tài)T。

接下來(lái),通過(guò)Dijkstra算法(第9行)在拓?fù)鋱D上找到從起始頂點(diǎn)vs到目標(biāo)頂點(diǎn)vg(即目標(biāo)幀索引g對(duì)應(yīng)的頂點(diǎn))之間的最短路徑S。

最后,低層策略會(huì)返回一個(gè)路徑點(diǎn)動(dòng)作,該動(dòng)作只是路徑S中下一個(gè)頂點(diǎn)v1相對(duì)于當(dāng)前姿態(tài)T的位移?x,?y和旋轉(zhuǎn)角度?θ(第10行)。

實(shí)驗(yàn)

為了探究Mobility VLA的性能,研究人員針對(duì)以下三個(gè)問(wèn)題進(jìn)行了實(shí)驗(yàn)設(shè)計(jì)。

RQ1:Mobility VLA在現(xiàn)實(shí)世界的MINT中表現(xiàn)如何?

RQ2:Mobility VLA是否因?yàn)槭褂昧碎L(zhǎng)上下文VLM而優(yōu)于其他方案?

RQ3:拓?fù)鋱D是否必要?VLM能否直接生成動(dòng)作?

演示路線:通過(guò)使用游戲手柄遠(yuǎn)程操作機(jī)器人來(lái)收集演示路線。所有走廊都從相反方向走了兩次。最終的路線大約16分鐘長(zhǎng)(每秒1幀,共948幀),并且在路線中添加了「每個(gè)人的臨時(shí)辦公桌」和「Lewis的辦公桌」的敘述,分別在5:28和7:14幀,以實(shí)現(xiàn)個(gè)性化導(dǎo)航。

多模態(tài)用戶指令:收集了4個(gè)類別共57條用戶指令。包括:20條無(wú)須推理的指令(RF),15條需要推理的指令(RR),12條關(guān)于小物件的指令(SO),以及10條多模態(tài)指令(MM)。

RQ1:Mobility VLA在真實(shí)環(huán)境中強(qiáng)大的端到端性能

- 極高的端到端成功率

表2顯示,Mobility VLA 在大多數(shù)用戶指令類別中具有高端到端導(dǎo)航成功率,包括以前難以實(shí)現(xiàn)的需要推理和多模態(tài)指令,并且還具有合理的SPL(成功率加權(quán)路徑長(zhǎng)度)。

然而,在小物件類別中的成功率顯著較低。

最后,Mobility VLA 成功地在演示路線中加入了個(gè)性化敘述。在響應(yīng)基本相同但來(lái)自不同用戶的指令時(shí),它能夠正確地導(dǎo)航到不同的位置。

圖片圖片

- 穩(wěn)健的低層目標(biāo)到達(dá)能力

表2還顯示了Mobility VLA在現(xiàn)實(shí)世界中低級(jí)目標(biāo)到達(dá)策略的穩(wěn)健性,其成功率達(dá)到了100%。

值得注意的是,演示路線是在實(shí)驗(yàn)前幾個(gè)月錄制的,當(dāng)時(shí)許多物體、家具和光照條件都與實(shí)驗(yàn)時(shí)不同。

- 大規(guī)模仿真確認(rèn)高端到端成功率

為了進(jìn)一步探索端到端性能,研究人員利用仿真來(lái)擴(kuò)大評(píng)估數(shù)量。

具體來(lái)說(shuō),通過(guò)使用NeRF創(chuàng)建辦公室環(huán)境的高保真仿真重建,并針對(duì)20個(gè)語(yǔ)言指令任務(wù)進(jìn)行評(píng)估,每個(gè)任務(wù)有50個(gè)隨機(jī)起始姿態(tài)。

實(shí)驗(yàn)結(jié)果顯示,高層目標(biāo)找到率為90%,低層目標(biāo)到達(dá)率為100%,總共成功執(zhí)行了900次端到端操作。

圖片圖片

- 使用手機(jī)導(dǎo)航進(jìn)行家庭環(huán)境的泛化

為了展示Mobility VLA的通用性和易用性,研究人員在一個(gè)真實(shí)的類家庭環(huán)境中進(jìn)行了概念驗(yàn)證實(shí)驗(yàn)。其中,演示是通過(guò)Google Pixel 6手機(jī)錄制的。

結(jié)果顯示,成功率為100%,SPL為0.87。這表明Mobility VLA:

1. 無(wú)論在什么環(huán)境下都表現(xiàn)良好;

2. 極易于部署。(用戶只需使用手機(jī)錄制環(huán)境導(dǎo)航,上傳給機(jī)器人后即可開(kāi)始下達(dá)命令)

研究人員表示,這種通用性和易用性在機(jī)器人導(dǎo)航中是前所未見(jiàn)的。

圖片圖片

RQ2:長(zhǎng)上下文多模態(tài)VLM在高層目標(biāo)尋找方面更優(yōu)

- Mobility VLA優(yōu)于其他方法

表3顯示,Mobility VLA在高層目標(biāo)找到成功率方面顯著高于其他方法。

鑒于其低層目標(biāo)到達(dá)成功率為100%,這些高層目標(biāo)找到成功率也代表了端到端的整體成功率。

圖片圖片

- 使用長(zhǎng)上下文VLM處理高幀率導(dǎo)航視頻是成功的關(guān)鍵

表4顯示,隨著視頻幀率的降低,高層目標(biāo)找到的成功率也隨之下降。(因?yàn)檩^低的幀率會(huì)錯(cuò)過(guò)重要的導(dǎo)航目標(biāo)幀)

此外,在比較最先進(jìn)的VLM時(shí),只有上下文長(zhǎng)度高達(dá)1M token的Gemini 1.5 Pro,才取得了令人滿意的成功率。

圖片

圖3展示了,在給出「我想要更多這個(gè)」的多模態(tài)指令和桌子上幾個(gè)可樂(lè)罐的圖片時(shí),Mobility VLA能夠正確識(shí)別出包含冰箱的幀,并引導(dǎo)用戶前往。

而基于CLIP的檢索方法則找到一個(gè)包含水瓶和一些雜物的桌子區(qū)域,認(rèn)為其最接近完整指令圖像,因?yàn)槭褂肙wl-ViT很難從指令圖像中提取出「用戶想要什么」。

GPT-4o錯(cuò)誤地嘗試找到最接近指令圖像的幀,而GPT-4V因無(wú)法找到包含飲料的幀而拒絕給出幀號(hào)。

最后,純文本方法無(wú)法理解「這個(gè)」是指可樂(lè)罐還是辦公室環(huán)境,因?yàn)樗鼉H依賴于指令圖像的文字說(shuō)明。

圖片圖片

RQ3:拓?fù)鋱D對(duì)成功至關(guān)重要

- 拓?fù)鋱D對(duì)導(dǎo)航成功至關(guān)重要

表5展示了Mobility VLA與直接提示VLM輸出路徑點(diǎn)動(dòng)作相比,在模擬中的端到端表現(xiàn)。

0%的端到端成功率表明,如果沒(méi)有拓?fù)鋱D,Gemini 1.5 Pro無(wú)法在零樣本(Zero-shot)情況下導(dǎo)航機(jī)器人。而且,Gemini 1.5 API需要在每次推理調(diào)用時(shí)上傳所有948張圖像,導(dǎo)致每步運(yùn)行時(shí)間高達(dá)26秒,而機(jī)器人僅移動(dòng)1米。

相比之下,Mobility VLA的高層VLM需要花費(fèi)10-30秒找到目標(biāo)索引,然后機(jī)器人使用低層拓?fù)鋱D導(dǎo)航到目標(biāo),從而形成一個(gè)高度穩(wěn)健且高效(每步0.19秒)的MINT解算系統(tǒng)。

圖片圖片

谷歌的十年血淚史

「機(jī)器人時(shí)代已經(jīng)到來(lái),AI的下一波浪潮將是物理AI,機(jī)器人將日益融入我們的日常生活中,一切都將機(jī)器人化?!?/span>

老黃在6月的演講中已經(jīng)預(yù)判了未來(lái)人形機(jī)器人發(fā)展的大好前景。

炫酷的賽博朋克風(fēng)人形機(jī)器人正在吸引亞馬遜、谷歌、Nvidia和微軟等巨頭科技公司的密切關(guān)注和數(shù)億元的投資。

馬斯克也將特斯拉的未來(lái)押注在機(jī)器人上,預(yù)測(cè)機(jī)器人Optimus「擎天柱」可能會(huì)把市值推向25億美元。

「或許未來(lái)不到十年內(nèi),人們就可以給父母買(mǎi)一個(gè)機(jī)器人作為生日禮物了。」

馬斯克此話一出,想到自己頂著烈日取外賣(mài)、辛辛苦苦做家務(wù)或者滿世界找鑰匙的你是不是感覺(jué)腰桿一松?

其實(shí),谷歌的機(jī)器人制造并不是一路順利。

早在2012到2013年間,谷歌就一口氣收購(gòu)了包括波士頓動(dòng)力在內(nèi)的11家機(jī)器人公司。

當(dāng)時(shí),正是安卓系統(tǒng)創(chuàng)始人Andy Rubin在管理谷歌機(jī)器人產(chǎn)品線,意識(shí)到機(jī)器人發(fā)展前途無(wú)限的谷歌試圖加速AI機(jī)器人的商業(yè)布局。

在當(dāng)時(shí)以軟件見(jiàn)長(zhǎng)的谷歌在并不擅長(zhǎng)的硬件領(lǐng)域,選擇用收購(gòu)的方式來(lái)最大程度整合技術(shù)資源。

谷歌也一度認(rèn)為,只要有了硬件基礎(chǔ),再加以最拿手的軟件一結(jié)合,就能解決機(jī)器人領(lǐng)域的技術(shù)壁壘。

然而現(xiàn)實(shí)運(yùn)作中卻殘酷地發(fā)現(xiàn),機(jī)器人的運(yùn)行準(zhǔn)確度遠(yuǎn)遠(yuǎn)達(dá)不到要求。

比如你是一位公司大老板,一位成熟技工工作準(zhǔn)確率能達(dá)到98%,而機(jī)器人只有不到90%。

這時(shí)你會(huì)選擇雇傭一位成熟技工還是購(gòu)買(mǎi)昂貴且易出錯(cuò)的機(jī)器人,并再雇傭一個(gè)人監(jiān)督調(diào)整機(jī)器人的工作?

當(dāng)前機(jī)器人的準(zhǔn)確度可以達(dá)到80%-90%,為了最后的10%投入大量資金和人力,卻看不到回報(bào)。

Andy Rubin爆出丑聞后離開(kāi)了谷歌,當(dāng)初收購(gòu)的企業(yè)也分崩離析,波士頓更是以低于當(dāng)時(shí)收購(gòu)估值三倍的價(jià)格賣(mài)出。

由此可見(jiàn),軟件和硬件設(shè)施的制造以及兩者的結(jié)合,成為機(jī)器人制作領(lǐng)域最為頭疼的難題。

那么,在AI大模型熱潮之下,這是否會(huì)為機(jī)器人制造帶來(lái)曙光?有學(xué)習(xí)能力的機(jī)器人能否實(shí)現(xiàn)?

參考資料:

https://techcrunch.com/2024/07/11/watch-a-robot-navigate-the-google-deepmind-offices-using-gemini/

https://www.theverge.com/2024/7/11/24196402/google-deepmind-gemini-1-5-pro-robot-navigation

https://arxiv.org/abs/2407.07775v1

https://x.com/zipengfu/status/1811448045680382281

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-01-05 13:24:29

谷歌家務(wù)機(jī)器人AI

2024-01-29 07:00:00

機(jī)器人AI

2024-01-04 17:17:56

數(shù)據(jù)訓(xùn)練

2024-09-11 14:59:00

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2020-10-15 15:42:00

人工智能

2022-05-09 08:01:23

countdistinctMySQL

2017-01-09 17:41:41

2024-03-15 15:15:15

數(shù)據(jù)模型開(kāi)源

2024-07-22 08:00:00

機(jī)器人虛擬

2024-01-16 12:43:00

機(jī)器人AI

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2012-11-20 16:23:19

飛輪UPS數(shù)據(jù)中心電源

2021-04-19 20:30:06

機(jī)器人AI人工智能

2021-06-03 12:16:18

騰訊云機(jī)器人Robotics X

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2015-07-28 09:36:11

機(jī)器人

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)