Gemini 1.5 Pro裝進(jìn)機(jī)器人,參觀一遍公司就能禮賓、帶路
最近,谷歌 DeepMind 突然開始炫起了機(jī)器人。
這個(gè)機(jī)器人可以輕松聽從人類指令、進(jìn)行視覺(jué)導(dǎo)覽,用常識(shí)推理在三維空間中尋找路徑。
它使用的是最近谷歌發(fā)布的大模型 Gemini 1.5 Pro。在使用傳統(tǒng) AI 模型時(shí),機(jī)器人常因上下文長(zhǎng)度限制而難以回憶起環(huán)境細(xì)節(jié),但 Gemini 1.5 Pro 的百萬(wàn)級(jí) token 上下文長(zhǎng)度為機(jī)器人提供了強(qiáng)大的環(huán)境記憶能力。
在真實(shí)的辦公室場(chǎng)景中,工程師引導(dǎo)機(jī)器人游覽特定區(qū)域,并標(biāo)出了需要回憶的關(guān)鍵地點(diǎn),例如「劉易斯的辦公桌」或「臨時(shí)辦公桌區(qū)域」。轉(zhuǎn)完一圈后,別人要問(wèn)起來(lái),機(jī)器人就能根據(jù)這些記憶帶他去這些地點(diǎn)了。
即使你說(shuō)不出具體要去的地點(diǎn),只是表達(dá)一下目的,機(jī)器人也能帶你找到對(duì)應(yīng)的位置。這是大模型的推理能力在機(jī)器人身上的具體表現(xiàn)。
這一切離不開一個(gè)叫 Mobility VLA 的導(dǎo)航策略。
- 論文標(biāo)題:Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
- 論文鏈接:https://arxiv.org/pdf/2407.07775v1
DeepMind 表示,這項(xiàng)工作代表了人機(jī)交互的下一步。未來(lái),用戶可以簡(jiǎn)單地用智能手機(jī)拍攝他們的環(huán)境游覽經(jīng)歷。在看過(guò)視頻后,他們的個(gè)人機(jī)器人助手就能理解并在環(huán)境中導(dǎo)航。
Mobility VLA:利用長(zhǎng)上下文 VLM 和拓?fù)鋱D進(jìn)行多模態(tài)指令導(dǎo)航
隨著 AI 技術(shù)的不斷發(fā)展,機(jī)器人導(dǎo)航已經(jīng)取得了長(zhǎng)足進(jìn)步。早期的工作依賴于用戶在預(yù)先繪制的環(huán)境中指定物理坐標(biāo)。物體目標(biāo)導(dǎo)航(ObjNav)和視覺(jué)語(yǔ)言導(dǎo)航(VLN)是機(jī)器人可用性的一大飛躍,因?yàn)樗鼈冊(cè)试S用戶使用開放詞匯語(yǔ)言來(lái)定義導(dǎo)航目標(biāo),如「去沙發(fā)那里」。
為了讓機(jī)器人在我們的日常生活中真正有用并無(wú)處不在,谷歌 DeepMind 的研究者提出將 ObjNav 和 VLN 的自然語(yǔ)言空間提升到多模態(tài)空間,這意味著機(jī)器人可以同時(shí)接受自然語(yǔ)言和 / 或圖像指令,從而實(shí)現(xiàn)另一次飛躍。例如,一個(gè)不熟悉某棟建筑的人可以一邊拿著塑料箱子一邊問(wèn):「我應(yīng)該把這個(gè)還到哪里去?」,機(jī)器人會(huì)根據(jù)語(yǔ)言和視覺(jué)上下文引導(dǎo)用戶把箱子還到架子上。他們將這類導(dǎo)航任務(wù)稱為多模態(tài)指示導(dǎo)航(MIN)。
MIN 是一項(xiàng)廣泛的任務(wù),包括環(huán)境探索和指令引導(dǎo)導(dǎo)航。不過(guò),在許多情況下,人們可以通過(guò)充分利用示范游覽視頻來(lái)繞過(guò)探索。示范游覽有幾個(gè)好處:
- 易于收集:用戶可以遙控機(jī)器人,或者在環(huán)境中行走時(shí)用智能手機(jī)錄制視頻。此外,還有一些探索算法可用于創(chuàng)建導(dǎo)覽。
- 它符合用戶的習(xí)慣做法:當(dāng)用戶得到一個(gè)新的家用機(jī)器人時(shí),自然會(huì)帶著機(jī)器人在家里轉(zhuǎn)轉(zhuǎn),他們可以在參觀過(guò)程中口頭介紹感興趣的地點(diǎn)。
- 在某些情況下,出于安全和保護(hù)隱私的目的,限制機(jī)器人在預(yù)先設(shè)定的區(qū)域內(nèi)活動(dòng)是可取的。為此,作者在本文中介紹并研究了這一類任務(wù),即「多模態(tài)指示游覽導(dǎo)航(MINT)」,它利用示范游覽,重點(diǎn)是滿足用戶的多模態(tài)指示。
最近,大型視覺(jué)語(yǔ)言模型(VLMs)在解決 MINT 問(wèn)題上顯示出巨大潛力,這得益于它們?cè)谡Z(yǔ)言、圖像理解以及常識(shí)推理方面令人印象深刻的能力,這些都是實(shí)現(xiàn) MINT 的關(guān)鍵要素。然而,單靠 VLM 難以解決 MINT 問(wèn)題,原因如下:
- 由于上下文長(zhǎng)度的限制,許多 VLM 的輸入圖像數(shù)量非常有限,這嚴(yán)重限制了大型環(huán)境中環(huán)境理解的保真度。
- 解決 MINT 問(wèn)題需要計(jì)算機(jī)器人的行動(dòng)。請(qǐng)求此類機(jī)器人動(dòng)作的查詢通常與 VLM(預(yù))訓(xùn)練的內(nèi)容不一致。因此,機(jī)器人的零樣本性能往往不能令人滿意。
為了解決 MINT 問(wèn)題,DeepMind 提出了 Mobility VLA,這是一種分層式視覺(jué) - 語(yǔ)言 - 行動(dòng)(VLA)導(dǎo)航策略。它結(jié)合了長(zhǎng)上下文 VLM 的環(huán)境理解和常識(shí)推理能力,以及基于拓?fù)鋱D的穩(wěn)健 low-level 導(dǎo)航策略。
具體來(lái)說(shuō),high-level VLM 使用示范游覽視頻和多模態(tài)用戶指令來(lái)找到游覽視頻中的目標(biāo)幀。接下來(lái),一個(gè)經(jīng)典的 low-level 策略使用目標(biāo)幀和拓?fù)鋱D(從游覽幀中離線構(gòu)建)在每個(gè)時(shí)間步生成機(jī)器人動(dòng)作(航點(diǎn),waypoint)。長(zhǎng)上下文 VLM 的使用解決了環(huán)境理解的保真度問(wèn)題,拓?fù)鋱D則彌補(bǔ)了 VLM 的訓(xùn)練分布與解決 MINT 所需的機(jī)器人行動(dòng)之間的差距。
作者在現(xiàn)實(shí)世界(836 平方米)的辦公室和類似家庭的環(huán)境中對(duì)移動(dòng) VLA 進(jìn)行了評(píng)估。在之前難以實(shí)現(xiàn)的涉及復(fù)雜推理(例如「我想把東西存放在公眾視線之外,我該去哪里?」)和多模態(tài)用戶指令的 MINT 任務(wù)上,Mobility VLA 達(dá)到了 86% 和 90% 的成功率(分別比基線方法高出 26% 和 60%)。
作者還展示了用戶與機(jī)器人互動(dòng)的便捷性的巨大進(jìn)步,用戶可以在家庭環(huán)境中使用智能手機(jī)進(jìn)行帶解說(shuō)的視頻漫游,然后詢問(wèn)「我的杯墊放在哪里了?」
技術(shù)細(xì)節(jié)
Mobilit VLA 是一種分層導(dǎo)航策略(如圖 1 所示),包括在線和離線兩個(gè)部分。
在離線階段,根據(jù)示范游覽(N,F)生成拓?fù)鋱D G。在在線階段,high-level 策略通過(guò)示范游覽和多模態(tài)用戶指令(d,I)找到導(dǎo)航目標(biāo)幀索引 g,該索引是一個(gè)整數(shù),對(duì)應(yīng)于游覽的特定幀。下一步,low-level 策略利用拓?fù)鋱D、當(dāng)前攝像頭觀測(cè)數(shù)據(jù)(O)和 g,在每個(gè)時(shí)間步產(chǎn)生一個(gè)航點(diǎn)動(dòng)作(a),供機(jī)器人執(zhí)行。
其中,h 和 l 分別代表 high-level 和 low-level 策略。
示范游覽和離線拓?fù)鋱D生成
Mobility VLA 利用環(huán)境示范游覽來(lái)解決 MINT 問(wèn)題。這種游覽可以由人類用戶通過(guò)遠(yuǎn)程操作進(jìn)行,也可以在環(huán)境中行走時(shí)用智能手機(jī)錄制視頻。
然后,Mobility VLA 會(huì)離線構(gòu)建拓?fù)鋱D G = (V,E),其中每個(gè)頂點(diǎn) v_i∈V 都對(duì)應(yīng)演示游覽視頻 (F, N) 中的幀 f_i。作者使用 COLMAP(一種現(xiàn)成的運(yùn)動(dòng)結(jié)構(gòu)管道)來(lái)確定每幀的近似 6 自由度相機(jī)姿態(tài),并將其存儲(chǔ)在頂點(diǎn)中。接下來(lái),如果目標(biāo)頂點(diǎn)位于源頂點(diǎn)的「前方」(與源頂點(diǎn)的姿態(tài)相差小于 90 度),且距離在 2 米以內(nèi),則會(huì)在 G 中添加一條有向邊。
與傳統(tǒng)的導(dǎo)航 pipeline(例如繪制環(huán)境地圖、識(shí)別可穿越區(qū)域,然后構(gòu)建 PRM)相比,拓?fù)鋱D方法要簡(jiǎn)單得多,因?yàn)樗芨鶕?jù)游覽軌跡捕捉環(huán)境的一般連通性。
基于長(zhǎng)上下文多模態(tài) VLM 的 High-Level 目標(biāo)尋找
在在線執(zhí)行過(guò)程中,high-level 策略利用 VLM 的常識(shí)推理能力,從示范游覽中確定一個(gè)導(dǎo)航目標(biāo),以滿足各種多模態(tài)、口語(yǔ)化且往往含糊不清的用戶指令。為此,研究者準(zhǔn)備了一個(gè)由文字和圖像交錯(cuò)組成的提示 P (F,N,d,I)。下面是多模態(tài)用戶指令的一個(gè)具體例子,對(duì)應(yīng)的是表 1 中的一個(gè)問(wèn)題 ——「Where should I return this?」。
You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I]
The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
VLM 返回一個(gè)整數(shù)目標(biāo)幀索引 g。
利用拓?fù)鋱D實(shí)現(xiàn) low-level 目標(biāo)
一旦 high-level 策略確定了目標(biāo)幀索引 g,low-level 策略(算法 1)就會(huì)接手,并在每個(gè)時(shí)間步產(chǎn)生一個(gè)航點(diǎn)動(dòng)作(公式 1)。
在每個(gè)時(shí)間步中,作者使用實(shí)時(shí)分層視覺(jué)定位系統(tǒng),利用當(dāng)前相機(jī)觀測(cè)值 O 估算機(jī)器人的姿態(tài) T 和最近的起始頂點(diǎn) v_s∈G (第 5 行)。該定位系統(tǒng)通過(guò)全局描述符在 G 中找到 k 個(gè)最近的候選幀,然后通過(guò) PnP 計(jì)算 T。接下來(lái),通過(guò) Dijkstra 算法(第 9 行)確定 v_s 與目標(biāo)頂點(diǎn) v_g(與 g 對(duì)應(yīng)的頂點(diǎn))之間拓?fù)鋱D上的最短路徑 S。最后,low-level 策略會(huì)返回一個(gè)航點(diǎn)動(dòng)作,即 S 中下一個(gè)頂點(diǎn) v_1 相對(duì)于 T 的 ?x、?y、?θ(第 10 行)。
實(shí)驗(yàn)結(jié)果
為了展示 Mobility VLA 的性能并進(jìn)一步了解關(guān)鍵設(shè)計(jì),作者設(shè)計(jì)了實(shí)驗(yàn)來(lái)回答以下研究問(wèn)題:
- 問(wèn)題 1:在現(xiàn)實(shí)世界中,Mobility VLA 在 MINT 中是否表現(xiàn)出色?
- 問(wèn)題 2:Mobility VLA 是否會(huì)因?yàn)槭褂瞄L(zhǎng)上下文 VLM 而優(yōu)于替代方案的性能?
- 問(wèn)題 3:拓?fù)鋱D是否必要?VLM 能否直接產(chǎn)生行動(dòng)?
Mobility VLA 在現(xiàn)實(shí)環(huán)境中有著穩(wěn)健的端到端表現(xiàn)
1、端到端成功率高。表 2 顯示,在大多數(shù)用戶指令類別中,Mobility VLA 的端到端導(dǎo)航成功率都很高,包括以前不可行的「推理 - 要求」和「多模態(tài)」指令。
2、穩(wěn)健的 low-level 目標(biāo)達(dá)成。表 2 還顯示了 Mobility VLA 的 low-level 目標(biāo)達(dá)成策略在現(xiàn)實(shí)世界中的穩(wěn)健性(100% 成功率)。其中的示范游覽記錄是在實(shí)驗(yàn)前幾個(gè)月錄制的,當(dāng)時(shí)許多物體、家具和照明條件都不同。
長(zhǎng)上下文 VLM 在高級(jí)目標(biāo)查找方面優(yōu)于其他選擇
1、Mobility VLA 優(yōu)于替代方案。表 3 顯示,Mobility VLA 的 high-level 目標(biāo)查找成功率明顯高于對(duì)比方法。鑒于 low-level 成功率為 100%,這一 high-level 目標(biāo)查找成功率代表了端到端成功率。
2、使用長(zhǎng)上下文 VLM 處理高幀率游覽視頻是成功的關(guān)鍵。向非長(zhǎng)上下文 VLM 輸入大型環(huán)境的完整示范游覽是一項(xiàng)挑戰(zhàn),因?yàn)槊糠鶊D像都需要數(shù)百個(gè) token 的預(yù)算。減少輸入 token 數(shù)量的一個(gè)解決方案是降低游覽視頻幀頻,但代價(jià)是中間幀丟失。表 4 顯示,隨著游覽幀頻的降低,high-level 目標(biāo)查找成功率也在降低。這并不奇怪,因?yàn)閹瘦^低的游覽視頻有時(shí)會(huì)丟失導(dǎo)航目標(biāo)幀。此外,在比較最先進(jìn)的 VLM 時(shí),只有 Gemini 1.5 Pro 的成功率令人滿意,這要?dú)w功于其長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的上下文長(zhǎng)度。
拓?fù)鋱D是成功的關(guān)鍵
表 5 顯示了 Mobility VLA 在模擬中的端到端性能與提示 VLM 直接輸出航點(diǎn)操作的比較。0% 的端到端成功率表明,Gemini 1.5 Pro 在沒(méi)有拓?fù)鋱D的情況下無(wú)法實(shí)現(xiàn)機(jī)器人的零樣本導(dǎo)航。根據(jù)實(shí)驗(yàn),作者發(fā)現(xiàn)無(wú)論當(dāng)前攝像頭的觀測(cè)結(jié)果如何,Gemini 幾乎總是輸出「向前移動(dòng)」的航點(diǎn)動(dòng)作。此外,當(dāng)前的 Gemini 1.5 API 需要在每次推理調(diào)用時(shí)上傳全部 948 幅游覽圖像,導(dǎo)致機(jī)器人每移動(dòng) 1 米就需要花費(fèi) 26 秒的運(yùn)行時(shí)間,成本之高令人望而卻步。另一方面,Mobility VLA 的 high-level VLM 會(huì)花費(fèi) 10-30 秒找到目標(biāo)索引,然后機(jī)器人會(huì)使用 low-level 拓?fù)鋱D導(dǎo)航到目標(biāo),從而形成一個(gè)高度穩(wěn)健和高效(每步 0.19 秒)的系統(tǒng)來(lái)解決 MINT 問(wèn)題。
更多細(xì)節(jié)請(qǐng)參考原論文。