強(qiáng)化學(xué)習(xí)大牛Sergey Levine新作:三個大模型教會機(jī)器人認(rèn)路
?內(nèi)置大模型的機(jī)器人,在不看地圖的情況下,學(xué)會了按照語言指令到達(dá)目的地,這項成果來自強(qiáng)化學(xué)習(xí)大牛 Sergey Levine 的新作。
給定一個目的地,在沒有導(dǎo)航軌跡的情況下順利到達(dá),有多難?
對于方向感不好的人類來說,這個任務(wù)也是很有挑戰(zhàn)性。但在最近的一項研究中,幾位學(xué)者只用三個預(yù)訓(xùn)練模型就把機(jī)器人「教會了」。
我們都知道,機(jī)器人學(xué)習(xí)的核心挑戰(zhàn)之一是使機(jī)器人能夠按照人類的高級指令執(zhí)行各種各樣的任務(wù)。這就要求機(jī)器人能夠理解人類的指令,并配備大量不同的動作,以便在現(xiàn)實世界中執(zhí)行這些指令。
對于導(dǎo)航中的指令遵循任務(wù)來說,此前的工作主要集中在從帶有文本指令注釋的軌跡中學(xué)習(xí)。這樣可能可以實現(xiàn)對文本指令的理解,但數(shù)據(jù)注釋的成本問題阻礙了這種技術(shù)的廣泛使用。另一方面,最近的工作表明,自監(jiān)督訓(xùn)練的目標(biāo)條件策略可以學(xué)習(xí)到穩(wěn)健的導(dǎo)航。這些方法基于大型的、無標(biāo)記的數(shù)據(jù)集,通過事后重新標(biāo)記來訓(xùn)練基于視覺的控制器。這些方法具有可擴(kuò)展性、通用性和穩(wěn)健性,但通常需要使用基于位置或圖像的笨重的目標(biāo)規(guī)范機(jī)制。
在一篇最新的論文中,UC 伯克利、谷歌等機(jī)構(gòu)的研究者旨在結(jié)合這兩種方法的優(yōu)勢,使機(jī)器人導(dǎo)航的自監(jiān)督系統(tǒng)能夠適用于沒有任何用戶注釋的導(dǎo)航數(shù)據(jù),利用預(yù)訓(xùn)練模型的能力來執(zhí)行自然語言指令。研究者使用這些模型來構(gòu)建一個「界面」,用來向機(jī)器人傳達(dá)任務(wù)。這個系統(tǒng)借助于預(yù)訓(xùn)練的語言和視覺 - 語言模型的概括能力,使機(jī)器人系統(tǒng)能夠接受復(fù)雜的高級指令。
?
- 論文鏈接:https://arxiv.org/pdf/2207.04429.pdf
- 代碼鏈接:https://github.com/blazejosinski/lm_nav
研究者觀察到,可以利用在視覺和語言數(shù)據(jù)集的大型語料庫上訓(xùn)練的現(xiàn)成預(yù)訓(xùn)練模型(這些語料庫廣泛可用,并顯示出零樣本泛化能力)來創(chuàng)建界面,以實現(xiàn)具體的指令跟蹤。為了實現(xiàn)這一點,研究者結(jié)合了視覺和語言的 robot-agnostic 預(yù)訓(xùn)練模型以及預(yù)訓(xùn)練導(dǎo)航模型的優(yōu)點。具體而言,他們使用視覺導(dǎo)航模型(VNM:ViNG)來將機(jī)器人的視覺結(jié)果創(chuàng)建為環(huán)境的拓?fù)洹感睦淼貓D」。給定自由形式的文本指令,使用預(yù)訓(xùn)練的大型語言模型(LLM:GPT-3)將指令解碼為一系列文本形式的特征點。然后,使用視覺語言模型(VLM:CLIP)通過推斷特征點和節(jié)點的聯(lián)合似然概率來在拓?fù)鋱D中建立這些文本特征點。之后使用一種新的搜索算法來最大化概率目標(biāo)函數(shù),并找到機(jī)器人的指令路徑,然后由 VNM 執(zhí)行。 研究的主要貢獻(xiàn)在于大規(guī)模模型下的導(dǎo)航方法(LM Nav),一個具體的指令跟蹤系統(tǒng)。它結(jié)合了三個大型的獨立預(yù)訓(xùn)練模型——一個利用視覺觀察和物理動作(VNM)的自監(jiān)督機(jī)器人控制模型,一個將圖像置于文本中但沒有具體實施環(huán)境(VLM)的視覺語言模型,以及一個大型語言模型,該模型可以解析和翻譯文本,但沒有視覺基礎(chǔ)或體現(xiàn)感(LLM),以便在復(fù)雜的真實環(huán)境中實現(xiàn)長視野指令跟蹤。研究者首次將預(yù)訓(xùn)練的視覺和語言模型與目標(biāo)條件控制器相結(jié)合的想法實例化,以在目標(biāo)環(huán)境中不進(jìn)行任何微調(diào)的情況下得出可操作的指令路徑。值得注意的是,這三個模型都是在大規(guī)模數(shù)據(jù)集上訓(xùn)練的,具有自監(jiān)督的目標(biāo)函數(shù),并且在沒有微調(diào)的情況下現(xiàn)成使用 - 訓(xùn)練 LM Nav 不需要對機(jī)器人導(dǎo)航數(shù)據(jù)進(jìn)行人工注釋。
?實驗表明,LM Nav 能夠在 100 米的復(fù)雜郊區(qū)導(dǎo)航過程中,在新環(huán)境中成功地遵循自然語言指令,同時使用細(xì)粒度命令消除路徑歧義。
?LM-Nav 模型概覽
那么,研究者是如何利用預(yù)訓(xùn)練好的圖像和語言模型,為視覺導(dǎo)航模型提供文本界面的?
?1、 給定目標(biāo)環(huán)境中的一組觀測值,使用目標(biāo)條件距離函數(shù),也就是視覺導(dǎo)航模型(VNM)的一部分,推斷它們之間的連通性,并構(gòu)建環(huán)境中連通性的拓?fù)鋱D。
?2、大型語言模型(LLM)用于將自然語言指令解析為一連串的特征點,這些特征點可以作為導(dǎo)航的中間子目標(biāo)。
?3、視覺 - 語言模型(VLM)被用來在特征點短語上的基礎(chǔ)上建立視覺觀察結(jié)果。視覺 - 語言模型推斷出一個關(guān)于特征點描述和圖像的聯(lián)合概率分布(形成上述圖形中的節(jié)點)。
?4、利用 VLM 的概率分布和 VNM 推斷的圖連接性,采用一種新穎的搜索算法,在環(huán)境中檢索出一個最優(yōu)指令路徑,該指令路徑(i)滿足原始指令,(ii)是圖中能實現(xiàn)目標(biāo)的最短的路徑。
?
5、 然后,該指令路徑由目標(biāo)條件策略執(zhí)行,該策略是 VNM 的一部分。?
實驗結(jié)果
定性評估?
圖 4 展示了機(jī)器人所走路徑的一些實例(注意,機(jī)器人無法獲得頭頂上的圖像和特征點的空間定位,所顯示的只是視覺效果)。
?在圖 4(a) 中,LM-Nav 能夠成功地從其先前的穿越中定位出簡單的特征點,并找到一條通往目標(biāo)的短路徑。雖然環(huán)境中存在多個停車特征點,但公式 3 中的目標(biāo)函數(shù)使機(jī)器人在上下文中選擇正確的停車特征點,從而使整體行進(jìn)距離最小。
圖 4(b) 強(qiáng)調(diào)了 LM-Nav 解析有多個特征點的指定路線的能力—盡管在無視指令路徑的情況下,直接到達(dá)最后的特征點是最短路線,但機(jī)器人仍然能找到了一條以正確順序訪問所有特征點的路徑。
?使用指令來消除歧義。由于 LM Nav 的目標(biāo)是遵循指令,而不僅僅是達(dá)到最終目標(biāo),不同的指令可能導(dǎo)致不同的遍歷。圖 5 展示了修改指令可以消除目標(biāo)的多條路徑歧義的示例。對于較短的 prompt(藍(lán)色),LM Nav 首選更直接的路徑。在指定更細(xì)粒度的路線(洋紅色)時,LM Nav 采用通過不同特征點集的備用路徑。
?缺少特征點的情況。雖然 LM-Nav 能夠有效地解析指令中的特征點,在圖上對它們進(jìn)行定位,并找到通往目標(biāo)的路徑,但這個流程依賴于這樣的假設(shè):特征點(i)存在于真實環(huán)境中,以及(ii)可以被 VLM 識別。圖 4(c) 顯示了這樣一種情況:可執(zhí)行的路徑未能訪問其中一個特征點—一個消防栓—于是采取了一條繞過建筑物頂部而不是底部的路徑。這種失敗案例是由于 VLM 無法從機(jī)器人的觀察中發(fā)現(xiàn)消防栓。
在獨立評估的 VLM 在檢索特征點方面的功效時,研究者發(fā)現(xiàn),盡管它是此類任務(wù)的最佳 off-the-shelf 模型,但 CLIP 無法檢索少量的 「硬 」特征點,包括消防栓和水泥攪拌器。但是在許多實際情況下,機(jī)器人仍然能夠成功地找到一條訪問其余特征點的路徑。
定量評估?
表 1 總結(jié)了該系統(tǒng)在 20 條指令中的量化表現(xiàn)。在 85% 的實驗中,LM-Nav 能夠始終遵循指令,沒有發(fā)生碰撞或脫離(平均每 6.4 公里的行進(jìn)有一次干預(yù))。與無導(dǎo)航模型的 baseline 相比,LM-Nav 在執(zhí)行高效、無碰撞的目標(biāo)路徑方面一直表現(xiàn)得更好。在所有不成功的實驗中,失敗可歸因于規(guī)劃階段的能力不足——搜索算法無法直觀地定位圖中的某些「硬」特征點—導(dǎo)致指令的不完整執(zhí)行。對這些失敗模式的調(diào)查表明,系統(tǒng)中最關(guān)鍵的部分是 VLM 檢測不熟悉的特征點的能力,例如消防栓,以及在具有挑戰(zhàn)性的照明條件下的場景,例如曝光不足的圖像。
?