當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒(méi)AI會(huì)規(guī)劃
GPT-4V 已經(jīng)能幫我們?cè)O(shè)計(jì)網(wǎng)站代碼,控制瀏覽器,這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實(shí)世界,讓它作為控制機(jī)器人的大腦,會(huì)有什么有趣的結(jié)果呢?
最近,來(lái)自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法,實(shí)現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中,為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。
ViLa 全稱(chēng)是 Robotic Vision-Language Planning,它利用 GPT-4V 在視覺(jué)和語(yǔ)言?xún)蓚€(gè)模態(tài)上做聯(lián)合推理的能力,把抽象的語(yǔ)言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對(duì)物理世界中常識(shí)的理解,而這是很多之前基于大語(yǔ)言模型(LLM)的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。
比如在下面這個(gè)視頻中,研究人員讓機(jī)器人拿出擱板上的漫威模型(鋼鐵俠)。ViLa 能理解這個(gè)場(chǎng)景中物體的復(fù)雜空間位置關(guān)系,即紙杯和可樂(lè)罐擋住了鋼鐵俠,要拿出鋼鐵俠,則必須先拿走紙杯和可樂(lè)罐。
又比如在下面這個(gè)視頻中,研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個(gè)桌面區(qū)域。ViLa 能根據(jù)這個(gè)場(chǎng)景中的剪紙,推斷出現(xiàn)在上課所需的工具是剪刀,把其它危險(xiǎn)物品,比如螺絲刀和水果刀放入收納盒中。
可以看出,ViLa 具有像人類(lèi)一樣的常識(shí),能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。
- 論文地址:https://arxiv.org/pdf/2311.17842.pdf
- 論文主頁(yè):https://robot-vila.github.io/
- 論文視頻:https://www.youtube.com/watch?v=t8pPZ46xtuc
接下來(lái),該研究詳細(xì)介紹了 ViLa 這項(xiàng)研究成果。
方法介紹
ViLa 使用了視覺(jué)語(yǔ)言大模型 (VLM) 來(lái)做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語(yǔ)言?xún)蓚€(gè)模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中,它能基于當(dāng)前環(huán)境的視覺(jué)觀測(cè),結(jié)合自己豐富的世界知識(shí)進(jìn)行推理。作者團(tuán)隊(duì)提出了 ViLa 算法,主張直接使用視覺(jué)語(yǔ)言大模型(如 GPT-4V),將高級(jí)抽象指令分解為一系列低級(jí)可執(zhí)行技能。
給定一條語(yǔ)言指令和當(dāng)前的視覺(jué)觀測(cè)圖像,ViLa 利用 GPT-4V 通過(guò)鏈?zhǔn)剿季S推理來(lái)理解環(huán)境場(chǎng)景,隨后生成多步的計(jì)劃。接著,這個(gè)計(jì)劃的第一步由一個(gè)基本策略來(lái)執(zhí)行。最后,已經(jīng)執(zhí)行的步驟被添加到已完成的計(jì)劃中,使得在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)閉環(huán)規(guī)劃方法。
GPT-4V 由于經(jīng)過(guò)大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長(zhǎng)處理論文中提出的開(kāi)放世界場(chǎng)景。此外,作者團(tuán)隊(duì)發(fā)現(xiàn),即使是在零樣本(Zero-Shot)學(xué)習(xí)模式下運(yùn)行,由 GPT-4V 驅(qū)動(dòng)的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問(wèn)題。這顯著減少了之前方法中所需的提示工程。
實(shí)驗(yàn)
ViLa 在現(xiàn)實(shí)世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力,有效處理各種開(kāi)放集指令和物體對(duì)象。作者團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證明了 ViLa 的優(yōu)勢(shì):1. ViLa 能深刻理解視覺(jué)世界中的常識(shí),2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法,3. ViLa 自然地支持視覺(jué)反饋和閉環(huán)控制。
A. ViLa 能深刻理解視覺(jué)世界中的常識(shí)
語(yǔ)言和圖像作為不同的信號(hào)類(lèi)型,各具獨(dú)特性質(zhì):語(yǔ)言由人類(lèi)生成,富含語(yǔ)義,但在表達(dá)全面信息方面有限;相比之下,圖像作為自然信號(hào),包含細(xì)致的低層次特征,一張圖像便能夠捕捉場(chǎng)景的全部信息。在難以用語(yǔ)言簡(jiǎn)單概括的復(fù)雜場(chǎng)景下,這種差異尤為突出。通過(guò)將視覺(jué)圖片直接結(jié)合到推理過(guò)程中,ViLa 可以理解視覺(jué)世界的常識(shí)知識(shí),擅長(zhǎng)處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。
空間布局
用簡(jiǎn)單的語(yǔ)言描述復(fù)雜的空間布局,尤其是物體定位、位置關(guān)系和環(huán)境限制,是非常困難的。通過(guò)直接將視覺(jué)融入推理過(guò)程,ViLa 可以精確地識(shí)別物體在場(chǎng)景中的位置,以及它們之間的關(guān)系。
在 “拿可樂(lè)罐” 任務(wù)中,ViLa 發(fā)現(xiàn)可樂(lè)罐不在視線中,于是聰明地打開(kāi)了冰箱并找到了它。而基線方法則會(huì)在可樂(lè)罐不在視線中的情況下給出” 拿起可樂(lè)罐 “的錯(cuò)誤指令。
在 “拿空盤(pán)子” 任務(wù)中,ViLa 知道在拿起藍(lán)色盤(pán)子之前,需要先把它上面的蘋(píng)果和香蕉移走。而基線方法則忽視了盤(pán)子上的物體,直接給出” 拿起藍(lán)色盤(pán)子 “的錯(cuò)誤指令。
物體屬性
物體的定義涵蓋多個(gè)屬性,包括形狀、顏色、材質(zhì)、功能等。然而,自然語(yǔ)言的表達(dá)能力有限,因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外,物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過(guò)去的算法難以處理需要深入理解復(fù)雜物體屬性的場(chǎng)景。然而,得益于對(duì)視覺(jué)和語(yǔ)言的聯(lián)合推理,ViLa 對(duì)于物體在特定場(chǎng)景中的屬性有深入的理解。
在 “準(zhǔn)備美術(shù)課” 任務(wù)中,ViLa 認(rèn)為螺絲刀和水果刀是危險(xiǎn)物品,于是移走了它們;考慮到桌上的剪紙,ViLa 認(rèn)為剪刀對(duì)美術(shù)課是必要的物品,于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場(chǎng)景,認(rèn)為剪刀也是危險(xiǎn)物品,選擇將其移走。
在 “挑選新鮮水果” 任務(wù)中,ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。
作者團(tuán)隊(duì)在 8 個(gè)相關(guān)任務(wù)上進(jìn)行了充分的定量實(shí)驗(yàn)。如表一所示,ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過(guò)了基線方法。
B. 多模態(tài)目標(biāo)指定
ViLa 支持靈活的多模態(tài)目標(biāo)指定方法。ViLa 不僅能夠利用語(yǔ)言指令,還能夠利用多種形式的圖像作為目標(biāo),甚至利用語(yǔ)言和圖像的混合形式來(lái)定義目標(biāo)。
視頻中的四個(gè)任務(wù)分別表明:
- ViLa 可以將真實(shí)圖片作為目標(biāo)。
- ViLa 可以將抽象圖片(如小孩的畫(huà),草稿等)作為目標(biāo)。
- ViLa 可以將語(yǔ)言和圖像的混合形式作為目標(biāo)。
- ViLa 可以發(fā)現(xiàn)圖片中手指指著的位置,并將其作為實(shí)際任務(wù)中的目標(biāo)位置。
作者團(tuán)隊(duì)在這四個(gè)任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表二所示,ViLa 在所有任務(wù)中均表現(xiàn)出了強(qiáng)大的識(shí)別多模態(tài)目標(biāo)的能力。
C. 視覺(jué)反饋
ViLa 以直觀、自然的方式有效利用視覺(jué)反饋,在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)魯棒的閉環(huán)規(guī)劃。
- 在 “堆木塊” 任務(wù)中,ViLa 檢測(cè)出了執(zhí)行基本技能時(shí)的失敗,于是重新執(zhí)行了一遍基本技能。
- 在 “放薯片” 任務(wù)中,ViLa 意識(shí)到了執(zhí)行過(guò)程中人的干擾。
- 在 “找貓糧” 任務(wù)中,ViLa 可以不斷地打開(kāi)抽屜 / 柜子來(lái)尋找貓糧,直到找到。
- 此外,ViLa 可以完成需要人機(jī)交互的任務(wù),等待人握住可樂(lè)罐之后才松開(kāi)夾爪。
作者團(tuán)隊(duì)在這四個(gè)任務(wù)上進(jìn)行了定量實(shí)驗(yàn)。如表三中所示,通過(guò)自然地結(jié)合視覺(jué)反饋,閉環(huán)控制的 ViLa 的表現(xiàn)顯著強(qiáng)于開(kāi)環(huán)控制。
D. 模擬環(huán)境實(shí)驗(yàn)
在模擬環(huán)境中,ViLa 可以按照高級(jí)語(yǔ)言指令的指示,將桌子上的物體重新組織成特定的排列。
如表四中所示,ViLa 在模擬環(huán)境中的表現(xiàn)也顯著超過(guò)了基線方法。
了解更多內(nèi)容,請(qǐng)參考原論文。