北大具身智能新成果:無(wú)需訓(xùn)練,聽指令就能靈活走位
北京大學(xué)董豪團(tuán)隊(duì)具身導(dǎo)航最新成果來(lái)了:
無(wú)需額外建圖和訓(xùn)練,只需說(shuō)出導(dǎo)航指令,如:
Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen
我們就能控制機(jī)器人靈活移動(dòng)。
在此,機(jī)器人靠的是主動(dòng)與大模型構(gòu)成的“專家團(tuán)隊(duì)”溝通完成指令分析、視覺感知、完成估計(jì)和決策測(cè)試等一系列視覺語(yǔ)言導(dǎo)航關(guān)鍵任務(wù)。
目前項(xiàng)目主頁(yè)和論文都已上線,代碼即將推出:
機(jī)器人如何根據(jù)人類指令導(dǎo)航?
視覺語(yǔ)言導(dǎo)航涉及到一系列子任務(wù),包括指令分析,視覺感知,完成估計(jì)和決策測(cè)試。
這些關(guān)鍵任務(wù)需要不同領(lǐng)域知識(shí),它們環(huán)環(huán)相扣決定機(jī)器人的導(dǎo)航能力。
受到現(xiàn)實(shí)中專家討論行為的啟發(fā),北大董豪團(tuán)隊(duì)提出DiscussNav導(dǎo)航系統(tǒng)。
作者首先以提示方式賦予LLM(大語(yǔ)言模型)和MLM(多模態(tài)大模型)專家角色和特定任務(wù),激活它們的領(lǐng)域知識(shí)和能力,由此構(gòu)建具備不同特長(zhǎng)的視覺導(dǎo)航專家團(tuán)隊(duì)。
然后,作者設(shè)計(jì)了討論問(wèn)題語(yǔ)料庫(kù)和討論機(jī)制,遵循該機(jī)制,由LLM驅(qū)動(dòng)的導(dǎo)航機(jī)器人可以主動(dòng)發(fā)起一系列與視覺導(dǎo)航專家的討論。
在每一步移動(dòng)前,導(dǎo)航機(jī)器人都會(huì)與專家討論來(lái)理解人類指令中要求的動(dòng)作和提及的物體標(biāo)志。
進(jìn)而依據(jù)這些物體標(biāo)志的類型有傾向性地對(duì)周圍環(huán)境進(jìn)行感知,指令完成情況估計(jì),由此做出初步的移動(dòng)決策。
在決策過(guò)程中,導(dǎo)航機(jī)器人會(huì)根據(jù)Chain-of-Thought(思維鏈)同時(shí)生成N個(gè)獨(dú)立的預(yù)測(cè)結(jié)果,當(dāng)這些預(yù)測(cè)結(jié)果之間不一致時(shí),機(jī)器人會(huì)向決策測(cè)試專家求助,篩選出最終的移動(dòng)決策。
從這個(gè)過(guò)程我們可以看到,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法通過(guò)與大模型專家交互指導(dǎo)機(jī)器人根據(jù)人類指令移動(dòng),直接解決了機(jī)器人導(dǎo)航訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。
更進(jìn)一步,正是由于這個(gè)特點(diǎn),它也實(shí)現(xiàn)了零樣本能力,只要遵循以上討論流程,就能follow多樣的導(dǎo)航指令。
以下是DiscussNav在經(jīng)典的視覺語(yǔ)言導(dǎo)航數(shù)據(jù)集Room2Room上的表現(xiàn)。
可以看到,它顯著高于所有零樣本方法,甚至超過(guò)兩個(gè)經(jīng)過(guò)訓(xùn)練的方法。
作者進(jìn)一步在Turtlebot4移動(dòng)機(jī)器人上開展真實(shí)室內(nèi)場(chǎng)景導(dǎo)航實(shí)驗(yàn)。
憑借專家角色扮演和討論激發(fā)出的大模型強(qiáng)大的語(yǔ)言和視覺泛化能力,DiscussNav在真實(shí)世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過(guò)預(yù)訓(xùn)練微調(diào)的方法, 展現(xiàn)出良好的sim-to-real遷移能力。
通過(guò)實(shí)驗(yàn),作者進(jìn)一步發(fā)現(xiàn),DiscussNav產(chǎn)生了4個(gè)強(qiáng)大的能力:
1、識(shí)別開放世界物體,比如“白色桌子上的機(jī)械手臂”,“椅子上的泰迪熊”。
2、識(shí)別細(xì)粒度的導(dǎo)航標(biāo)志物體,比如“廚房柜臺(tái)上的植物”,“桌上的紙箱”。
3、糾正其它專家在討論中回復(fù)的錯(cuò)誤信息,比如標(biāo)志提取專家在從導(dǎo)航動(dòng)作序列提取導(dǎo)航標(biāo)志前會(huì)檢查并糾正被錯(cuò)誤分解的動(dòng)作序列。
4、排除不一致的移動(dòng)決策,比如決策測(cè)試專家們可以根據(jù)當(dāng)前環(huán)境信息從DiscussNav預(yù)測(cè)的多個(gè)不一致的移動(dòng)決策中選擇最合理的一個(gè)作為最終移動(dòng)決定。
“仿真和大模型先驗(yàn)是Free Lunch”
通訊作者董豪在之前的報(bào)告中提出,深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學(xué)習(xí)到的先驗(yàn)知識(shí)是未來(lái)具身智能研究的發(fā)展方向。
目前受限于數(shù)據(jù)規(guī)模和探索真實(shí)環(huán)境的高昂成本,具身智能研究仍將重點(diǎn)關(guān)注仿真平臺(tái)實(shí)驗(yàn)和仿真數(shù)據(jù)訓(xùn)練。
近期大模型的進(jìn)展為具身智能提供新方向,合理發(fā)掘和利用大模型中存在的語(yǔ)言常識(shí)和物理世界先驗(yàn)將推動(dòng)具身智能發(fā)展。
論文地址: https://arxiv.org/abs/2309.11382