自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北大具身智能新成果:無(wú)需訓(xùn)練,聽指令就能靈活走位

人工智能 新聞
機(jī)器人靠的是主動(dòng)與大模型構(gòu)成的“專家團(tuán)隊(duì)”溝通完成指令分析、視覺感知、完成估計(jì)和決策測(cè)試等一系列視覺語(yǔ)言導(dǎo)航關(guān)鍵任務(wù)。

北京大學(xué)董豪團(tuán)隊(duì)具身導(dǎo)航最新成果來(lái)了:

無(wú)需額外建圖和訓(xùn)練,只需說(shuō)出導(dǎo)航指令,如:

Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我們就能控制機(jī)器人靈活移動(dòng)。

圖片

在此,機(jī)器人靠的是主動(dòng)與大模型構(gòu)成的“專家團(tuán)隊(duì)”溝通完成指令分析、視覺感知、完成估計(jì)和決策測(cè)試等一系列視覺語(yǔ)言導(dǎo)航關(guān)鍵任務(wù)。

圖片

目前項(xiàng)目主頁(yè)和論文都已上線,代碼即將推出:

圖片

機(jī)器人如何根據(jù)人類指令導(dǎo)航?

視覺語(yǔ)言導(dǎo)航涉及到一系列子任務(wù),包括指令分析,視覺感知,完成估計(jì)和決策測(cè)試。

這些關(guān)鍵任務(wù)需要不同領(lǐng)域知識(shí),它們環(huán)環(huán)相扣決定機(jī)器人的導(dǎo)航能力。

受到現(xiàn)實(shí)中專家討論行為的啟發(fā),北大董豪團(tuán)隊(duì)提出DiscussNav導(dǎo)航系統(tǒng)。

作者首先以提示方式賦予LLM(大語(yǔ)言模型)和MLM(多模態(tài)大模型)專家角色和特定任務(wù),激活它們的領(lǐng)域知識(shí)和能力,由此構(gòu)建具備不同特長(zhǎng)的視覺導(dǎo)航專家團(tuán)隊(duì)。

圖片

然后,作者設(shè)計(jì)了討論問(wèn)題語(yǔ)料庫(kù)和討論機(jī)制,遵循該機(jī)制,由LLM驅(qū)動(dòng)的導(dǎo)航機(jī)器人可以主動(dòng)發(fā)起一系列與視覺導(dǎo)航專家的討論。

圖片

在每一步移動(dòng)前,導(dǎo)航機(jī)器人都會(huì)與專家討論來(lái)理解人類指令中要求的動(dòng)作和提及的物體標(biāo)志。

進(jìn)而依據(jù)這些物體標(biāo)志的類型有傾向性地對(duì)周圍環(huán)境進(jìn)行感知,指令完成情況估計(jì),由此做出初步的移動(dòng)決策。

圖片

在決策過(guò)程中,導(dǎo)航機(jī)器人會(huì)根據(jù)Chain-of-Thought(思維鏈)同時(shí)生成N個(gè)獨(dú)立的預(yù)測(cè)結(jié)果,當(dāng)這些預(yù)測(cè)結(jié)果之間不一致時(shí),機(jī)器人會(huì)向決策測(cè)試專家求助,篩選出最終的移動(dòng)決策。

從這個(gè)過(guò)程我們可以看到,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,這個(gè)方法通過(guò)與大模型專家交互指導(dǎo)機(jī)器人根據(jù)人類指令移動(dòng),直接解決了機(jī)器人導(dǎo)航訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

更進(jìn)一步,正是由于這個(gè)特點(diǎn),它也實(shí)現(xiàn)了零樣本能力,只要遵循以上討論流程,就能follow多樣的導(dǎo)航指令。

以下是DiscussNav在經(jīng)典的視覺語(yǔ)言導(dǎo)航數(shù)據(jù)集Room2Room上的表現(xiàn)。

圖片

可以看到,它顯著高于所有零樣本方法,甚至超過(guò)兩個(gè)經(jīng)過(guò)訓(xùn)練的方法。

作者進(jìn)一步在Turtlebot4移動(dòng)機(jī)器人上開展真實(shí)室內(nèi)場(chǎng)景導(dǎo)航實(shí)驗(yàn)。

憑借專家角色扮演和討論激發(fā)出的大模型強(qiáng)大的語(yǔ)言和視覺泛化能力,DiscussNav在真實(shí)世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過(guò)預(yù)訓(xùn)練微調(diào)的方法, 展現(xiàn)出良好的sim-to-real遷移能力。

圖片

通過(guò)實(shí)驗(yàn),作者進(jìn)一步發(fā)現(xiàn),DiscussNav產(chǎn)生了4個(gè)強(qiáng)大的能力

1、識(shí)別開放世界物體,比如“白色桌子上的機(jī)械手臂”,“椅子上的泰迪熊”。

2、識(shí)別細(xì)粒度的導(dǎo)航標(biāo)志物體,比如“廚房柜臺(tái)上的植物”,“桌上的紙箱”。

3、糾正其它專家在討論中回復(fù)的錯(cuò)誤信息,比如標(biāo)志提取專家在從導(dǎo)航動(dòng)作序列提取導(dǎo)航標(biāo)志前會(huì)檢查并糾正被錯(cuò)誤分解的動(dòng)作序列。

4、排除不一致的移動(dòng)決策,比如決策測(cè)試專家們可以根據(jù)當(dāng)前環(huán)境信息從DiscussNav預(yù)測(cè)的多個(gè)不一致的移動(dòng)決策中選擇最合理的一個(gè)作為最終移動(dòng)決定。

“仿真和大模型先驗(yàn)是Free Lunch”

通訊作者董豪在之前的報(bào)告中提出,深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學(xué)習(xí)到的先驗(yàn)知識(shí)是未來(lái)具身智能研究的發(fā)展方向。

目前受限于數(shù)據(jù)規(guī)模和探索真實(shí)環(huán)境的高昂成本,具身智能研究仍將重點(diǎn)關(guān)注仿真平臺(tái)實(shí)驗(yàn)和仿真數(shù)據(jù)訓(xùn)練。

近期大模型的進(jìn)展為具身智能提供新方向,合理發(fā)掘和利用大模型中存在的語(yǔ)言常識(shí)和物理世界先驗(yàn)將推動(dòng)具身智能發(fā)展。

圖片

論文地址: https://arxiv.org/abs/2309.11382

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-07-11 10:07:10

機(jī)器人智能

2024-03-04 07:50:00

模型成果

2023-12-29 09:16:36

模型訓(xùn)練

2024-06-04 09:25:51

2024-08-02 10:00:00

2025-03-07 10:24:43

2023-11-08 13:20:00

模型數(shù)據(jù)

2024-03-11 00:35:00

谷歌智能研究

2024-12-19 14:44:22

2024-05-16 13:43:36

北大微型機(jī)器人

2024-08-09 09:10:33

2024-08-22 12:30:50

2022-06-29 14:49:43

計(jì)算機(jī)視覺智能

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-03-31 09:10:00

開源模型智能體

2024-11-01 09:45:08

2023-12-28 17:17:20

智能模型

2025-02-24 14:15:00

模型訓(xùn)練AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)