自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strong id="urnig"><menu id="urnig"></menu></strong>

<var id="urnig"></var>

<nav id="urnig"><strong id="urnig"></strong></nav>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

北大具身智能新成果：無(wú)需訓(xùn)練，聽指令就能靈活走位

作者：北大前沿計(jì)算研究中心 2023-11-06 11:29:02

人工智能新聞

機(jī)器人靠的是主動(dòng)與大模型構(gòu)成的“專家團(tuán)隊(duì)”溝通完成指令分析、視覺感知、完成估計(jì)和決策測(cè)試等一系列視覺語(yǔ)言導(dǎo)航關(guān)鍵任務(wù)。

北京大學(xué)董豪團(tuán)隊(duì)具身導(dǎo)航最新成果來(lái)了：

無(wú)需額外建圖和訓(xùn)練，只需說(shuō)出導(dǎo)航指令，如：

Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我們就能控制機(jī)器人靈活移動(dòng)。

在此，機(jī)器人靠的是主動(dòng)與大模型構(gòu)成的“專家團(tuán)隊(duì)”溝通完成指令分析、視覺感知、完成估計(jì)和決策測(cè)試等一系列視覺語(yǔ)言導(dǎo)航關(guān)鍵任務(wù)。

目前項(xiàng)目主頁(yè)和論文都已上線，代碼即將推出：

機(jī)器人如何根據(jù)人類指令導(dǎo)航？

視覺語(yǔ)言導(dǎo)航涉及到一系列子任務(wù)，包括指令分析，視覺感知，完成估計(jì)和決策測(cè)試。

這些關(guān)鍵任務(wù)需要不同領(lǐng)域知識(shí)，它們環(huán)環(huán)相扣決定機(jī)器人的導(dǎo)航能力。

受到現(xiàn)實(shí)中專家討論行為的啟發(fā)，北大董豪團(tuán)隊(duì)提出DiscussNav導(dǎo)航系統(tǒng)。

作者首先以提示方式賦予LLM（大語(yǔ)言模型）和MLM（多模態(tài)大模型）專家角色和特定任務(wù)，激活它們的領(lǐng)域知識(shí)和能力，由此構(gòu)建具備不同特長(zhǎng)的視覺導(dǎo)航專家團(tuán)隊(duì)。

然后，作者設(shè)計(jì)了討論問(wèn)題語(yǔ)料庫(kù)和討論機(jī)制，遵循該機(jī)制，由LLM驅(qū)動(dòng)的導(dǎo)航機(jī)器人可以主動(dòng)發(fā)起一系列與視覺導(dǎo)航專家的討論。

在每一步移動(dòng)前，導(dǎo)航機(jī)器人都會(huì)與專家討論來(lái)理解人類指令中要求的動(dòng)作和提及的物體標(biāo)志。

進(jìn)而依據(jù)這些物體標(biāo)志的類型有傾向性地對(duì)周圍環(huán)境進(jìn)行感知，指令完成情況估計(jì)，由此做出初步的移動(dòng)決策。

在決策過(guò)程中，導(dǎo)航機(jī)器人會(huì)根據(jù)Chain-of-Thought（思維鏈）同時(shí)生成N個(gè)獨(dú)立的預(yù)測(cè)結(jié)果，當(dāng)這些預(yù)測(cè)結(jié)果之間不一致時(shí)，機(jī)器人會(huì)向決策測(cè)試專家求助，篩選出最終的移動(dòng)決策。

從這個(gè)過(guò)程我們可以看到，相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練，這個(gè)方法通過(guò)與大模型專家交互指導(dǎo)機(jī)器人根據(jù)人類指令移動(dòng)，直接解決了機(jī)器人導(dǎo)航訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

更進(jìn)一步，正是由于這個(gè)特點(diǎn)，它也實(shí)現(xiàn)了零樣本能力，只要遵循以上討論流程，就能follow多樣的導(dǎo)航指令。

以下是DiscussNav在經(jīng)典的視覺語(yǔ)言導(dǎo)航數(shù)據(jù)集Room2Room上的表現(xiàn)。

可以看到，它顯著高于所有零樣本方法，甚至超過(guò)兩個(gè)經(jīng)過(guò)訓(xùn)練的方法。

作者進(jìn)一步在Turtlebot4移動(dòng)機(jī)器人上開展真實(shí)室內(nèi)場(chǎng)景導(dǎo)航實(shí)驗(yàn)。

憑借專家角色扮演和討論激發(fā)出的大模型強(qiáng)大的語(yǔ)言和視覺泛化能力，DiscussNav在真實(shí)世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過(guò)預(yù)訓(xùn)練微調(diào)的方法，展現(xiàn)出良好的sim-to-real遷移能力。

通過(guò)實(shí)驗(yàn)，作者進(jìn)一步發(fā)現(xiàn)，DiscussNav產(chǎn)生了4個(gè)強(qiáng)大的能力：

1、識(shí)別開放世界物體，比如“白色桌子上的機(jī)械手臂”，“椅子上的泰迪熊”。

2、識(shí)別細(xì)粒度的導(dǎo)航標(biāo)志物體，比如“廚房柜臺(tái)上的植物”，“桌上的紙箱”。

3、糾正其它專家在討論中回復(fù)的錯(cuò)誤信息，比如標(biāo)志提取專家在從導(dǎo)航動(dòng)作序列提取導(dǎo)航標(biāo)志前會(huì)檢查并糾正被錯(cuò)誤分解的動(dòng)作序列。

4、排除不一致的移動(dòng)決策，比如決策測(cè)試專家們可以根據(jù)當(dāng)前環(huán)境信息從DiscussNav預(yù)測(cè)的多個(gè)不一致的移動(dòng)決策中選擇最合理的一個(gè)作為最終移動(dòng)決定。

“仿真和大模型先驗(yàn)是Free Lunch”

通訊作者董豪在之前的報(bào)告中提出，深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學(xué)習(xí)到的先驗(yàn)知識(shí)是未來(lái)具身智能研究的發(fā)展方向。

目前受限于數(shù)據(jù)規(guī)模和探索真實(shí)環(huán)境的高昂成本，具身智能研究仍將重點(diǎn)關(guān)注仿真平臺(tái)實(shí)驗(yàn)和仿真數(shù)據(jù)訓(xùn)練。

近期大模型的進(jìn)展為具身智能提供新方向，合理發(fā)掘和利用大模型中存在的語(yǔ)言常識(shí)和物理世界先驗(yàn)將推動(dòng)具身智能發(fā)展。

論文地址： https://arxiv.org/abs/2309.11382

責(zé)任編輯：張燕妮來(lái)源：量子位

機(jī)器人視覺

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<var id="7wqpq"></var>