自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“具身智能小鎮(zhèn)”來了!機(jī)器人逛超市買菜滿街跑,AI充當(dāng)NPC,來自上海AI Lab

人工智能
今年5月,該團(tuán)隊(duì)還發(fā)布了具身多模態(tài)大模型Grounded 3D-LLM,能夠自動(dòng)化生成物體到局部區(qū)域的場(chǎng)景描述與具身對(duì)話數(shù)據(jù),有效緩解了目前三維場(chǎng)景理解的局限性。

超逼真的機(jī)器人小鎮(zhèn)來了!

在這里,機(jī)器人可以像人一樣在超市里購(gòu)物:

買菜回家做飯:

在辦公室里接咖啡(旁邊還有人類同事):

圖片圖片

不只有人形機(jī)器人,機(jī)器狗、臂式機(jī)器人也在這個(gè)“城市”里穿梭自如。

圖片圖片

這就是由上海AI實(shí)驗(yàn)室最新提出的首個(gè)模擬交互式3D世界:GRUtopia(中文名:桃源)。

在這里,由多達(dá)100k個(gè)交互式、帶精細(xì)注釋的場(chǎng)景自由組合成逼真城市環(huán)境。

包含室內(nèi)室外,餐廳、超市、辦公室、家庭等89個(gè)不同場(chǎng)景類別。

圖片圖片

由大模型驅(qū)動(dòng)的NPC,可以在這個(gè)世界里和機(jī)器人對(duì)話交互。

圖片圖片

這樣一來,各種機(jī)器人能在虛擬小鎮(zhèn)里完成各種行為模擬,也就是最近流行的Sim2Real路線,能大幅降低具身智能現(xiàn)實(shí)世界數(shù)據(jù)收集難度和成本。

該項(xiàng)目計(jì)劃開源,現(xiàn)階段在GitHub上已提供demo安裝指南。

安裝成功后,就能在demo里控制一個(gè)人形機(jī)器人在房間內(nèi)活動(dòng),并支持調(diào)整不同視角。

圖片圖片

機(jī)器人的虛擬桃源

其核心工作共有三項(xiàng):

  • GRScenes
  • GRResidents
  • GRBench

其中,GRScenes是一個(gè)包含大規(guī)模場(chǎng)景數(shù)據(jù)的數(shù)據(jù)集。

它極大程度上擴(kuò)展了機(jī)器人可以活動(dòng)和操作的環(huán)境范圍,此前的工作更聚焦于家庭場(chǎng)景。

該研究表示,他們的目標(biāo)是將通用機(jī)器人的能力擴(kuò)展到各種服務(wù)場(chǎng)景,比如超市、醫(yī)院等。同時(shí)覆蓋室內(nèi)室外環(huán)境,包括游樂園、博物館、展覽館等。

對(duì)于各個(gè)場(chǎng)景,他們都進(jìn)行了精細(xì)高質(zhì)量建模,100 個(gè)場(chǎng)景包含 96 個(gè)類別的 2956 個(gè)交互式物體和 22001 個(gè)非交互式物體。

圖片圖片

GRResidents是一個(gè)NPC系統(tǒng)。

它由大模型驅(qū)動(dòng),同時(shí)對(duì)模擬環(huán)境中的場(chǎng)景信息非常了解。因此NPC可以推斷物體之間的空間關(guān)系,參與動(dòng)態(tài)對(duì)話和任務(wù)分配。

借助于這個(gè)系統(tǒng),GRUtopia可以生成海量場(chǎng)景任務(wù)供機(jī)器人完成。

圖片圖片

通過與人類進(jìn)行交叉驗(yàn)證,NPC系統(tǒng)在描述和定位對(duì)象上的準(zhǔn)確率都不錯(cuò)。

在描述實(shí)驗(yàn)中,讓NPC系統(tǒng)隨機(jī)選擇一個(gè)物體進(jìn)行描述,人類能找到對(duì)應(yīng)物體就算成功。

在定位實(shí)驗(yàn)中則反過來,如果NPC系統(tǒng)能根據(jù)人類給出的描述找到對(duì)應(yīng)物體就算成功。

圖片圖片

調(diào)用不同大模型的成功率不盡相同,綜合來看GPT-4o的表現(xiàn)最好。

圖片圖片

GRBench是一個(gè)評(píng)估具身智能表現(xiàn)的benchmark。

它包含3個(gè)基準(zhǔn),涉及目標(biāo)定位導(dǎo)航(Object Loco-Navigation)、社交定位導(dǎo)航(Social Loco-Navigation)和定位操作(Loco-Manipulation),這三種評(píng)估的難度逐漸遞增。

圖片圖片

為了分析NPC和控制API的性能,研究提出了基于LLM和VLM的基線,以驗(yàn)證基準(zhǔn)設(shè)計(jì)的合理性。

圖片圖片

實(shí)驗(yàn)結(jié)果表明,與隨機(jī)策略相比,在所有基準(zhǔn)測(cè)試中,使用大型模型作為后端代理的表現(xiàn)都更好。

而且Qwen-VL在對(duì)話上的表現(xiàn)超過了GPT-4o。

圖片圖片

最后整體對(duì)比來看,GRUtopia其他平臺(tái)在各個(gè)維度上都更強(qiáng)大。

圖片圖片

該研究工作由上海人工智能實(shí)驗(yàn)室OpenRobot Lab領(lǐng)銜。

該實(shí)驗(yàn)室聚焦研究具身通用人工智能,致力于構(gòu)建軟硬虛實(shí)一體化的通用機(jī)器人算法體系。

今年5月,該團(tuán)隊(duì)還發(fā)布了具身多模態(tài)大模型Grounded 3D-LLM,能夠自動(dòng)化生成物體到局部區(qū)域的場(chǎng)景描述與具身對(duì)話數(shù)據(jù),有效緩解了目前三維場(chǎng)景理解的局限性。

圖片圖片

論文地址:https://arxiv.org/abs/2407.10943

GitHub地址:https://github.com/openrobotlab/grutopia?tab=readme-ov-file

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-07-22 08:00:00

機(jī)器人虛擬

2024-12-19 14:44:22

2024-12-11 12:00:00

2024-04-30 13:05:16

2024-11-01 09:45:08

2024-06-04 09:48:14

自動(dòng)駕駛模型

2025-03-07 10:24:43

2025-02-28 08:30:00

2022-07-28 11:26:41

人工智能機(jī)器人

2025-04-09 08:00:00

人形機(jī)器人智能設(shè)備邊緣側(cè)AI計(jì)算

2021-10-31 15:51:30

機(jī)器人人工智能監(jiān)控

2023-12-23 23:16:36

機(jī)器人模型

2024-03-01 13:20:58

機(jī)器人OpenAIGPT

2024-07-04 10:16:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)