虛幻5加持,清華發(fā)布首個(gè)「真實(shí)開(kāi)放環(huán)境具身智能平臺(tái)」與基準(zhǔn)測(cè)試集EmbodiedCity!
具身智能被視為當(dāng)前人工智能領(lǐng)域最具潛力的方向之一,重點(diǎn)關(guān)注智能體感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。
近年來(lái),具身智能發(fā)展迅猛,在多個(gè)領(lǐng)域取得突破進(jìn)展。然而,當(dāng)前大多數(shù)具身智能研究聚焦于有限環(huán)境如室內(nèi)場(chǎng)景中,針對(duì)城市級(jí)別開(kāi)放真實(shí)世界場(chǎng)景的探索較為匱乏,急需構(gòu)建相應(yīng)的模擬平臺(tái)和基準(zhǔn)測(cè)試集。
近日,清華大學(xué)城市科學(xué)與計(jì)算研究中心開(kāi)放發(fā)布基于虛幻引擎5的城市具身智能模擬環(huán)境EmbodiedCity,基于真實(shí)城市開(kāi)放場(chǎng)景打造3D城市環(huán)境,并進(jìn)一步針對(duì)不同維度和水平的開(kāi)放空間具身智能能力,構(gòu)建相應(yīng)的任務(wù)集和數(shù)據(jù)集,可支撐真實(shí)開(kāi)放空間具身智能的多類(lèi)研究任務(wù)。
官方網(wǎng)站:https://embodied-city.fiblab.net/
開(kāi)發(fā)文檔:https://github.com/tsinghua-fib-lab/EmbodiedCity
該平臺(tái)提供離線(xiàn)運(yùn)行和在線(xiàn)接入兩種方式,既可以下載在不同操作系統(tǒng)本地環(huán)境運(yùn)行,也可以訪(fǎng)問(wèn)智能體在線(xiàn)平臺(tái),基于Python SDK調(diào)用開(kāi)發(fā)智能體,在平臺(tái)網(wǎng)頁(yè)直接編程使用。
EmbodiedCity模擬環(huán)境
EmbodiedCity以北京市國(guó)貿(mào)區(qū)域的真實(shí)道路和建筑布局為基礎(chǔ),結(jié)合人流和車(chē)流的真實(shí)數(shù)據(jù)與模擬算法,基于虛幻引擎5(Unreal Engine 5)構(gòu)建了一個(gè)真實(shí)、動(dòng)態(tài)、開(kāi)放的城市具身環(huán)境。
環(huán)境中主要包含以下元素:
(1)街道:機(jī)動(dòng)車(chē)/非機(jī)動(dòng)車(chē)道、十字路口、交通信號(hào)燈和人行道,街道布局合理多樣。
(2)建筑物:辦公樓、購(gòu)物中心、住宅小區(qū)等,細(xì)粒度建模還原真實(shí)建筑。
(3)其他元素:長(zhǎng)椅、路燈、植被以及動(dòng)態(tài)的車(chē)輛和行人,城市場(chǎng)景充滿(mǎn)活力。
城市具身智能任務(wù)基準(zhǔn)測(cè)試集
為充分探索開(kāi)放環(huán)境具身智能體的感知、推理和決策能力,EmbodiedCity構(gòu)建了一系列評(píng)測(cè)任務(wù),既包括代表性的具身任務(wù),涵蓋行人模擬、車(chē)流模擬、場(chǎng)景理解、問(wèn)答、對(duì)話(huà)、導(dǎo)航和規(guī)劃,也支撐傳統(tǒng)的感知、預(yù)測(cè)、決策等任務(wù)。
其中,針對(duì)開(kāi)放空間具身智能構(gòu)建的任務(wù)集如下:
1. 跨模態(tài)場(chǎng)景理解:智能體觀(guān)察環(huán)境元素并給出準(zhǔn)確描述,通過(guò)在同一位置從不同角度觀(guān)察,生成一組RGB圖像作為輸入,得到相應(yīng)的文本描述。
2. 跨模態(tài)問(wèn)答:在具身場(chǎng)景理解的基礎(chǔ)上,智能體接收有關(guān)環(huán)境語(yǔ)義和空間信息的自然語(yǔ)言問(wèn)詢(xún),例如,「場(chǎng)景中有多少個(gè)建筑?」以及「在當(dāng)前視角下A建筑是否在B建筑的左邊?」輸入包括第一視角的RGB圖像和有關(guān)環(huán)境的問(wèn)題,對(duì)問(wèn)題進(jìn)行直接文本回答。
3. 多輪對(duì)話(huà):具身對(duì)話(huà)涉及智能體與用戶(hù)之間的持續(xù)互動(dòng),需要維持上下文和理解對(duì)話(huà)流。例如,「后方中有多少棵樹(shù)?-> 它們分別是什么顏色的?」任務(wù)的輸入包括具身觀(guān)察和多輪查詢(xún),得到多輪響應(yīng)。
4. 具身導(dǎo)航/搜索:智能體根據(jù)自然語(yǔ)言指令在環(huán)境中進(jìn)行具身導(dǎo)航,輸入結(jié)合了視覺(jué)感知和自然語(yǔ)言指令,以引導(dǎo)智能體通過(guò)復(fù)雜環(huán)境進(jìn)行實(shí)時(shí)感知、推理、決策。任務(wù)輸出是環(huán)境中的行動(dòng)序列。
5. 任務(wù)規(guī)劃:智能體需要能夠?qū)?fù)雜且長(zhǎng)期的具身任務(wù)目標(biāo)拆分為多個(gè)子任務(wù),例如,「我需要去便利店購(gòu)物,但我不知道怎么走,應(yīng)該怎么做?」輸入包括第一視角的觀(guān)察和自然語(yǔ)言描述的任務(wù)目標(biāo),輸出是智能體所規(guī)劃、拆解的一系列子任務(wù)。
6. 個(gè)體行為模擬:對(duì)于行人、車(chē)輛、無(wú)人機(jī)等不同類(lèi)型的智能體,需要基于第一視角的觀(guān)察和當(dāng)前任務(wù)規(guī)劃,生成與真實(shí)個(gè)體類(lèi)似、符合真實(shí)個(gè)體規(guī)律和模式的行為與動(dòng)作,該任務(wù)依賴(lài)于上述任務(wù)所體現(xiàn)的開(kāi)放世界中的感知、規(guī)劃、決策等具身智能能力。
平臺(tái)使用方法
EmbodiedCity同時(shí)提供在線(xiàn)使用和離線(xiàn)運(yùn)行兩種智能體部署方式。
1. 在線(xiàn)使用
用戶(hù)可以通過(guò)在平臺(tái)官方網(wǎng)站(embodied-city.fiblab.net)申請(qǐng)API Key,獲得授權(quán)后即可控制接管已經(jīng)實(shí)時(shí)在線(xiàn)部署的智能體。在線(xiàn)平臺(tái)提供鍵盤(pán)控制和指令控制等多種智能體操作方式,用戶(hù)可以在網(wǎng)頁(yè)以第一視角游覽城市環(huán)境。平臺(tái)還提供了完善的智能體控制Python SDK以供調(diào)用開(kāi)發(fā),用戶(hù)可以在平臺(tái)網(wǎng)頁(yè)直接編程使用。
2. 離線(xiàn)運(yùn)行
用戶(hù)可以下載離線(xiàn)模擬環(huán)境,在本地部署后進(jìn)行智能體的訓(xùn)練和測(cè)試,平臺(tái)提供適用于Windows、Linux、macOS等不同類(lèi)型操作系統(tǒng)的相應(yīng)版本,方便模擬環(huán)境的快速部署和測(cè)試。