用于城市空間的具身人工智能仿真平臺(tái):MetaUrban
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面&筆者的個(gè)人理解
公共城市空間的街道和廣場(chǎng)可以為居住在城市中的市民提供各種各樣的便捷服務(wù)從而適應(yīng)如今豐富多彩的社會(huì)生活。各大城市中的公共空間具有非常不同且廣泛的類(lèi)型、形式和空間大小,包括街道、廣場(chǎng)以及公園等各個(gè)區(qū)域。此外,它們也是日常交通和運(yùn)輸離不開(kāi)的重要空間。這些重要的城市空間不僅為我們?nèi)祟?lèi)日常舉辦各種社會(huì)活動(dòng)提供了機(jī)會(huì),同時(shí)也為市民其提供各式各樣的休閑娛樂(lè)活動(dòng)。
近年來(lái),隨著機(jī)器人技術(shù)和具身人工智能技術(shù)的快速發(fā)展使得城市當(dāng)中的公共區(qū)域空間不再是我們?nèi)祟?lèi)所獨(dú)有的區(qū)域。比如:移動(dòng)送餐機(jī)器人和電動(dòng)輪椅已經(jīng)開(kāi)始與行人共享人行道、各種各樣的機(jī)器狗和人形機(jī)器人最近也開(kāi)始在街道上陸續(xù)出現(xiàn),如下圖所示。此外各種移動(dòng)腿式機(jī)器人,如波士頓動(dòng)力公司的機(jī)器狗和特斯拉的人形機(jī)器人也即將問(wèn)世。所以在不久的將來(lái)極大概率將會(huì)出現(xiàn)未來(lái)的城市公共空間將由人類(lèi)和具身人工智能的移動(dòng)機(jī)器共享和共同居住的場(chǎng)景。所以,如果想要在城市空間的繁華街道上進(jìn)行導(dǎo)航,一個(gè)至關(guān)重要的問(wèn)題就是需要確保這些即將到來(lái)的移動(dòng)機(jī)器的通用性和安全性。
仿真平臺(tái)在實(shí)現(xiàn)具身人工智能的系統(tǒng)性和可擴(kuò)展性訓(xùn)練以及在實(shí)際部署之前的安全評(píng)估方面發(fā)揮了至關(guān)重要的作用。然而,現(xiàn)有的大多數(shù)仿真模擬器主要聚焦于室內(nèi)家庭環(huán)境或者室外的駕駛環(huán)境。然而,對(duì)于具有多樣化布局和物體、行人變化動(dòng)態(tài)復(fù)雜的城市空間的模擬探索較少。
基于上述提到的相關(guān)問(wèn)題,本文提出了一個(gè)可以用于城市中的空間具身人工智能研究的組合模擬平臺(tái),稱(chēng)之為MetaUrban。此外,我們基于設(shè)計(jì)的MetaUrban仿真平臺(tái)構(gòu)建了一個(gè)大型的數(shù)據(jù)集MetaUrban-12K,該數(shù)據(jù)集包含了12800個(gè)訓(xùn)練場(chǎng)景以及1000個(gè)測(cè)試場(chǎng)景。同時(shí),我們進(jìn)一步創(chuàng)建了一個(gè)包含100個(gè)手工設(shè)計(jì)的從未見(jiàn)過(guò)的場(chǎng)景作為測(cè)試集來(lái)評(píng)估我們算法模型的泛化性。相關(guān)的實(shí)驗(yàn)結(jié)果表明,通過(guò)模擬環(huán)境的組合特性可以顯著提高訓(xùn)練好的移動(dòng)具身人工智能的通用性和安全性。
論文鏈接:https://arxiv.org/abs/2407.08725
網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理
MetaUrban作為一個(gè)可以為具身人工智能在城市空間中生成無(wú)限訓(xùn)練和評(píng)估環(huán)境的模擬平臺(tái),在詳細(xì)介紹其內(nèi)部的各個(gè)技術(shù)實(shí)現(xiàn)細(xì)節(jié)之前,下圖展示了MetaUrban模擬平臺(tái)整體的生成流程。
MetaUrban模擬平臺(tái)整體的生成流程
通過(guò)上圖可以看出,MetaUrban可以根據(jù)提供的街區(qū)、道路以及人行道,從街區(qū)地圖開(kāi)始,通過(guò)劃分不同的功能區(qū)規(guī)劃地面布局,然后放置靜態(tài)物體,最后填充動(dòng)態(tài)智能體。此外,MetaUrban模擬器通過(guò)提出的三個(gè)關(guān)鍵核心設(shè)計(jì)來(lái)支持展示三種獨(dú)特的都市空間特性。
- Hierarchical Layout Generation:層級(jí)布局生成設(shè)計(jì)可以無(wú)限的生成具有不同功能區(qū)劃分和物體位置的多樣性布局,這對(duì)于智能體的泛化性至關(guān)重要
- Scalable Object Retrieval:可擴(kuò)展的目標(biāo)檢索利用全球城市場(chǎng)景數(shù)據(jù)來(lái)獲取不同地方的真實(shí)世界對(duì)象分布,然后使用支持VLM的開(kāi)放詞匯搜索構(gòu)建大規(guī)模、高質(zhì)量的靜態(tài)對(duì)象集。這對(duì)于專(zhuān)門(mén)針對(duì)城市場(chǎng)景的訓(xùn)練智能體有很大的幫助
- Cohabitant Populating:通過(guò)采用數(shù)字人來(lái)豐富行人和弱勢(shì)道路使用者的外觀、運(yùn)動(dòng)和軌跡,并整合其他智能體以形成生動(dòng)的共存環(huán)境。這對(duì)于提高移動(dòng)智能體的社會(huì)一致性和安全性至關(guān)重要
Hierarchical Layout Generation
由于考慮到場(chǎng)景布局的多樣性,比如街區(qū)的連接和類(lèi)別、人行道和人行橫道的規(guī)格以及物體的放置,對(duì)于增強(qiáng)經(jīng)過(guò)訓(xùn)練的智能體在公共空間中機(jī)動(dòng)的泛化性至關(guān)重要。因此,我們?cè)趯蛹?jí)布局生成的設(shè)計(jì)當(dāng)中,首先對(duì)街區(qū)類(lèi)別進(jìn)行采樣并劃分人行道和人行橫道,然后分配各種物體,這樣我們就可以得到具有任意大小和地圖規(guī)格的無(wú)限城市場(chǎng)景布局。
如下圖所示,我們一共設(shè)計(jì)了5種街區(qū)種類(lèi),分別是直路、交叉路口、環(huán)形交叉路口、環(huán)形交叉路口和T型路口。
如上圖中的左圖所示,我們將人行道劃分為四個(gè)功能區(qū)建筑,分別是建筑區(qū)、臨街區(qū)、空地區(qū)和裝飾區(qū)。根據(jù)不同的功能區(qū)組合,我們進(jìn)一步構(gòu)建了7個(gè)典型的人行道模板(如上圖的右側(cè)所示)。如果想要形成一條人行道,我們可以先從模板中采樣布局,然后為不同的功能區(qū)分配比例。對(duì)于人行橫道而言,我們可以在每條道路的起止處提供候選,支持指定所需的人行橫道或通過(guò)密度參數(shù)對(duì)其進(jìn)行采樣。最后,道路、人行道和人行橫道可以以地形圖為基底,形成不同的地面情況。
在確定好地面上的整體布局之后,我們可以在地面上放置不同的物體。在本文中,我們將物體分為三種類(lèi)別
- 標(biāo)準(zhǔn)基礎(chǔ)設(shè)施:標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施可以包括電線(xiàn)桿、樹(shù)木和標(biāo)志和定期沿道路放置的物品
- 非標(biāo)準(zhǔn)基礎(chǔ)設(shè)施:非標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施可以包括建筑物、盆景和垃圾箱,隨機(jī)放置在指定的功能區(qū)
- 雜物:雜物可以包括飲料罐、袋子和自行車(chē),隨機(jī)放置在所有功能區(qū)
根據(jù)上述的相關(guān)劃分,我們可以通過(guò)指定對(duì)象池來(lái)獲得不同的街道風(fēng)格,同時(shí)通過(guò)指定密度參數(shù)來(lái)獲得不同的緊湊度。下圖展示了使用采樣的地面平面圖和對(duì)象位置放置的不同物體。
Scalable Object Retrieval
雖然層級(jí)布局生成的設(shè)計(jì)決定了場(chǎng)景的布局以及放置物體的擺放位置。但是,為了使訓(xùn)練后的智能體能夠在由各種物體組成的現(xiàn)實(shí)世界中導(dǎo)航時(shí)具有通用性,放置什么物體同樣至關(guān)重要。因此,我們首先從網(wǎng)絡(luò)數(shù)據(jù)中獲取真實(shí)世界的對(duì)象分布,然后通過(guò)基于VLM的開(kāi)放詞匯搜索模式從3D存儲(chǔ)庫(kù)中檢索目標(biāo)。整個(gè)流程靈活且可擴(kuò)展:隨著我們繼續(xù)利用更多網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行場(chǎng)景描述并將更多3D資產(chǎn)作為候選對(duì)象,檢索到的對(duì)象可以縮放到任意大小。
由于城市空間具有獨(dú)特的結(jié)構(gòu)和物體分布,因此,我們?cè)O(shè)計(jì)了一種真實(shí)世界分布提取方法來(lái)獲得一個(gè)描述城市空間中頻繁出現(xiàn)的物體的描述池,如下圖所示。
圖片
具體而言,我們首先利用現(xiàn)成的學(xué)術(shù)數(shù)據(jù)集CityScape以及Mapillary Vistas進(jìn)行場(chǎng)景理解,以獲得90個(gè)在城市空間中出現(xiàn)頻率較高的物體列表。然而,由于上述數(shù)據(jù)集都是閉集,目標(biāo)的種類(lèi)數(shù)量是有限的。我們引入了兩個(gè)開(kāi)集數(shù)據(jù)集Google Street以及Urban planning description,用于實(shí)現(xiàn)從現(xiàn)實(shí)世界中獲得更廣泛的物體分布。最后,通過(guò)結(jié)合上述提到的數(shù)據(jù)集,我們可以構(gòu)建現(xiàn)實(shí)世界的目標(biāo)類(lèi)別分布。
為了解決當(dāng)前的大型3D存儲(chǔ)庫(kù)中存在的數(shù)據(jù)質(zhì)量參差不齊、缺少可靠的屬性注釋以及大部分?jǐn)?shù)據(jù)與城市場(chǎng)景無(wú)關(guān)的問(wèn)題,我們引入了一種開(kāi)放詞匯搜索方法來(lái)解決這些問(wèn)題,如上圖中的右側(cè)子圖所示。具體而言,我們首先從Objaverse以及Objaverse-XL中得到目標(biāo)投影后的多視圖圖像,然后,我們利用視覺(jué)語(yǔ)言模型的編碼器分別從投影圖像和對(duì)象描述池中的采樣描述中提取特征,以計(jì)算相關(guān)分?jǐn)?shù)。然后,我們可以獲得相關(guān)分?jǐn)?shù)達(dá)到閾值的目標(biāo)對(duì)象。這種方法讓我們獲得了一個(gè)城市特定的數(shù)據(jù)集,其中包含10000個(gè)現(xiàn)實(shí)世界類(lèi)別分布中的高質(zhì)量對(duì)象。
Cohabitant Populating
接下來(lái),我們將要介紹如何通過(guò)具有不同外觀、運(yùn)動(dòng)和軌跡的智能體填充這些靜態(tài)城市場(chǎng)景。我們?cè)谔岢龅腗etaUrban模擬器中提供了兩種人體動(dòng)作,分別是日常動(dòng)作和獨(dú)特動(dòng)作。其中,日常動(dòng)作提供了日常生活中的基本人體動(dòng)態(tài),即直立、行走和跑步。獨(dú)特動(dòng)作是在公共空間中隨機(jī)出現(xiàn)的復(fù)雜動(dòng)態(tài),例如跳舞和鍛煉。對(duì)于人類(lèi)和其他有日常活動(dòng)的智能體,我們利用ORCA模型以及PR算法來(lái)仿真他們的軌跡。
MetaUrban-12K數(shù)據(jù)集
基于我們提出的MetaUrban模擬器我們構(gòu)建了MetaUrban-12K的數(shù)據(jù)集,其中包括了12800個(gè)用于訓(xùn)練的交互式城市場(chǎng)景MetaUrban-train以及1000個(gè)用于測(cè)試的場(chǎng)景MetaUrban-test,下圖展示了我們提出的MetaUrban-12K數(shù)據(jù)集中的一些信息統(tǒng)計(jì)。具體關(guān)于該數(shù)據(jù)集的相關(guān)詳細(xì)信息可以參考論文原文。
實(shí)驗(yàn)部分
定量實(shí)驗(yàn)部分
在實(shí)驗(yàn)環(huán)節(jié)中,我們?cè)O(shè)計(jì)了城市場(chǎng)景中的兩個(gè)常見(jiàn)任務(wù)來(lái)驗(yàn)證我們提出的MetaUrban模擬器,分別是點(diǎn)導(dǎo)航以及交互式導(dǎo)航任務(wù)。具體而言,在點(diǎn)導(dǎo)航任務(wù)當(dāng)中,智能體的目標(biāo)是在靜態(tài)環(huán)境中導(dǎo)航到目標(biāo)坐標(biāo),而無(wú)需訪(fǎng)問(wèn)預(yù)構(gòu)建的環(huán)境地圖。在社交導(dǎo)航任務(wù)中,智能體需要在包含移動(dòng)智能體的動(dòng)態(tài)環(huán)境中到達(dá)點(diǎn)目標(biāo)。
在所有任務(wù)當(dāng)中,智能體應(yīng)該避免與其它環(huán)境中的智能體發(fā)生碰撞或者超出一定的閾值,實(shí)驗(yàn)中的智能體行動(dòng)包括加速、減速以及轉(zhuǎn)向。下表展示了點(diǎn)導(dǎo)航以及交互式導(dǎo)航的Benchmark。
通過(guò)上表的相關(guān)實(shí)驗(yàn)結(jié)果可以得出一些結(jié)論
- PointNav以及SocialNav任務(wù)還未得到很好的解決,基線(xiàn)實(shí)現(xiàn)的PointNav和SocialNav任務(wù)的最高成功率僅為66%和36%,這表明在MetaUrban組成的城市環(huán)境中完成這些任務(wù)非常困難。
- 在MetaUrban-12K數(shù)據(jù)集上訓(xùn)練的模型在未見(jiàn)過(guò)的環(huán)境中具有很強(qiáng)的泛化能力。在零樣本測(cè)試的情況下,模型在PointNav和 SocialNav任務(wù)中仍可實(shí)現(xiàn)平均41%和26%的成功率。由于訓(xùn)練好的模型不僅可以泛化到未見(jiàn)過(guò)的物體和布局,還可以泛化到未見(jiàn)過(guò)的智能體,因此具有很好的表現(xiàn)性能。同時(shí)相關(guān)的實(shí)驗(yàn)結(jié)果也進(jìn)一步的證明了,MetaUrban的組合特性支持覆蓋大量復(fù)雜的城市場(chǎng)景,可以成功地增強(qiáng)訓(xùn)練模型的泛化能力
- 由于移動(dòng)環(huán)境智能體的動(dòng)態(tài)特性,SocialNav任務(wù)比PointNav任務(wù)更有難度。平均而言,從PointNav任務(wù)到SocialNav任務(wù),成功率下降了15%,這表明動(dòng)態(tài)智能體對(duì)訓(xùn)練好的智能體提出了重大挑戰(zhàn)
- 在所有任務(wù)和設(shè)置當(dāng)中,Safe RL模型取得了最佳表現(xiàn),表明這些模型能夠成功避免與行人和物體發(fā)生碰撞。然而,成功率會(huì)相應(yīng)降低,這表明需要平衡復(fù)雜城市場(chǎng)景中智能體的安全性和有效性。
此外,為了評(píng)估使用MetaUrban生成的數(shù)據(jù)訓(xùn)練的智能體的泛化能力,我們比較了四種設(shè)置的成功率,相關(guān)結(jié)果匯總在下圖的子圖(a)中。設(shè)置1和設(shè)置2分別是在MetaUrban-train數(shù)據(jù)集上進(jìn)行訓(xùn)練,在MetaUrban-test測(cè)試集和MetaUrban-unseen數(shù)據(jù)集上進(jìn)行測(cè)試的結(jié)果。設(shè)置3和設(shè)置4是在MetaUrban-finetune上直接訓(xùn)練的結(jié)果,并在MetaUrban-finetune上對(duì)MetaUrban-train上的預(yù)訓(xùn)練模型進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果。
我們?yōu)榱嗽u(píng)估MetaUrban組合架構(gòu)的擴(kuò)展能力,我們?cè)诓煌瑪?shù)量的生成場(chǎng)景上訓(xùn)練模型,如下圖的子圖(b)所示,隨著我們加入更多場(chǎng)景進(jìn)行訓(xùn)練,性能從12%顯著提高到46%,證明了MetaUrban強(qiáng)大的擴(kuò)展能力。
下圖中的子圖(c)和(d)展示了我們?yōu)榱嗽u(píng)估靜態(tài)物體密度和動(dòng)態(tài)環(huán)境智能體的影響,我們分別評(píng)估了它們?cè)赑ointNav和 SocialNav任務(wù)中的不同比例,通過(guò)實(shí)驗(yàn)結(jié)果可以看出,隨著靜態(tài)物體和動(dòng)態(tài)智能體的密度增加,訓(xùn)練和測(cè)試的成功率都會(huì)急劇下降,這表明智能體在面對(duì)城市場(chǎng)景中擁擠的街道時(shí)面臨挑戰(zhàn)。
定性實(shí)驗(yàn)部分
下圖展示了我們提出的MetaUrban模擬器一些生成結(jié)果的可視化,詳細(xì)的介紹請(qǐng)參考我們論文中的附錄部分。
- 我們?cè)O(shè)計(jì)了五種典型的街道街區(qū)類(lèi)別,分別是直路、彎道、交叉路口、T 型路口和環(huán)形交叉路口,可視化結(jié)果如下圖所示
- 生成的靜態(tài)場(chǎng)景下的可視化樣例,對(duì)于每一行我們選擇了四個(gè)視角來(lái)進(jìn)行可視化
- 生成的動(dòng)態(tài)場(chǎng)景下的可視化樣例
結(jié)論
在本文中,我們提出了一種新穎的組合模擬器MetaUrban用于促進(jìn)城市場(chǎng)景中的具身人工智能和機(jī)器人研究相關(guān)方向的研究。提出的MetaUrban模擬器可以生成具有復(fù)雜場(chǎng)景結(jié)構(gòu)和行人及其他移動(dòng)智能體多樣化運(yùn)動(dòng)的無(wú)限城市環(huán)環(huán)境,希望本文提出的方法可以促進(jìn)開(kāi)源模擬器社區(qū)的進(jìn)一步發(fā)展。