機器人版的「斯坦福小鎮(zhèn)」來了,專為具身智能研究打造
還記得斯坦福的 AI 小鎮(zhèn)嗎?這是斯坦福的 AI 研究者打造的一個虛擬環(huán)境。在這個小鎮(zhèn)上,25 個 AI 智能體正常生活、工作、社交,甚至談戀愛,每個智能體都有自己的個性和背景故事。智能體的行為和記憶通過大語言模型來驅(qū)動,這些模型能夠存儲和檢索智能體的經(jīng)歷,并根據(jù)這些記憶來規(guī)劃行動。(參見《斯坦福的「虛擬小鎮(zhèn)」開源了:25 個 AI 智能體照進(jìn)《西部世界》》)
與之類似,最近,來自上海人工智能實驗室 OpenRobotLab 等機構(gòu)的一批研究者也打造了一個虛擬小鎮(zhèn)。不過,生活在其中的是機器人和 NPC。
這個小鎮(zhèn)包含 10 萬個交互式場景和 89 種不同的場景類別,是首個專為各種機器人設(shè)計的模擬互動 3D 社會。
作者表示,他們設(shè)計這個環(huán)境是為了解決具身智能領(lǐng)域的數(shù)據(jù)稀缺問題。眾所周知,由于收集真實世界數(shù)據(jù)的成本過高,在具身智能領(lǐng)域探索 scaling law 一直困難重重。因此,從仿真到真實(Sim2Real)的范式成了擴展具身模型學(xué)習(xí)的關(guān)鍵一步。
他們?yōu)闄C器人設(shè)計的這個虛擬環(huán)境名叫 GRUtopia,項目主要包括:
1、場景數(shù)據(jù)集 GRScenes。包含 10 萬個交互式、精細(xì)注釋的場景,可自由組合成城市規(guī)模的環(huán)境。與以往主要關(guān)注家庭的工作不同,GRScenes 涵蓋了 89 種不同的場景類別,彌補了服務(wù)型環(huán)境的空白(一般機器人最初會部署在服務(wù)型環(huán)境中)。
2、GRResidents。這是一個大型語言模型(LLM)驅(qū)動的非玩家角色(NPC)系統(tǒng),負(fù)責(zé)社交互動、任務(wù)生成和任務(wù)分配,從而模擬具身 AI 應(yīng)用的社交場景。
3、基準(zhǔn) GRBench。支持各種機器人,但側(cè)重于作為主要智能體的有腿機器人,并提出了涉及物體定位導(dǎo)航、社交定位導(dǎo)航和定位操縱的中等難度任務(wù)。
作者希望這項工作能緩解該領(lǐng)域高質(zhì)量數(shù)據(jù)稀缺的問題,并為具身 AI 研究提供更全面的評估。
- 論文標(biāo)題:GRUtopia: Dream General Robots in a City at Scale
- 論文地址:https://arxiv.org/pdf/2407.10943
- 項目地址:https://github.com/OpenRobotLab/GRUtopia
GRScenes:大規(guī)模的完全互動環(huán)境
要建立一個用于訓(xùn)練和評估具身智能體的平臺,具有不同場景和物體資產(chǎn)的完全交互式環(huán)境是必不可少的。因此,作者收集了一個包含各種物體資產(chǎn)的大規(guī)模 3D 合成場景數(shù)據(jù)集,作為 GRUtopia 平臺的基礎(chǔ)。
多樣、逼真的場景
由于開源 3D 場景數(shù)據(jù)的數(shù)量和類別有限,作者首先從設(shè)計師網(wǎng)站上收集了約 10 萬個高質(zhì)量的合成場景,從而獲得多樣化的場景原型。然后,他們對這些場景原型進(jìn)行清理,并對其進(jìn)行區(qū)域和物體級別的語義注釋,最后將它們組合在一起,形成城鎮(zhèn),作為機器人的基本游樂場。
如圖 2-(a) 所示,除了常見的家庭場景外,作者構(gòu)建的數(shù)據(jù)集中還有 30% 的其他不同類別的場景,如餐廳、辦公室、公共場所、酒店、娛樂等。作者從大規(guī)模數(shù)據(jù)集中初步篩選出 100 個帶有精細(xì)注釋的場景,用于開源基準(zhǔn)測試。這 100 個場景包括 70 個家庭場景和 30 個商業(yè)場景,其中家庭場景由綜合性常見區(qū)域和其他不同區(qū)域組成,商業(yè)場景涵蓋醫(yī)院、超市、餐廳、學(xué)校、圖書館和辦公室等常見類型。
此外,作者還與幾位專業(yè)設(shè)計師合作,按照人類的生活習(xí)慣來分配物體,使這些場景更加逼真,如圖 1 所示,而這在以前的作品中通常是被忽略的。
具有部件(part)級注釋的交互式物體
這些場景原本包含多個 3D 物體,但其中一些沒有內(nèi)部建模,因此無法訓(xùn)練機器人與這些物體進(jìn)行交互。為了解決這個問題,作者與專業(yè)團(tuán)隊合作,對這些資產(chǎn)進(jìn)行修改,并創(chuàng)建完整的物體,使它們能夠以物理上可信的方式進(jìn)行交互。此外,為了提供更全面的信息,使智能體能夠與這些資產(chǎn)進(jìn)行交互,作者在英偉達(dá) Omniverse 中以 X 形式為所有物體的交互部件附加了細(xì)粒度部件標(biāo)簽。最后,100 個場景包含 96 個類別的 2956 個交互式物體和 22001 個非交互式物體,其分布情況如圖 2-(b) 所示。
分層多模態(tài)注釋
最后,為了實現(xiàn)具身智能體與環(huán)境以及 NPC 的多模態(tài)交互,還需要對這些場景和對象進(jìn)行語言注釋。與之前的多模態(tài) 3D 場景數(shù)據(jù)集只關(guān)注對象層面或?qū)ο箝g關(guān)系不同,作者還考慮了場景元素的不同粒度,如對象與區(qū)域的關(guān)系。鑒于缺乏區(qū)域標(biāo)簽,作者首先設(shè)計了一個用戶界面,在場景鳥瞰圖上用多邊形注釋區(qū)域,然后可以在語言注釋中涉及對象 - 區(qū)域關(guān)系。對于每個對象,他們都會用渲染的多視圖圖像提示功能強大的 VLM(如 GPT-4v),以初始化注釋,然后由人工進(jìn)行檢查。由此產(chǎn)生的語言注釋為后續(xù)基準(zhǔn)測試生成具身任務(wù)提供了基礎(chǔ)。
GRResidents3D 環(huán)境中的生成式 NPC
在 GRUtopia 中,作者通過嵌入一些「居民」(即由 LLM 驅(qū)動的生成式 NPC)來賦予世界以社交能力,從而模擬城市環(huán)境中的社會互動。這個 NPC 系統(tǒng)被命名為 GRResidents。在 3D 場景中構(gòu)建真實虛擬角色的主要挑戰(zhàn)之一是整合 3D 感知能力。然而,虛擬角色可以輕松訪問場景注釋和模擬世界的內(nèi)部狀態(tài),從而實現(xiàn)強大的感知能力。為此,作者設(shè)計了一個世界知識管理器(WKM),用于管理實時世界狀態(tài)的動態(tài)知識,并通過一系列數(shù)據(jù)接口提供訪問。借助 WKM,NPC 可以檢索所需的知識,并通過參數(shù)化函數(shù)調(diào)用執(zhí)行細(xì)粒度的對象 grounding,這構(gòu)成了其感知能力的核心。
世界知識管理器(WKM)
WKM 的主要職責(zé)是持續(xù)管理虛擬環(huán)境知識,并向 NPC 提供高級場景知識。具體來說,WKM 分別從數(shù)據(jù)集和模擬器后臺獲取分層注釋和場景知識,構(gòu)建場景圖作為場景表示,其中每個節(jié)點表示一個對象實例,邊表示對象之間的空間關(guān)系。作者采用 Sr3D 中定義的空間關(guān)系作為關(guān)系空間。WKM 會在每個模擬步驟中保留該場景圖。此外,WKM 還提供了三個核心數(shù)據(jù)接口,用于從場景圖中提取知識:
1、find_diff (target, objects):比較目標(biāo)對象與一組其他對象之間的差異;
2、get_info (object, type):根據(jù)所需的屬性類型獲取對象的知識;
3、filter (objects, condition)::根據(jù)條件過濾對象。
LLM 規(guī)劃器
NPC 的決策模塊是一個基于 LLM 的規(guī)劃器,由三個部分組成(圖 3):一個存儲模塊,用于存儲 NPC 與其他智能體之間的聊天歷史記錄;一個 LLM 程序員,使用 WKM 的接口來查詢場景知識;以及一個 LLM 發(fā)言器,用于消化聊天歷史記錄和查詢到的知識,從而生成回復(fù)。當(dāng)一個 NPC 收到一條信息時,它會首先將信息存儲在內(nèi)存中,然后將更新的歷史記錄轉(zhuǎn)發(fā)給 LLM 程序員。然后,程序員會反復(fù)調(diào)用數(shù)據(jù)接口來查詢必要的場景知識。最后,將知識和歷史記錄發(fā)送給 LLM 發(fā)言器,由其生成響應(yīng)。
實驗
作者進(jìn)行了對象指代、語言 grounding 和以對象為中心的 QA 等方面的實驗,以證明論文中的 NPC 能夠生成對象說明,通過描述定位對象,以及為智能體提供對象信息。這些實驗中的 NPC 后端 LLM 包括 GPT-4o、InternLM2-Chat-20B 和 Llama-3-70BInstruct。
如圖 4 所示,在指代實驗中,作者采用了 human-in-the-loop 評估。NPC 隨機選擇一個對象并對其進(jìn)行描述,然后人類注釋者根據(jù)描述選擇一個對象。如果人類注釋者能找到與描述相對應(yīng)的正確對象,則指代成功。在 grounding 實驗中,GPT-4o 扮演了人類注釋者的角色,它提供了一個物體的描述,然后由 NPC 對其進(jìn)行定位。如果 NPC 能夠找到相應(yīng)的物體,則 grounding 成功。
表 2 中的成功率(指代和 grounding)顯示,不同 LLM 的準(zhǔn)確率分別為 95.9%-100% 和 83.3%-93.2% ,這驗證了我們的 NPC 框架在不同 LLM 中指代和接地的準(zhǔn)確性。
在以對象為中心的 QA 實驗中,作者評估了 NPC 在導(dǎo)航任務(wù)中通過回答問題向智能體提供對象級信息的能力。他們設(shè)計了一個 pipeline 來生成以對象為中心的導(dǎo)航情節(jié),模擬真實世界的場景。在這些場景中,智能體向 NPC 提問以獲取信息,并根據(jù)回答采取行動。給定智能體問題后,作者根據(jù) NPC 的答案與真實答案之間的語義相似性對其進(jìn)行評估。表 2(QA)中顯示的總體得分表明,NPC 可以提供精確而有用的導(dǎo)航幫助。
GRBench:一個評估具身智能體的基準(zhǔn)
GRBench 是評估機器人智能體能力的綜合評估工具。為了評估機器人智能體處理日常任務(wù)的能力,GRBench 包括三個基準(zhǔn):物體定位導(dǎo)航、社交定位導(dǎo)航和定位操作。這些基準(zhǔn)的難度逐漸增加,對機器人技能的要求也隨之提高。
由于腿式機器人具有卓越的跨地形能力,作者優(yōu)先考慮將其作為主要智能體。然而,在大規(guī)模場景中,要同時執(zhí)行高級感知、規(guī)劃和低級控制并取得令人滿意的結(jié)果,對當(dāng)前的算法來說具有挑戰(zhàn)性。
GRBench 的最新進(jìn)展證明了在仿真中針對單項技能訓(xùn)練高精度策略的可行性,受此啟發(fā),GRBench 的初始版本將重點放在高級任務(wù)上,并提供基于學(xué)習(xí)的控制策略作為 API,如行走和拾放。因此,他們的基準(zhǔn)提供了更真實的物理環(huán)境,縮小了模擬與真實世界之間的差距。
下圖是 GRBench 的一些任務(wù)示例。
下圖是基準(zhǔn)智能體的概覽。grounding 模塊 (a) 將原始感官數(shù)據(jù)處理成語義豐富的信息,記憶模塊(b)存儲行動觀察歷史等歷史信息。決策模塊(c)由 VLM 或 LLM 組成,根據(jù)(a)和(b)的信息做出行動決策,而行動模塊(d)則執(zhí)行輸出的行動。環(huán)境模擬行動帶來的物理變化,并產(chǎn)生感官數(shù)據(jù)。智能體可以選擇向顧問 NPC 詢問有關(guān)任務(wù)的進(jìn)一步指示。
定量評估結(jié)果
作者在三個基準(zhǔn)測試中對不同大型模型后端下的大型模型驅(qū)動智能體框架進(jìn)行了比較分析。如表 4 所示,他們發(fā)現(xiàn)隨機策略的性能接近于 0,這表明他們的任務(wù)并不簡單。當(dāng)使用相對較優(yōu)的大型模型作為后端時,他們在所有三個基準(zhǔn)測試中都觀察到了明顯更好的整體性能。值得一提的是,他們觀察到 Qwen 在對話中的表現(xiàn)優(yōu)于 GPT-4o(見表 5)。
此外,與直接使用多模態(tài)大模型進(jìn)行決策相比,本文提出的智能體框架表現(xiàn)出明顯的優(yōu)越性。這表明,即使是目前最先進(jìn)的多模態(tài)大型模型,在現(xiàn)實世界的具身任務(wù)中也缺乏強大的泛化能力。不過,本文的方法也有相當(dāng)大的改進(jìn)空間。這表明,當(dāng)引入更接近真實世界的任務(wù)設(shè)置時,即使是像導(dǎo)航這樣已經(jīng)研究多年的任務(wù),仍然遠(yuǎn)未完全解決。
定性評估結(jié)果
圖 7 展示了 LLM 智能體在「社會定位導(dǎo)航」(Social Loco-Navigation)任務(wù)中執(zhí)行的一個小片段,以說明智能體如何與 NPC 互動。該智能體最多可與 NPC 對話三次,以查詢更多任務(wù)信息。在 t = 240 時,智能體導(dǎo)航到一把椅子前,詢問 NPC 這把椅子是否是目標(biāo)椅子。然后,NPC 提供有關(guān)目標(biāo)的周邊信息,以減少模糊性。在 NPC 的協(xié)助下,智能體通過類似人類行為的交互過程成功識別了目標(biāo)椅子。這表明,本文中的 NPC 能夠為研究人與機器人的互動和協(xié)作提供自然的社會互動。