Agent觸摸漢堡辨冷熱,首次擁有類人感官!UCLA等發(fā)布3D多模態(tài)交互具身智能大模型
具身智能,是大模型未來應(yīng)用的一個(gè)重要方向。
現(xiàn)在,大模型加持下的智能體,能夠參與3D環(huán)境,不僅有了聽覺視覺,還有了觸覺等多種感官能力。
臥室里有什么物體,一眼辨認(rèn)。
聽到門鈴響了,LLM便會(huì)告訴你家里來客人了。
大模型加持的NPC,在觸摸桌子的香蕉后,發(fā)現(xiàn)沒熟并建議不要吃。
甚至,它還能感受到物體的溫度,餐桌上的漢堡已經(jīng)涼了,會(huì)告訴你加熱后再吃。
除此之外,這些智能體借助LLM之力,還擅長使用工具、物體檢索、導(dǎo)航、任務(wù)分解等多種任務(wù)。
來自UMass Amherst、UCLA和MIT-IBM Watson AI Lab研究人員,推出了全新的具身智能大模型MultiPLY。
通過智能體與3D環(huán)境交互,MultiPLY呈現(xiàn)了大模型多感官能力,無縫地連接了語言、動(dòng)作和感知!
論文地址:https://arxiv.org/abs/2401.08577
在推理過程中,MultiPLY能夠生成動(dòng)作token,指示智能體在環(huán)境中采取行動(dòng),并獲得下一個(gè)多感官觀測(cè)值。
然后,通過狀態(tài)token將觀測(cè)結(jié)果反饋給LLM,以生成后續(xù)的文本或動(dòng)作token。
在對(duì)象檢索、工具使用、多感官標(biāo)注和任務(wù)分解的具體任務(wù)實(shí)驗(yàn)中,MultiPLY的性能刷新SOTA。
多感官大模型
多模態(tài)大模型,如LLaVA、Flamingo、BLIP-2、PaLM-E,在視覺語言任務(wù)中表現(xiàn)出色。然而,它們主要關(guān)注2D場(chǎng)景理解,很難對(duì)3D環(huán)境進(jìn)行推理和交互。
盡管目前也有關(guān)于3D場(chǎng)景理解的大模型研究,但這些LLM缺乏捕捉視覺和語言之外的多感官信息的能力。相比之下,人類通過觸摸甜甜圈,能夠感知其柔軟度和溫度,而這種能力遠(yuǎn)遠(yuǎn)超出了當(dāng)前多模態(tài)LLM的范圍。
若想真正實(shí)現(xiàn)AI大佬口中的AGI,那么未來構(gòu)建多感官的大模型也是必不可少。
但挑戰(zhàn)在于,當(dāng)前缺少訓(xùn)練LLM的多感官交互數(shù)據(jù),另外還缺乏對(duì)3D場(chǎng)景和物體的多感官信息的正確表示。
通過將場(chǎng)景抽象為以「對(duì)象為中心」的表示,并在與對(duì)象進(jìn)一步交互時(shí)關(guān)注對(duì)象細(xì)節(jié),人類很輕易就能做到。
對(duì)于LLM來說,必須在以對(duì)象為中心的表示,以及詳細(xì)多感官信息之間靈活切換。
為此,研究人員提出了MultiPLY,一種多感官呈現(xiàn)的LLM,可以通過部署由LLM驅(qū)動(dòng)的智能體與3D環(huán)境進(jìn)行交互,從而對(duì)以對(duì)象為中心的多感官表示進(jìn)行編碼,包括視覺、音頻、觸覺和溫度信息。
Multisensory-Universe數(shù)據(jù)集
為了訓(xùn)練這種全新的模型,研究人員提出了一個(gè)大規(guī)模多感官數(shù)據(jù)集Multisensory-Universe,包含50萬條由AI智能體在3D虛擬環(huán)境中交互時(shí)收集的數(shù)據(jù)。
這些數(shù)據(jù)涵蓋了多種任務(wù)類型,包括多感官描述(multisensory captioning)、問答(question answering)、對(duì)話(dialogue)、操作(manipulation)、任務(wù)分解(task decomposition)等等。
向3D場(chǎng)景中添加互動(dòng)對(duì)象
具體來說,團(tuán)隊(duì)基于Habitat-Matterport 3D(HM3D)語義數(shù)據(jù)集對(duì)場(chǎng)景進(jìn)行了構(gòu)建。
HM3D數(shù)據(jù)集包含了216個(gè)三維空間及其內(nèi)部的3,100個(gè)房間,但由于傳感器數(shù)據(jù)不足和種類單一的問題,這些對(duì)象無法在Habitatsim環(huán)境中進(jìn)行互動(dòng)。
為此,研究人員在場(chǎng)景中引入了新的對(duì)象,這樣智能體就可以利用Habitatsim與它們進(jìn)行交互了。
主要來源有:
- ObjectFolder,包含了1000個(gè)對(duì)象模型,這些對(duì)象的撞擊聲效被儲(chǔ)存在隱式神經(jīng)場(chǎng)中,并且還標(biāo)注了對(duì)象的材質(zhì);
- Objaverse,是一個(gè)涵蓋了豐富類別的800,000個(gè)三維對(duì)象的集合。
具體來說,研究人員讓ChatGPT從ObjectFolder和Objaverse中選擇1到10個(gè)新對(duì)象,并為這些新加入的對(duì)象生成合適的邊界框。
期間,ChatGPT需要確定對(duì)象的材質(zhì)類別(比如,陶瓷、塑料、鋼鐵)和特性(比如,可變形性、彈性、硬度),以及溫度標(biāo)簽(比如,物體是熱的、冷的,還是和室溫一樣)。
除了HM3D中現(xiàn)有的對(duì)象及其邊界框外,研究人員給ChatGPT的提示還包括一些偏好,和少樣本示例:
- 挑選一些外觀相似的對(duì)象。比如,選兩個(gè)外形相似的瓶子,其中一個(gè)是塑料的,另一個(gè)是金屬的。這樣,就需要通過不同的傳感器收集信息來消除歧義。
- 挑選那些與環(huán)境匹配、并可以組合使用完成任務(wù)的對(duì)象。例如,在廚房環(huán)境中,可以選擇食材和烹飪工具。
多感官全景(Multisensory-Universe)生成管線
獲取新物體的傳感器數(shù)據(jù)
- 觸覺
對(duì)于觸覺數(shù)據(jù)的收集,研究人員采用了DiffTactile技術(shù),它基于MLSMPM方法來模擬剛體、彈性和彈塑性的物體。
把物體的三維模型放入DiffTactile系統(tǒng)中,然后用一個(gè)裝有定位標(biāo)記的抓手在事先設(shè)定好的位置觸碰這些物體。觸覺傳感器記錄下標(biāo)記點(diǎn)的起始和結(jié)束位置,從而反映氣泡被壓縮的程度。
- 環(huán)境聲音
為了幫助導(dǎo)航或推理,每個(gè)物體都可以發(fā)出環(huán)境聲音,或者作為線索,讓AI智能體了解周圍環(huán)境中正在發(fā)生的事情。
引導(dǎo)ChatGPT根據(jù)AudioSet中的聲音樣本與新添加物體的語義標(biāo)簽進(jìn)行匹配。根據(jù)AudioSet提供的聲音描述,ChatGPT需要從候選物體列表中挑選出那些可能發(fā)出這種聲音的物體。
- 撞擊聲音
撞擊聲音是指敲擊或撞擊物體時(shí)所聽到的聲音,這對(duì)于識(shí)別物體的材料類型非常關(guān)鍵。
通過在ObjectFolder中查詢物體的隱式聲音場(chǎng),再給定敲擊位置和施加的力,就可以獲撞擊聲音了。
- 溫度
針對(duì)每個(gè)物體的溫度標(biāo)簽,需要讓ChatGPT給出它們各自合適的溫度。
智能體采集場(chǎng)景構(gòu)建數(shù)據(jù)
研究人員通過大語言模型驅(qū)動(dòng)的智能體,來收集場(chǎng)景構(gòu)建中的所需數(shù)據(jù)。
首先,給ChatGPT設(shè)置任務(wù),并讓它給出任務(wù)建議。接著,將一個(gè)能夠在3D環(huán)境中與物體進(jìn)行互動(dòng)的智能體放入其中,執(zhí)行任務(wù)并收集交互數(shù)據(jù)。
- 生成任務(wù)建議
在給出需要執(zhí)行的動(dòng)作清單后,ChatGPT便會(huì)生成特定的任務(wù),并產(chǎn)生一系列代表動(dòng)作的詞語,以及基于物體實(shí)際反饋標(biāo)簽推導(dǎo)出的語言推理結(jié)果。由于ChatGPT能夠訪問所有的材料和溫度標(biāo)簽,因此它能在「觸摸」動(dòng)作之后生成類似「感覺很冷」的句子。
- 互動(dòng)數(shù)據(jù)的收集
智能體首先會(huì)隨機(jī)地探索環(huán)境,并收集初始的RGBD環(huán)境數(shù)據(jù)。在確定了動(dòng)作之后,智能體就會(huì)去與環(huán)境中的物體進(jìn)行互動(dòng),并獲取感官反饋。例如,當(dāng)動(dòng)作是「觸摸物體」時(shí),智能體會(huì)反饋該物體的觸覺和溫度信息。
MultiPLY架構(gòu)
接下來,便是進(jìn)入MultiPLY大模型訓(xùn)練階段了。
以對(duì)象為中心的場(chǎng)景表征
LLM首先將智能體探索的3D環(huán)境特征作為輸入,以便對(duì)場(chǎng)景有初步理解。
研究人員按照3D-LLM研究路線,利用2D特征來構(gòu)建3D場(chǎng)景特征。這樣視覺特征就可以無縫地輸入到預(yù)訓(xùn)練的視覺語言模型中,且無需適應(yīng)。
然而,3D-LLM的點(diǎn)云編碼讓LLM很難一次處理數(shù)千個(gè)點(diǎn)。
當(dāng)人類探索3D環(huán)境時(shí),會(huì)將場(chǎng)景抽象表示,并粗略地形成對(duì)象及其位置的理解,無需記住所有細(xì)節(jié)。
同樣,研究團(tuán)隊(duì)使用以對(duì)象為中心的抽象表示來表示3D場(chǎng)景。
通過概念圖和CLIP編碼器來編碼圖像中的物體,然后通過多視角關(guān)聯(lián),將2D圖像編碼融合到3D空間中。
研究人員還將位置嵌入添加到物體的視覺特征中,最終得到個(gè)特征作為抽象的以對(duì)象為中心的場(chǎng)景表示,其中
是對(duì)象的數(shù)量。
如果3D環(huán)境中的物體帶有環(huán)境聲音,研究人員會(huì)使用CLAP音頻編碼器對(duì)聲音進(jìn)行編碼,并得到1024維的特征。
以對(duì)象為中心的場(chǎng)景表示和環(huán)境聲音表示作為LLM的初始輸入,由 <SCENE>、</SCENE> 和 <AMBIENT SOUND>、</AMBIENT SOUND> 等token括起來。
動(dòng)作token
研究人員設(shè)計(jì)了一組動(dòng)作token來表示智能體與環(huán)境的交互:
<SELECT> token選擇要與之交互的對(duì)象。通過語言特征(即<SELECT> token的LLM的最后隱藏狀態(tài))和環(huán)境中對(duì)象的CLIP視覺特征之間的注意力來選擇對(duì)象。它會(huì)選擇有最大注意力分?jǐn)?shù)的對(duì)象。
<NAVIGATE> token要求智能體導(dǎo)航到選定的對(duì)象。
<OBSERVE> token要求智能體仔細(xì)檢查所選對(duì)象并獲取對(duì)象詳細(xì)信息(以對(duì)象詳細(xì)點(diǎn)云的形式)。
<TOUCH> token允許智能體觸摸所選的物體,獲取觸覺和溫度信息。
<HIT> token允許智能體擊中所選物體,得到撞擊聲音。
<PICK-UP>和<PUT-DOWN> token讓智能體能夠拾取或放下選定的對(duì)象。
<LOOK-AROUND> token讓智能體轉(zhuǎn)頭并獲取附近的物體。
狀態(tài)token
研究人員還設(shè)計(jì)了另一種token,將交互結(jié)果反饋給LLM:
<OBJECT>:當(dāng)AI智能體<OBSERVE>到一個(gè)物體時(shí),它會(huì)記錄物體的點(diǎn)信息。得到從2D CLIP特征聚合而來的3D特征后,再加入位置信息來進(jìn)行增強(qiáng)。隨后創(chuàng)建了一個(gè)由N個(gè)點(diǎn)組成的點(diǎn)云,每個(gè)點(diǎn)都有1024維的特征數(shù)據(jù),其中N是點(diǎn)的總數(shù)。
<IMPACT SOUND>:當(dāng)AI智能體<HIT>一個(gè)物體時(shí),它會(huì)記錄產(chǎn)生的撞擊聲。利用CLAP音頻編碼器處理這些聲音,即可得到一個(gè)1024維的撞擊聲音數(shù)據(jù)。然后使用一個(gè)聲音映射器(即一個(gè)處理層)將聲音數(shù)據(jù)轉(zhuǎn)換成LLM可以處理的格式。
<TACTILE>:當(dāng)一個(gè)物體被AI智能體<TOUCH>時(shí),它會(huì)記錄下觸覺信息。先將觸覺感應(yīng)轉(zhuǎn)化為熱圖,并使用CLIP來處理。通過對(duì)這些熱圖區(qū)塊進(jìn)行平均值處理,就得到了一個(gè)1024維的溫度特征數(shù)據(jù)。然后使用一個(gè)觸覺映射器(即一個(gè)處理層)來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式。
<TEMPERATURE> :在記錄溫度時(shí),會(huì)先將溫度數(shù)據(jù)轉(zhuǎn)化為熱圖,并使用CLIP來處理。通過對(duì)熱圖區(qū)塊進(jìn)行平均值處理,就獲得了一個(gè)1024維的溫度特征數(shù)據(jù)。然后再使用一個(gè)溫度映射器(即一個(gè)處理層)來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式。
訓(xùn)練與推理
模型架構(gòu)
在此,研究人員使用了LLaVA作為多模態(tài)大模型骨干。
由于研究中的視覺特征已使用ConceptGraphs與LLaVA對(duì)齊到相同的嵌入空間,因此可以直接使用LLaVA的視覺到語言projector,而無需對(duì)視覺語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
對(duì)于其他傳感器模式,研究人員利用輕量級(jí)適配器,它是單線層projector,將傳感器特征映射到LLaVA的文本token嵌入空間中。
模態(tài)對(duì)齊
如上所述,觸覺、聲音和溫度表示與語言特征不一致。
在第一階段,研究人員訓(xùn)練傳感器到語言適配器以進(jìn)行多感官特征對(duì)齊。對(duì)于音頻語言對(duì)齊,使用了AudioSet和AudioCaps。
對(duì)于撞擊聲、觸覺和熱數(shù)據(jù),研究團(tuán)隊(duì)使用ChatGPT生成一個(gè)句子標(biāo)題,描述材料以及每種傳感器模態(tài)和語言之間的一致性。然后凍結(jié)圖像編碼器和LLM的權(quán)重,以加快收斂速度并保持語言推理能力。
使用Multisensory-Universe數(shù)據(jù)集進(jìn)行指令微調(diào)
在第二階段,研究人員使用Multisensory-Universe數(shù)據(jù)集對(duì)LLaVA進(jìn)行調(diào)優(yōu)。
其中訓(xùn)練損失由兩部分組成,第一個(gè)是LLM損失,與原始LLaVA模型相同。然后又添加了一項(xiàng)損失,迫使模型選擇正確的對(duì)象來關(guān)注。
具體來說,研究人員計(jì)算SELECT token的LLM最后一個(gè)隱藏狀態(tài),與每個(gè)抽象對(duì)象特征之間的注意力。
該特征通過Sigmoid層,并通過二元交叉熵(BCE)損失進(jìn)行優(yōu)化。在這一階段的訓(xùn)練中,解凍整個(gè)模型。
研究人員在128個(gè)V100 GPU上使用FSDP進(jìn)行了高效訓(xùn)練。
推理
在推理時(shí),MultiPLY首先將任務(wù)提示和抽象場(chǎng)景表示作為輸入,并生成后續(xù)token。一旦生成了動(dòng)作token,就會(huì)指示智能體采取Habitat-sim中的動(dòng)作并與環(huán)境交互。
智能體的觀察結(jié)果通過狀態(tài)token作為輸入反饋給LLM。LLM進(jìn)一步根據(jù)當(dāng)前狀態(tài)輸入生成下一個(gè)token。
實(shí)驗(yàn)結(jié)果
微調(diào)模型在多感官數(shù)據(jù)集上進(jìn)行訓(xùn)練之后,研究人員在模擬環(huán)境中對(duì)其進(jìn)行了測(cè)試。
在這些測(cè)試中,AI智能體能夠根據(jù)MultiPLY生成的動(dòng)作Token與模擬環(huán)境進(jìn)行互動(dòng)。
接著,LLM將等待智能體完成動(dòng)作,并通過狀態(tài)Token接收智能體的觀察結(jié)果,以此來生成下一個(gè)Token。
具體來說,研究人員設(shè)計(jì)了4種實(shí)驗(yàn)場(chǎng)景:對(duì)象檢索、工具使用、多感官標(biāo)注和任務(wù)分解,并為每個(gè)場(chǎng)景提供了詳細(xì)的任務(wù)說明、基準(zhǔn)測(cè)試和分析。
對(duì)象檢索
在對(duì)象檢索的實(shí)驗(yàn)中,研究人員得出了幾個(gè)有趣的結(jié)論。
首先,能夠處理多種感官信息的模型,遠(yuǎn)遠(yuǎn)優(yōu)于只能處理單一信息類型的模型。
CLIP和CLAP,以及那些依賴初始視覺特征的模型,在物品檢索任務(wù)中的表現(xiàn)很差。這更加凸顯了結(jié)合多種感官信息的模型,相較于僅依賴2D圖像模型的重要性。
這主要是因?yàn)?,單一視角的圖片有時(shí)候無法提供充分的信息來識(shí)別物體,尤其是當(dāng)視角不一致或者物體被遮擋時(shí)。
其次,LLM在性能上超越了基于相似度檢索的模型。這可能是因?yàn)楹笳邔⒍喔泄俚男畔⒑唵蔚厝诤显谝黄?,而沒有區(qū)分各種感官信息。
總體而言,MultiPLY在很多方面都顯著優(yōu)于基準(zhǔn)模型。
可能是因?yàn)槠渌P蛯⑺行畔⒍寂c視覺信息綁定,而忽視了一個(gè)視覺特征可能與來自其他感官的多個(gè)特征相關(guān)聯(lián)的事實(shí)。
而MultiPLY通過單獨(dú)與不同感官數(shù)據(jù)進(jìn)行交互和推理,可以將不同感官特征相互聯(lián)系。
工具使用
在工具使用測(cè)試中,那些基于綁定(binding-based)的方法在工具使用這一任務(wù)上表現(xiàn)極差。
原因可能在于這些方法將物體的多種感官信息,作為不可分割的整體進(jìn)行處理,導(dǎo)致它們無法從整體中區(qū)分出單獨(dú)的感官特征,比如物質(zhì)材料。
因此,就 更別提去推斷這些特性是如何成為工具使用的依據(jù),以及如何在多種感官信息融合后分析和理解物體的實(shí)際功能了。
多感官標(biāo)注
從下表可以明顯看出,整體而言,基于3D的大模型的性能,超越了基于2D VLM。
LLaVA和3D-LLM采用了全面的數(shù)據(jù)表示作為輸入,這導(dǎo)致它們無法與那些可以靈活切換不同數(shù)據(jù)表示、進(jìn)行互動(dòng)的模型相匹敵。
MultiPLY的表現(xiàn)比Pointbind-LLM更加出色,這很可能是因?yàn)镻ointBind把不同感官模態(tài)的數(shù)據(jù)表示綁定在一起,這樣做難以區(qū)分和解析各個(gè)感官信息。
任務(wù)分解
在任務(wù)分解上,那些缺乏交互功能的模型表現(xiàn)極差,這很可能是由于VLM極易出現(xiàn)錯(cuò)誤的幻覺。
例如,即使場(chǎng)景中并無面包,模型也可能錯(cuò)誤地生成「找到一塊面包」的指令。
MultiPLY在性能上大幅領(lǐng)先于基線模型,是因?yàn)镸ultiPLY綜合考慮了多種感官信息,而其他模型僅僅依賴視覺信息。
另一個(gè)原因可能在于,基線模型僅以整個(gè)場(chǎng)景作為輸入,無法精確地關(guān)注到場(chǎng)景中的具體細(xì)節(jié)。
定性實(shí)驗(yàn)
下圖直觀展現(xiàn)了MultiPLY在具體環(huán)境中與物體互動(dòng)并獲取多種感官信息的強(qiáng)大能力。
作者介紹
Yining Hong是加州大學(xué)洛杉磯分校計(jì)算機(jī)科學(xué)專業(yè)的博士生,導(dǎo)師是MIT-IBM Watson AI Lab的淦創(chuàng)教授,以及UCLA的Song-Chun Zhu教授和Ying Nian Wu教授。
在此之前,她在上海交通大學(xué)獲得了學(xué)士學(xué)位。
她的研究致力于開發(fā)能夠主動(dòng)探索并與三維物理世界進(jìn)行互動(dòng),同時(shí)還能在這樣的環(huán)境中進(jìn)行常識(shí)性推理的通用具身智能體。
其所需關(guān)鍵要素包括:
- 構(gòu)建三維世界的模型;
- 發(fā)展大規(guī)模具身基礎(chǔ)模型;
- 實(shí)現(xiàn)視覺常識(shí)推理。