自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

發(fā)布于 2024-5-24 10:03
瀏覽
0收藏

當(dāng)我們拿起一個(gè)機(jī)械手表時(shí),從正面會(huì)看到表盤和指針,從側(cè)面會(huì)看到表冠和表鏈,打開(kāi)手表背面會(huì)看到復(fù)雜的齒輪和機(jī)芯。每個(gè)視角都提供了不同的信息,將這些信息綜合起來(lái)才能理解操作對(duì)象的整體三維。


想讓機(jī)器人在現(xiàn)實(shí)生活中學(xué)會(huì)執(zhí)行復(fù)雜任務(wù),首先需要使機(jī)器人理解操作對(duì)象和被操作對(duì)象的屬性,以及相應(yīng)的三維操作空間,包括物體位置、形狀、物體之間的遮擋關(guān)系,以及對(duì)象與環(huán)境的關(guān)系等。


其次,機(jī)器人需要理解自然語(yǔ)言指令,對(duì)未來(lái)動(dòng)作進(jìn)行長(zhǎng)期規(guī)劃和高效執(zhí)行。使機(jī)器人具備從環(huán)境感知到動(dòng)作預(yù)測(cè)的能力是具有挑戰(zhàn)性的。


近期,中國(guó)電信人工智能研究院(TeleAI)李學(xué)龍教授團(tuán)隊(duì)聯(lián)合上海人工智能實(shí)驗(yàn)室、清華大學(xué)等單位,模擬人「感知—記憶—思維—想象」的認(rèn)知過(guò)程,提出了多視角融合驅(qū)動(dòng)的通用具身操作算法,為機(jī)器人學(xué)習(xí)復(fù)雜操作給出了可行解決方案,論文被國(guó)際機(jī)器學(xué)習(xí)大會(huì)ICML 2024錄用,為構(gòu)建通用三維具身策略奠定了基礎(chǔ)。

具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


近年來(lái),視覺(jué)基礎(chǔ)模型對(duì)圖像的理解能力獲得了飛速發(fā)展。然而,三維空間的理解還存在許多挑戰(zhàn)。能否利用視覺(jué)大模型幫助具身智能體理解三維操作場(chǎng)景,使其在三維空間中完成各種復(fù)雜的操作任務(wù)呢?受「感知—記憶—思維—想象」的認(rèn)知過(guò)程啟發(fā),論文提出了全新的基于視覺(jué)分割模型Segment Anything(SAM)的具身基座模型SAM-E。


首先,SAM- E具有強(qiáng)大可提示(promptable)「感知」能力,將SAM特有的分割結(jié)構(gòu)應(yīng)用在語(yǔ)言指令的具身任務(wù)中,通過(guò)解析文本指令使模型關(guān)注到場(chǎng)景中的操作物體。


隨后,設(shè)計(jì)一種多視角Transformer,對(duì)深度特征、圖像特征與指令特征進(jìn)行融合與對(duì)齊,實(shí)現(xiàn)對(duì)象「記憶」與操作「思考」,以此來(lái)理解機(jī)械臂的三維操作空間。


最后,提出了一種全新的動(dòng)作序列預(yù)測(cè)網(wǎng)絡(luò),對(duì)多個(gè)時(shí)間步的動(dòng)作序列進(jìn)行建模,「想象」動(dòng)作指令,實(shí)現(xiàn)了從三維場(chǎng)景感知到具身動(dòng)作的端到端輸出。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)



從二維感知到三維感知


在數(shù)字時(shí)代的浪潮中,隨著人工智能技術(shù)的飛速發(fā)展,我們正逐漸邁入一個(gè)嶄新的時(shí)代——具身智能時(shí)代。賦予智能體以身體,使其具備與真實(shí)世界直接互動(dòng)的能力,成為了當(dāng)前研究的重點(diǎn)方向之一。


要實(shí)現(xiàn)這一目標(biāo),智能體必須具備強(qiáng)大的三維感知能力,以便能夠準(zhǔn)確地理解周圍環(huán)境。


傳統(tǒng)的二維感知手段在面對(duì)復(fù)雜的立體空間時(shí)顯得力不從心,如何讓具身智能體通過(guò)學(xué)習(xí)掌握對(duì)三維空間的精準(zhǔn)建模能力,成為了一個(gè)亟待解決的關(guān)鍵問(wèn)題。


現(xiàn)有工作通過(guò)正視圖、俯視圖、側(cè)視圖等等多個(gè)視角的視圖還原和重建三維空間,然而所需的計(jì)算資源較為龐大,同時(shí)在不同場(chǎng)景中具有的泛化能力有限。


為了解決這個(gè)問(wèn)題,本工作探索一種新的途徑——將視覺(jué)大模型的強(qiáng)大泛化能力應(yīng)用于具身智能體的三維感知領(lǐng)域。


SAM-E提出了使用具有強(qiáng)大泛化能力的通用視覺(jué)大模型 SAM 進(jìn)行視覺(jué)感知,通過(guò)在具身場(chǎng)景的高效微調(diào),將其具有的可泛化,可提示(promptable)的特征提取能力、實(shí)例分割能力、復(fù)雜場(chǎng)景理解等能力有效遷移到具身場(chǎng)景中。


為了進(jìn)一步優(yōu)化SAM基座模型的性能,引入了動(dòng)作序列網(wǎng)絡(luò)的概念,不僅能夠捕捉單個(gè)動(dòng)作的預(yù)測(cè),還能夠深入理解連續(xù)動(dòng)作之間的內(nèi)在聯(lián)系,充分挖掘動(dòng)作間的時(shí)序信息,從而進(jìn)一步提高基座模型對(duì)具身場(chǎng)景的理解與適應(yīng)能力。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖1. SAM-E總體框架


SAM-E方法


SAM-E方法的核心觀點(diǎn)主要包含兩個(gè)方面:


  • 利用SAM的提示驅(qū)動(dòng)結(jié)構(gòu),構(gòu)建了一個(gè)強(qiáng)大的基座模型,在任務(wù)語(yǔ)言指令下?lián)碛谐錾姆夯阅堋Mㄟ^(guò)LoRA微調(diào)技術(shù),將模型適配到具身任務(wù)中,進(jìn)一步提升了其性能。
  • 采用時(shí)序動(dòng)作建模技術(shù),捕捉動(dòng)作序列中的時(shí)序信息,更好地理解任務(wù)的動(dòng)態(tài)變化,并及時(shí)調(diào)整機(jī)器人的策略和執(zhí)行方式,使機(jī)器人保持較高的執(zhí)行效率。


可提示感知與微調(diào)


SAM- E核心在于利用任務(wù)指令提示驅(qū)動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu),包含一個(gè)強(qiáng)大的視覺(jué)編碼器和一個(gè)輕量的解碼器。


在具身場(chǎng)景中任務(wù)「提示」以自然語(yǔ)言的形式呈現(xiàn),作為任務(wù)描述指令,視覺(jué)編碼器發(fā)揮其可提示的感知能力,提取與任務(wù)相關(guān)的特征。策略網(wǎng)絡(luò)則充當(dāng)解碼器的角色,基于融合的視覺(jué)嵌入和語(yǔ)言指令輸出動(dòng)作。


在訓(xùn)練階段,SAM-E 使用 LoRA 進(jìn)行高效微調(diào),大大減少了訓(xùn)練參數(shù),使視覺(jué)基礎(chǔ)模型能夠快速適應(yīng)于具身任務(wù)。


多視角三維融合


SAM-E引入了多視角Transformer網(wǎng)絡(luò),以融合多視角的視覺(jué)輸入,深入理解三維空間。其工作分為兩個(gè)階段:視角內(nèi)注意力(View-wise Attention)跨視角注意力(Cross-view Attention)。


首先,對(duì)多視角特征分別進(jìn)行視角內(nèi)部的注意力處理,然后融合多個(gè)視角和語(yǔ)言描述進(jìn)行混合視角注意力,實(shí)現(xiàn)多視角的信息融合和圖像—語(yǔ)言對(duì)齊。


動(dòng)作序列建模


在機(jī)械臂執(zhí)行中,末端執(zhí)行器的位置和旋轉(zhuǎn)通常呈現(xiàn)出連續(xù)而平滑的變化趨勢(shì)。這一特性使得相鄰動(dòng)作之間存在著密切的聯(lián)系和連續(xù)性?;谶@一觀察,提出了一種新穎的時(shí)間平滑假設(shè),旨在充分利用相鄰動(dòng)作之間的內(nèi)在關(guān)聯(lián),實(shí)現(xiàn)對(duì)動(dòng)作序列的有效模仿學(xué)習(xí)。


具體來(lái)說(shuō),SAM-E框架通過(guò)序列建模技術(shù)捕捉動(dòng)作序列中的模式和關(guān)系,為動(dòng)作預(yù)測(cè)提供一種隱性的先驗(yàn)知識(shí),并對(duì)動(dòng)作的連續(xù)性加以約束,從而顯著提升動(dòng)作預(yù)測(cè)的準(zhǔn)確性和一致性。


在實(shí)際應(yīng)用中,SAM-E 允許在一次動(dòng)作預(yù)測(cè)中執(zhí)行后續(xù)的多步動(dòng)作,極大地提高了執(zhí)行效率。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


圖3.連續(xù)動(dòng)作的位置和旋轉(zhuǎn)變化              


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖4.動(dòng)作序列預(yù)測(cè)網(wǎng)絡(luò)


實(shí)驗(yàn)


實(shí)驗(yàn)使用具有挑戰(zhàn)性的機(jī)械臂任務(wù)集合——RLBench,對(duì)多視角觀測(cè)下的3D操作任務(wù)進(jìn)行了全面評(píng)估,SAM-E模型在多個(gè)方面均顯著優(yōu)于其他傳統(tǒng)方法。


  • 多任務(wù)場(chǎng)景下,SAM-E模型顯著提高了任務(wù)成功率。
  • 面對(duì)少量樣本遷移至新任務(wù)的情況下,SAM-E憑借強(qiáng)大的泛化性能和高效的執(zhí)行效率,有效提升新任務(wù)的表現(xiàn)。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖5.三維操作任務(wù)結(jié)果比較


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖6.三維操作任務(wù)示例


此外,動(dòng)作序列建模顯著提高了 SAM-E 的執(zhí)行效率,同時(shí)在策略執(zhí)行階段,相比于單個(gè)動(dòng)作,動(dòng)作序列執(zhí)行顯著降低了模型推理次數(shù),測(cè)試中甚至能通過(guò)一次模型推理完成相應(yīng)任務(wù)。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖7.任務(wù)執(zhí)行中的模型推理頻率


SAM-E在真實(shí)機(jī)械臂控制中同樣有效,使用兩個(gè)第三人稱相機(jī)捕獲多視角視覺(jué)輸入,在五個(gè)真實(shí)任務(wù)上具有實(shí)時(shí)的推理能力。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)

圖8.真實(shí)機(jī)械臂任務(wù)


總結(jié)


該工作開(kāi)創(chuàng)性地提出了一種以多視角融合的基礎(chǔ)的通用具身操作算法,利用視覺(jué)分割大模型和多視角融合實(shí)現(xiàn)具身智能體的三維物理空間感知。


通過(guò)高效的參數(shù)微調(diào),將預(yù)訓(xùn)練視覺(jué)模型遷移到具身場(chǎng)景中,能夠解決自然語(yǔ)言指令的復(fù)雜3D機(jī)械臂操作任務(wù)。此外,模型可以通過(guò)學(xué)習(xí)少量專家示例,快速泛化到新的任務(wù)中,展現(xiàn)出優(yōu)越的訓(xùn)練效率和動(dòng)作執(zhí)行效率。


更重要的是,SAM-E以「感知—記憶—思維—想象」的認(rèn)知鏈路,實(shí)現(xiàn)了從數(shù)據(jù)到動(dòng)作的端到端映射。其意義不僅在于其在具身智能體中的應(yīng)用,更在于對(duì)提升智能體認(rèn)知能力的啟發(fā)。


通過(guò)模擬人類的感知和決策方式,智能體能夠更好地理解和適應(yīng)復(fù)雜的環(huán)境,從而在更廣泛的領(lǐng)域發(fā)揮更大的作用。


團(tuán)隊(duì)負(fù)責(zé)人介紹:


李學(xué)龍,中國(guó)電信CTO、首席科學(xué)家,中國(guó)電信人工智能研究院(TeleAI)院長(zhǎng)。主要關(guān)注人工智能、臨地安防、圖像處理、具身智能。


具身智能體三維感知新鏈條,TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」-AI.x社區(qū)


本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/bLqyLHzFoBrRBT0jgkmZMw??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦