華為諾亞方舟實驗室突破具身AI瓶頸, SpatialCoT通過坐標(biāo)對齊和思路鏈推進(jìn)空間推理
具身人工智能的目標(biāo)是使機器人或虛擬代理能夠像人類一樣理解和操作其所在的物理環(huán)境,而空間推理被視為實現(xiàn)具身任務(wù)規(guī)劃的關(guān)鍵能力。導(dǎo)航和操作任務(wù)是具身AI中常見的挑戰(zhàn),依賴于模型對空間關(guān)系的理解和高效執(zhí)行復(fù)雜任務(wù)的能力,但現(xiàn)有方法在處理復(fù)雜空間推理任務(wù)時仍面臨諸多局限,難以滿足實際應(yīng)用的需求。
現(xiàn)有方法大多通過補充空間數(shù)據(jù)和模型微調(diào)來提升空間推理能力,可是這些方法主要依賴于語言生成的粗粒度結(jié)果,難以在復(fù)雜環(huán)境中管理更精細(xì)的任務(wù)。一些方法引入了基于點的動作空間來緩解這一問題,但在處理復(fù)雜任務(wù)時仍存在明顯不足,原因在于未充分利用視覺語言模型固有的思維和推理能力。另外,現(xiàn)有模型主要在配有文本的2D圖像數(shù)據(jù)上訓(xùn)練,缺乏理解空間關(guān)系所需的信息。
為了解決上述問題,華為諾亞方舟實驗室提出了一種新方法SpatialCoT,目標(biāo)是增強視覺語言模型(VLMs)的空間推理能力。SpatialCoT由兩個主要階段組成:空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位。通過這些階段,模型能夠更好地理解和生成坐標(biāo)基于的響應(yīng),并利用語言模型的推理能力進(jìn)行高級空間推理。實驗結(jié)果表明,SpatialCoT在導(dǎo)航和操作任務(wù)中顯著優(yōu)于之前的最先進(jìn)方法。研究團(tuán)隊的相關(guān)論文《SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning》近日發(fā)表于 arXiv,引起業(yè)內(nèi)廣泛關(guān)注。
研究團(tuán)隊是由來自華為諾亞方舟實驗室的一組杰出研究人員組成,包括Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Guangjian Tian, Xingyue Quan, Jianye Hao和 Yuzheng Zhuang。華為諾亞方舟實驗室是華為旗下專注于人工智能和機器學(xué)習(xí)研究的機構(gòu),致力于推動前沿技術(shù)的發(fā)展,特別是在視覺語言模型和具身人工智能等領(lǐng)域的創(chuàng)新與應(yīng)用。團(tuán)隊成員在各自領(lǐng)域擁有豐富的研究經(jīng)驗和專業(yè)知識,共同推動了SpatialCoT的開發(fā)和應(yīng)用。
這些研究人員在視覺語言模型、具身AI和空間推理領(lǐng)域積累了豐富的經(jīng)驗和深厚的知識基礎(chǔ)。他們的合作與研究不僅推動了理論的發(fā)展,也對實際應(yīng)用產(chǎn)生了重要影響。通過他們的不懈努力,SpatialCoT為具身任務(wù)規(guī)劃提供了一個創(chuàng)新的解決方案,展示了其在復(fù)雜環(huán)境中處理導(dǎo)航和操作任務(wù)的巨大潛力。
圖1:SpatialoT與以前方法的比較。a) 以前的方法通常直接根據(jù)語言指令輸出動作。b) SpatialoT通過有效利用VLM的推理能力來提高動作生成質(zhì)量。這是通過兩個階段的微調(diào)過程實現(xiàn)的,涉及空間坐標(biāo)對齊和思維鏈空間基礎(chǔ)。
這篇論文的貢獻(xiàn)不僅在于提出了一種新的空間推理方法,更在于其對未來研究方向的引領(lǐng)和啟發(fā)。隨著技術(shù)的不斷進(jìn)步,SpatialCoT方法有望在更多實際應(yīng)用中發(fā)揮重要作用,為機器人和智能代理的自主性和智能化提供堅實的技術(shù)支持。
方法介紹
空間坐標(biāo)雙向?qū)R
圖2:SpatialIoT概述,包括兩個核心階段。a) 空間坐標(biāo)雙向?qū)R,包括將坐標(biāo)轉(zhuǎn)換為語言(由左側(cè)的藍(lán)色到黃色箭頭表示)和語言轉(zhuǎn)換為坐標(biāo)(由右側(cè)的黃色到藍(lán)色箭頭表示)。b) 思維鏈空間接地:該模型首先通過生成基于語言的基本原理進(jìn)行綜合思維,然后將其接地為基于坐標(biāo)的動作(黃色到藍(lán)色虛線),顯著提高了模型在復(fù)雜空間推理任務(wù)中的性能。
空間坐標(biāo)雙向?qū)R是SpatialCoT方法的第一個核心階段。其主要目的是通過明確對齊視覺-語言輸入與空間坐標(biāo),從而增強模型的空間理解和響應(yīng)生成能力。具體而言,這一階段涉及將圖像和文本描述與具體坐標(biāo)進(jìn)行雙向映射,使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的反饋。
空間坐標(biāo)雙向?qū)R通過兩種形式的數(shù)據(jù)對齊實現(xiàn)。第一種形式是將圖像與包含坐標(biāo)的文本指令進(jìn)行配對,模型需輸出指令中描述坐標(biāo)的相關(guān)信息。第二種形式是將圖像與不含坐標(biāo)的語言指令進(jìn)行配對,模型需生成一個或多個坐標(biāo)來指示指令中描述的位置或區(qū)域。
圖3:思維鏈空間接地的數(shù)據(jù)采集管道。
在圖像與坐標(biāo)的雙向?qū)R機制中,首先將視覺-語言數(shù)據(jù)與坐標(biāo)進(jìn)行顯式對齊,這一過程通過設(shè)計不同類型的數(shù)據(jù)(如對象理解、可用性預(yù)測、空間關(guān)系和空間兼容性)來實現(xiàn)。通過雙向?qū)R,使得模型不僅能根據(jù)坐標(biāo)理解文本描述,還能根據(jù)文本描述生成準(zhǔn)確的坐標(biāo)。
在具體數(shù)據(jù)處理過程中,模型需要處理兩種主要的數(shù)據(jù)形式。一種是圖像與包含具體坐標(biāo)的文本描述配對,另一種是圖像與不包含坐標(biāo)的文本描述配對。具體示例如“圖像中物體位于(0.81, 0.90)的位置”以及“請指出圖像中所有椅子的位置”,前者要求模型理解并生成關(guān)于坐標(biāo)的反饋,而后者則要求模型生成對應(yīng)的坐標(biāo)。
鏈?zhǔn)剿季S空間定位
鏈?zhǔn)剿季S空間定位是SpatialCoT的第二個核心階段,旨在通過語言模型的推理能力進(jìn)行高級空間推理。不同于直接生成基于坐標(biāo)的動作,這一階段通過語言推理過程將復(fù)雜的空間推理問題逐步分解,生成細(xì)粒度的動作計劃。
鏈?zhǔn)剿季S空間定位通過生成包含推理過程和具體動作的數(shù)據(jù)來實現(xiàn)。首先,模型需生成基于任務(wù)的推理過程,利用語言空間中的推理能力進(jìn)行任務(wù)指導(dǎo)。然后,模型基于推理過程生成對應(yīng)的基于坐標(biāo)的動作。這一過程通過在前一階段對齊的語言和坐標(biāo)數(shù)據(jù)中實現(xiàn),無需大量的微調(diào)數(shù)據(jù)。
在這一階段,模型通過內(nèi)在推理能力進(jìn)行復(fù)雜的空間定位。模型首先生成任務(wù)的推理過程,利用語言模型中的空間和常識推理能力,指導(dǎo)任務(wù)的完成。然后,基于推理過程生成相應(yīng)的坐標(biāo)動作,實現(xiàn)高級空間推理任務(wù)的解決。
為了高效地生成高質(zhì)量的推理-動作數(shù)據(jù)對,我們設(shè)計了一條自動化數(shù)據(jù)生成流水線。初始階段,基于圖像和任務(wù)指令從模擬器中獲取真實動作,并在圖像上進(jìn)行標(biāo)注。接著,利用強大的視覺語言模型生成基于動作標(biāo)注圖像和任務(wù)指令的推理過程,并通過加入額外的約束來確保推理過程的有效性。最終,通過微調(diào)模型,使其能夠高效處理復(fù)雜的空間推理任務(wù)。
實驗設(shè)計
SpatialCoT的方法通過一系列精心設(shè)計的實驗驗證了其在具身任務(wù)中的有效性。
圖4:現(xiàn)實世界的重排實驗,SpatialoT將各種對象組合排列成合理的布局,遵守物理約束并避免碰撞。
研究團(tuán)隊采用閉環(huán)具身任務(wù)規(guī)劃的方法,通過在模擬器中進(jìn)行任務(wù)設(shè)置和評估,全面考察SpatialCoT在導(dǎo)航和操作任務(wù)中的表現(xiàn)。任務(wù)設(shè)置包括狀態(tài)、目標(biāo)、動作和轉(zhuǎn)換的具體設(shè)置,以確保任務(wù)的復(fù)雜性和真實性。
狀態(tài)、目標(biāo)、動作、轉(zhuǎn)換的具體設(shè)置
在狀態(tài)方面,研究團(tuán)隊主要考慮了視覺遮擋、物體堆疊和封裝遮擋等因素。此外,還涉及物體屬性如幾何形狀和可移動性。目標(biāo)設(shè)置包括物體數(shù)量、空間約束和目標(biāo)描述的抽象程度。動作設(shè)置則考慮了動作空間的格式和所需技能的數(shù)量。轉(zhuǎn)換方面,研究團(tuán)隊處理了環(huán)境的動態(tài)不確定性,通過不同復(fù)雜度的層次進(jìn)行任務(wù)分解。
導(dǎo)航任務(wù)和操作任務(wù)的詳細(xì)描述
導(dǎo)航任務(wù)采用了更具挑戰(zhàn)性的目標(biāo)物體導(dǎo)航評估任務(wù)。與傳統(tǒng)的區(qū)域定位任務(wù)不同,目標(biāo)物體導(dǎo)航要求模型生成最佳的次目標(biāo)點,以盡快找到不在視野內(nèi)的目標(biāo)物體。例如,模型需要根據(jù)圖像生成最佳路徑點,以找到目標(biāo)物體的位置。
操作任務(wù)采用了餐桌功能重排評估任務(wù),這是對RoboPoint任務(wù)的進(jìn)一步擴展。給定一個目標(biāo)布局描述,模型需要逐步生成每個物體的起始和結(jié)束位置,直到達(dá)到期望的布局。例如,模型需要根據(jù)語言指令逐步將餐桌上的物品擺放到指定位置。
基本能力評估
除了具身任務(wù)規(guī)劃,研究團(tuán)隊還評估了視覺語言模型的基本能力,以理解這些能力與任務(wù)規(guī)劃性能之間的關(guān)系。這些基本能力包括對象理解、可用性預(yù)測、空間關(guān)系和空間兼容性。
- 對象理解:匹配自然語言描述與圖像中的具體視覺內(nèi)容。
- 可用性預(yù)測:識別和預(yù)測環(huán)境中可執(zhí)行的動作,如確定可導(dǎo)航區(qū)域或如何操作物體。
- 空間關(guān)系:理解物體之間的空間關(guān)系。
- 空間兼容性:預(yù)測和理解物體之間的兼容性。
實驗設(shè)置
數(shù)據(jù)收集方面,研究團(tuán)隊使用了兩個主要場景數(shù)據(jù)集。導(dǎo)航任務(wù)的數(shù)據(jù)收集依賴于Habitat合成場景數(shù)據(jù)集(HSSD),并使用Habitat作為模擬器進(jìn)行閉環(huán)模型評估。操作任務(wù)的數(shù)據(jù)收集則使用Sapien作為模擬器,生成多樣的桌面重排任務(wù)和數(shù)據(jù)。為了提高視覺真實度并減少模擬與現(xiàn)實的差距,研究團(tuán)隊使用Blender渲染器獲取高質(zhì)量圖像進(jìn)行數(shù)據(jù)收集。
圖5:導(dǎo)航和操縱任務(wù)中空間推理結(jié)果的可視化
數(shù)據(jù)生成和處理
數(shù)據(jù)生成過程中,研究團(tuán)隊通過大語言模型的強大生成能力,半自動化地構(gòu)建桌面功能重排任務(wù)的數(shù)據(jù)。此外,通過引入高質(zhì)量數(shù)據(jù)進(jìn)行模型微調(diào),使得SpatialCoT在復(fù)雜環(huán)境中的表現(xiàn)更加穩(wěn)定和出色。
模型訓(xùn)練
在模型訓(xùn)練過程中,研究團(tuán)隊選擇了Llama3.2-Vision 11B作為視覺語言模型的骨干。訓(xùn)練方法包括使用LoRA進(jìn)行微調(diào),整個訓(xùn)練過程分為兩個階段,每個階段進(jìn)行了2個epoch的訓(xùn)練。所有實驗在配備8塊NVIDIA L40 GPU的單臺機器上進(jìn)行,確保了訓(xùn)練的高效和穩(wěn)定。
對比基線
為了驗證SpatialCoT的有效性,研究團(tuán)隊將其與多個基線模型進(jìn)行對比。這些基線模型包括專門的空間推理模型RoboPoint、開源視覺語言模型LLaMA3.2V以及閉源模型GPT-4o。通過對比這些基線模型,研究團(tuán)隊全面評估了SpatialCoT在不同任務(wù)和環(huán)境中的性能表現(xiàn)。
實驗結(jié)果
通過一系列實驗,SpatialCoT展示了其在導(dǎo)航和操作任務(wù)中的顯著優(yōu)勢。
導(dǎo)航任務(wù)結(jié)果
在導(dǎo)航任務(wù)中,研究團(tuán)隊引入了兩個關(guān)鍵指標(biāo):距離增益(DG)和成功率(SR)。距離增益衡量生成動作的質(zhì)量,成功率則評估模型在模擬器內(nèi)的整體表現(xiàn)。
在比較不同基線模型時,GPT-4o ICL和Llama3.2V 11B零樣本的距離增益分別為-0.27和-2.47,表明這些模型生成的動作質(zhì)量低于平均水平。而RoboPoint模型的距離增益為0.21,盡管有所提升,但仍不足以應(yīng)對需要高推理能力的復(fù)雜任務(wù)。采用直接在動作生成數(shù)據(jù)上微調(diào)模型的方法,距離增益達(dá)到了2.28。通過加入空間坐標(biāo)雙向?qū)R,這一數(shù)值進(jìn)一步提高到3.23,而鏈?zhǔn)剿季S空間定位則將其提升至2.83。當(dāng)結(jié)合這兩個階段時,距離增益達(dá)到了3.33,相比直接動作微調(diào)提升了46%。
在成功率方面,SpatialCoT達(dá)到了61.83%,相比直接動作微調(diào)提高了4.43%,并且在所有評估的開源和閉源模型中表現(xiàn)最佳。
操作任務(wù)結(jié)果
在操作任務(wù)中,研究團(tuán)隊引入了碰撞率(CR)和成功率(SR)作為評估指標(biāo)。碰撞率衡量生成動作的有效性,成功率則評估任務(wù)在指令描述和無碰撞條件下的完成情況。
零樣本評估中,先前模型的成功率為零,主要由于碰撞率較高。而直接動作微調(diào)將碰撞率降至21.3%,成功率提高至75.8%。SpatialCoT進(jìn)一步改進(jìn)了這些指標(biāo),碰撞率降至15.6%,成功率提高到82.6%,表明在端到端任務(wù)成功率上有顯著提升。
問題分析
圖6:分析VLM的基本能力和具體任務(wù)規(guī)劃之間的相關(guān)性,DAT表示直接動作調(diào)整。
通過對具體任務(wù)規(guī)劃的分析,研究團(tuán)隊發(fā)現(xiàn)SpatialCoT在高復(fù)雜度任務(wù)中表現(xiàn)尤為出色。操作任務(wù)中,主要的失敗來源于非獨特物體和大量物體的處理,這些場景容易導(dǎo)致碰撞。而在導(dǎo)航任務(wù)中,SpatialCoT在需要稀疏獎勵信號的任務(wù)中表現(xiàn)尤為突出,特別是在目標(biāo)較少且距離較大的復(fù)雜任務(wù)中表現(xiàn)顯著提高。
對基本能力與下游任務(wù)性能的相關(guān)性分析顯示,SpatialCoT在所有評估類別中均優(yōu)于其他模型。特別是對象理解和空間關(guān)系這兩個類別顯示出明顯的正相關(guān)關(guān)系,表明這些基本能力對模型在具體任務(wù)中的表現(xiàn)具有重要影響。
圖7:思維鏈空間基礎(chǔ)案例研究。
鏈?zhǔn)剿季S對空間推理能力的貢獻(xiàn)也在實驗中得到驗證。通過鏈?zhǔn)剿季S過程,模型能夠更好地利用空間和上下文信息,如房間布局和常識知識,以得出正確答案。例如,在尋找鬧鐘的任務(wù)中,SpatialCoT首先考慮鬧鐘的典型位置,然后根據(jù)布局推斷臥室位置,最終生成準(zhǔn)確結(jié)果。而基線模型在沒有鏈?zhǔn)剿季S的情況下,生成的結(jié)果則較為無序。
方法的局限性
雖然SpatialCoT在許多方面展示了其強大的空間推理能力,但仍有一些局限性需要注意。
處理復(fù)雜動作(如旋轉(zhuǎn))的局限
首先,SpatialCoT的方法主要基于坐標(biāo)的動作生成,這使得其在處理某些復(fù)雜動作時顯得力不從心,特別是涉及物體旋轉(zhuǎn)的任務(wù)。具體來說,當(dāng)前的方法未能有效處理需要精確控制物體旋轉(zhuǎn)角度的任務(wù),這在實際應(yīng)用中可能導(dǎo)致一些局限。例如,在需要機器人旋轉(zhuǎn)物體以便更好地定位或操作時,SpatialCoT的模型可能無法生成足夠精確的動作指令。這一局限性限制了模型在某些復(fù)雜場景中的應(yīng)用,因此未來的研究需要進(jìn)一步探索和解決這一問題。
對3D輸入的依賴和未來研究方向
另一個需要注意的局限性是SpatialCoT目前依賴于2D圖像作為視覺輸入。雖然2D圖像在許多場景中已經(jīng)能夠提供足夠的信息,但在更大、更復(fù)雜的空間中,3D輸入的需求變得尤為重要。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和導(dǎo)航復(fù)雜環(huán)境。然而,引入3D輸入也帶來了新的挑戰(zhàn),包括更高的數(shù)據(jù)處理復(fù)雜度和計算資源需求。因此,未來的研究應(yīng)當(dāng)探索如何有效地利用3D輸入來提升模型的空間推理能力。
結(jié)論
SpatialCoT方法的創(chuàng)新點在于它結(jié)合了空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位兩大核心技術(shù),以增強視覺語言模型的空間推理能力。這種方法通過明確對齊視覺-語言輸入與空間坐標(biāo),使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的響應(yīng)。同時,通過引入鏈?zhǔn)剿季S,使模型能夠利用語言推理能力進(jìn)行高級空間推理,從而更好地解決復(fù)雜的具身任務(wù)。
研究結(jié)果表明,SpatialCoT在導(dǎo)航和操作等復(fù)雜具身任務(wù)中的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)方法。在導(dǎo)航任務(wù)中,SpatialCoT在距離增益和成功率兩個關(guān)鍵指標(biāo)上均取得了優(yōu)異的成績,展示了其在生成高質(zhì)量動作方面的能力。在操作任務(wù)中,SpatialCoT在碰撞率和成功率上均表現(xiàn)出色,進(jìn)一步證明了其在復(fù)雜場景中執(zhí)行精細(xì)操作的能力。
盡管SpatialCoT已經(jīng)展示了其強大的空間推理能力,但仍存在一些需要進(jìn)一步研究的領(lǐng)域。未來的研究可以探索如何更好地處理復(fù)雜動作(如物體旋轉(zhuǎn)),以增強模型在實際應(yīng)用中的適用性。此外,雖然當(dāng)前的方法主要依賴于2D圖像作為視覺輸入,但隨著技術(shù)的發(fā)展,探索3D輸入的潛力也將成為未來研究的一個重要方向。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和操作復(fù)雜環(huán)境,但同時也帶來了更高的數(shù)據(jù)處理復(fù)雜度和計算資源需求。(END)
參考資料:https://arxiv.org/abs/2501.10074
本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????
