自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Zero-shot重建物理高斯資產(chǎn),清華&光輪視覺大模型讓機(jī)器人理解物理屬性|ICRA 2025

人工智能 新聞
無需訓(xùn)練、零樣本,它就能夠從多視角圖像中重建物體,并對各種指定的物理屬性進(jìn)行密集重建。

理解物體的物理屬性,對機(jī)器人執(zhí)行操作十分重要,但是應(yīng)該如何實(shí)現(xiàn)呢?

光輪智能與清華AIR、同濟(jì)大學(xué)等機(jī)構(gòu)聯(lián)合提出了一種基于3D高斯濺射的方法——

PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)

無需訓(xùn)練、零樣本,它就能夠從多視角圖像中重建物體,并對各種指定的物理屬性進(jìn)行密集重建。

該論文已被ICRA 2025接收。

在非結(jié)構(gòu)化環(huán)境中,準(zhǔn)確理解物體的物理屬性不僅能幫助機(jī)器人更好地規(guī)劃抓取策略,還能避免因錯(cuò)誤估計(jì)導(dǎo)致的操作失敗(比如下手太重導(dǎo)致物體損壞)。

現(xiàn)有的方法如NeRF2Physics利用NeRF來對物體進(jìn)行重建,并結(jié)合視覺語言模型(VLM)與大語言模型(LLM)進(jìn)行物理屬性預(yù)測。

但是,此類方法存在預(yù)測結(jié)果碎片化、物理屬性不連續(xù)不合理的問題。

研究團(tuán)隊(duì)通過3D高斯濺射作為重建表征,并引入?yún)^(qū)域感知特征來增強(qiáng)區(qū)域區(qū)分的能力。

在此基礎(chǔ)上,結(jié)合基于VLM的物理屬性預(yù)測和基于特征的屬性傳播,可以達(dá)到更好的物體重建和更加合理的物理屬性預(yù)測結(jié)果。

為了保持重建結(jié)果的幾何一致性,研究團(tuán)隊(duì)還引入了幾何感知的正則化損失和稀疏損失,確保高斯分布與物體的實(shí)際空間形狀分布一致。

高斯濺射+視覺大模型,理解物理屬性

PUGS框架分為三個(gè)階段——形狀與區(qū)域感知的3DGS重建、基于視覺語言模型(VLM)的物理屬性預(yù)測,以及基于區(qū)域特征的屬性傳播。

對于物體級別的物理屬性(例如質(zhì)量),則還包含高斯體積積分模塊以得到整體的物理屬性結(jié)果。

PUGS以物體的多視角圖像作為輸入,同時(shí)允許給定需要預(yù)測的物體屬性(如密度、硬度系數(shù)、楊氏模量等),最終輸出則是物體的重建結(jié)果,其中包含了物體的RGB信息,以及任意位置的物理屬性。

形狀與區(qū)域感知的3DGS重建

PUGS首先使用3DGS來從多視角RGB圖像中重建物體。

但是原始的3DGS重建通常會(huì)出現(xiàn)Floater,這導(dǎo)致重建結(jié)果的細(xì)節(jié)表現(xiàn)不佳,并且在幾何的準(zhǔn)確性上存在問題。

研究團(tuán)隊(duì)參考現(xiàn)有方法,引入幾何感知的正則化損失和稀疏損失,損失項(xiàng)如下:

其中,是圖像中的像素集合,是歸一化到0到1的圖像梯度;

是基于像素點(diǎn)的局部平面計(jì)算得到的法向量,是基于PGSR提出的無偏深度渲染計(jì)算得到的法向量,是每個(gè)高斯的不透明度。

這里是幾何感知的正則化損失,是稀疏損失。

前者通過兩種不同方式來渲染法線圖,并鼓勵(lì)輸出結(jié)果盡可能一致,從而確保高斯分布與物體的實(shí)際空間形狀一致;

而后者則鼓勵(lì)每個(gè)高斯的不透明度靠近0或1,減少中間結(jié)果的存在。

引入幾何感知的正則損失(Geometry-Aware Regularization Loss, GARL)后,可以有效緩解Floater問題,增強(qiáng)幾何的準(zhǔn)確性。

此外,PUGS還引入了區(qū)域感知的特征對比損失,通過對比學(xué)習(xí)訓(xùn)練高斯分布的特征,使其能夠區(qū)分物體的不同區(qū)域。

在現(xiàn)實(shí)場景中,物體表面可能存在不同的材料,如金屬、木材、塑料等,而這些材料在物體上通常表現(xiàn)為不同的區(qū)域。

對區(qū)域的區(qū)分有助于提高物理屬性預(yù)測的準(zhǔn)確性。

研究團(tuán)隊(duì)首先向每個(gè)Gaussian上引入一個(gè)新的可學(xué)習(xí)特征,并使用-blending來渲染出不同視角下的特征圖,然后使用SAM對多視角圖像進(jìn)行分割,以區(qū)分物體的不同區(qū)域。

之后,利用對比學(xué)習(xí)來訓(xùn)練該特征。損失函數(shù)如下:

其中,表示兩個(gè)像素是否屬于同一個(gè)區(qū)域,是兩個(gè)像素點(diǎn)在特征空間中的余弦相似性。

直觀來說,如果兩個(gè)像素點(diǎn)屬于同一個(gè)區(qū)域,那么它們在特征空間中的余弦相似性應(yīng)該越大越好,反之則應(yīng)該越小越好。

△幾何感知損失與形狀感知特征訓(xùn)練的示意圖

基于VLM的物理屬性預(yù)測

在重建階段完成后,PUGS利用視覺語言模型(VLM)進(jìn)行零樣本物理屬性預(yù)測。

NeRF2Physics采用兩階段的方法來進(jìn)行物理屬性預(yù)測。

它首先通過VLM來從物體的圖像預(yù)測物體的文本描述,然后將該文本描述輸入給LLM來預(yù)測材質(zhì)和物理屬性。

與NeRF2Physics不同,PUGS直接使用VLM對多視角圖像中的某一張進(jìn)行材質(zhì)和物理屬性預(yù)測,避免了圖像到文本轉(zhuǎn)換過程中的信息丟失。

該階段VLM輸出的結(jié)果包括物體可能的材質(zhì),以及這些材質(zhì)的物理屬性范圍等。

這些屬性在后續(xù)會(huì)通過CLIP特征傳播到重建的3DGS中。

基于區(qū)域特征的屬性傳播

為了將預(yù)測的物理屬性傳播到重建結(jié)果中,PUGS使用CLIP特征作為基礎(chǔ)進(jìn)行映射,并使用區(qū)域感知特征作為依據(jù)進(jìn)行屬性傳播。

首先研究團(tuán)隊(duì)從3DGS中隨機(jī)采樣一些高斯點(diǎn)作為source point,并計(jì)算這些source point投影到多視角圖像上得到的patch對應(yīng)的CLIP特征。

這些特征與上一階段得到的候選材質(zhì)進(jìn)行相似性的計(jì)算,以分配不同的材質(zhì)到對應(yīng)的source point上。計(jì)算方式如下:


其中,是source point 的物理屬性值,是source point 的CLIP特征與候選材質(zhì)的CLIP特征之間的余弦相似性,是一個(gè)溫度參數(shù)。

△基于形狀感知特征的物理屬性傳播

為了完成密集的物理屬性預(yù)測,研究團(tuán)隊(duì)使用區(qū)域特征作為依據(jù)進(jìn)行屬性傳播。計(jì)算方式如下:

其中,和分別是高斯和的區(qū)域感知特征。

基于區(qū)域感知特征的屬性傳播方式使得物理屬性預(yù)測結(jié)果更加均勻和精確。

高斯體積積分

通過上面三個(gè)階段,PUGS已經(jīng)可以完成物體的重建以及密集的物理屬性預(yù)測,即在物體表面的每個(gè)點(diǎn)都能夠得到相應(yīng)的物理屬性。

而對于物體級別的物理屬性(如質(zhì)量),PUGS提出了基于高斯體積積分的模塊來進(jìn)行計(jì)算。

以物體質(zhì)量的預(yù)測為例,通過上述階段,PUGS可以得到每個(gè)3D高斯點(diǎn)對應(yīng)的物理屬性,即密度值。

之后每個(gè)3D高斯被視為一個(gè)3D橢球體,通過其不透明度進(jìn)行加權(quán),同時(shí)結(jié)合預(yù)測的密度值進(jìn)行累積計(jì)算,得到物體的初步體積預(yù)測。

這個(gè)初步體積預(yù)測結(jié)果是存在誤差的,因?yàn)?DGS重建結(jié)果通常只會(huì)對物體的表面進(jìn)行建模,而物體內(nèi)部表現(xiàn)出空洞。

為了進(jìn)一步提高精度,PUGS引入了“pure volume”概念,這代表一個(gè)物體忽略空洞區(qū)域后的體積,一般會(huì)遠(yuǎn)小于通常意義下物體的體積。

PUGS通過提示VLM來獲取物體的pure volume,并以此修正最終的預(yù)測結(jié)果。

預(yù)測準(zhǔn)確性大幅提升

定性結(jié)果顯示,NeRF2Physics的材質(zhì)預(yù)測表現(xiàn)出碎片化等不合理的情況,PUGS的預(yù)測結(jié)果則更加準(zhǔn)確和合理。

在物體的抓取實(shí)驗(yàn)中,PUGS準(zhǔn)確預(yù)測了一個(gè)棉布包裹的楊氏模量(0.5+GPa),使機(jī)械臂的夾持器能夠以合適的開口大小成功抓取物體。

相比之下,NeRF2Physics錯(cuò)誤地預(yù)測了該物體的楊氏模量(30+GPa),導(dǎo)致夾持器開口接近物體寬度,最終抓取失敗。

研究團(tuán)隊(duì)還在ABO-500數(shù)據(jù)集上進(jìn)行了物體質(zhì)量估計(jì)的實(shí)驗(yàn),并與NeRF2Physics進(jìn)行了對比,結(jié)果PUGS在多個(gè)指標(biāo)上都表現(xiàn)更優(yōu)。

此外,研究團(tuán)隊(duì)還對上述PUGS的Pipeline中的不同模塊進(jìn)行消融實(shí)驗(yàn),包括幾何感知的正則化損失、區(qū)域感知的特征訓(xùn)練以及基于高斯體積積分模塊,結(jié)果表明這些模塊都有助于提升定量結(jié)果。

其中不僅在ABO-500數(shù)據(jù)集上整體有所提升,并且在一些具有特殊特征的物體上提升更加明顯。

下表的subset A指的是ABO-500中一些具有較為精細(xì)結(jié)構(gòu)的物體組成的子集,而subset B指的是那些具有多種區(qū)域和材質(zhì)的物體子集。

這表示幾何感知的正則化損失對具有精細(xì)結(jié)構(gòu)的物體提升較大,而區(qū)域感知模塊則對多種材質(zhì)和區(qū)域的區(qū)分更加有效。

總之,PUGS不僅能夠準(zhǔn)確重建物體的幾何形狀,還能保持物理屬性預(yù)測的材質(zhì)一致性,這對于實(shí)際的機(jī)器人應(yīng)用具有重要意義。

同時(shí)該重建結(jié)果也能夠作為一種攜帶相關(guān)物理屬性的重建資產(chǎn),用于其他相關(guān)的下游任務(wù)。

論文地址:
https://arxiv.org/pdf/2502.12231項(xiàng)目主頁:
https://evernorif.github.io/PUGS/
GitHub:
https://github.com/EverNorif/PUGS

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-04 10:20:00

自動(dòng)駕駛模型AI

2024-06-07 09:55:41

2022-10-18 15:09:26

智能機(jī)器人

2021-06-03 12:16:18

騰訊云機(jī)器人Robotics X

2025-03-13 13:37:14

2024-12-13 15:41:46

2020-09-14 14:32:06

AI機(jī)器人人工智能

2020-12-31 06:55:37

機(jī)器人自然語言人工智能

2023-05-23 09:56:14

機(jī)器人谷歌

2025-03-13 12:44:56

2024-11-01 07:30:00

2024-05-16 13:43:36

北大微型機(jī)器人

2024-04-18 12:16:37

MetaAIOpenEQA

2024-12-30 10:20:00

模型數(shù)據(jù)訓(xùn)練

2023-07-01 19:49:04

機(jī)器人

2023-06-02 11:35:16

SDTICT

2021-11-09 15:16:49

物聯(lián)網(wǎng)物理資產(chǎn)IoT

2025-04-02 09:50:00

機(jī)器人訓(xùn)練數(shù)據(jù)

2024-01-17 12:10:44

AI訓(xùn)練

2020-10-15 15:42:00

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號