自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="m489d"></cite>

<s id="m489d"><li id="m489d"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

化解機(jī)器人的「幻覺」：北大發(fā)布OmniManip，VLM結(jié)合雙閉環(huán)系統(tǒng)，3D理解能力大幅提升

作者：機(jī)器之心 2025-01-22 13:40:00

人工智能新聞

北?攜?智元機(jī)器?團(tuán)隊(duì)提出了 OmniManip 架構(gòu)，基于以對象為中?的 3D 交互基元，將 VLM 的高層次推理能力轉(zhuǎn)化為機(jī)器?的低層次高精度動(dòng)作。

本文的作者均來自北京大學(xué)與智元機(jī)器人聯(lián)合實(shí)驗(yàn)室，通訊作者為北京大學(xué)計(jì)算機(jī)學(xué)院助理教授董豪。目前團(tuán)隊(duì)研究方向覆蓋智能機(jī)器人的泛化操縱、具身導(dǎo)航和感知自主決策。團(tuán)隊(duì)持續(xù)開放聯(lián)合實(shí)習(xí)生崗位，提供充足的機(jī)器人本體和計(jì)算資源。

近年來視覺語?基礎(chǔ)模型（Vision Language Models, VLMs）在多模態(tài)理解和?層次常識推理上?放異彩，如何將其應(yīng)?于機(jī)器?以實(shí)現(xiàn)通?操作是具身智能領(lǐng)域的?個(gè)核?問題。這??標(biāo)的實(shí)現(xiàn)受兩?關(guān)鍵挑戰(zhàn)制約：

1. VLM 缺少精確的 3D 理解能?：通過對?學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限；

2. ?法輸出低層次動(dòng)作：將 VLM 在機(jī)器?數(shù)據(jù)上進(jìn)?微調(diào)以得到視覺 - 語? - 動(dòng)作（VLA）模型是?種有前景的解決?案，但?前仍受到數(shù)據(jù)收集成本和泛化能?的限制。

針對上述難題，北?攜?智元機(jī)器?團(tuán)隊(duì)提出了 OmniManip 架構(gòu)，基于以對象為中?的 3D 交互基元，將 VLM 的高層次推理能力轉(zhuǎn)化為機(jī)器?的低層次高精度動(dòng)作。

針對?模型幻覺問題和真實(shí)環(huán)境操作的不確定性，OmniManip 創(chuàng)新性地引?了 VLM 規(guī)劃和機(jī)器?執(zhí)?的雙閉環(huán)系統(tǒng)設(shè)計(jì)，實(shí)現(xiàn)了操作性能的顯著突破。

實(shí)驗(yàn)結(jié)果表明，OmniManip 作為?種免訓(xùn)練的開放詞匯操作?法，在各種機(jī)器?操作任務(wù)中具備強(qiáng)?的零樣本泛化能?。

項(xiàng)?主?與論?已上線，代碼與測試平臺即將開源。

主?地址：https://omnimanip.github.io
論?地址：https://arxiv.org/abs/2501.03841

技術(shù)?案解析

?法概述

OmniManip 的關(guān)鍵設(shè)計(jì)包括：

基于 VLM 的任務(wù)解析：利? VLM 強(qiáng)?的常識推理能?，將任務(wù)分解為多個(gè)結(jié)構(gòu)化階段（Stages），每個(gè)階段明確指定了主動(dòng)物體（Active）、被動(dòng)物體（Passive）和動(dòng)作類型（Action）。
以物體為中?的交互基元作為空間約束：通過 3D 基座模型?成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間（canonical space），使 VLM 能夠直接在該空間中采樣 3D 交互基元，作為 Action 的空間約束，從?優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的?標(biāo)交互姿態(tài)。
閉環(huán) VLM 規(guī)劃：將?標(biāo)交互姿態(tài)下的 Active/Passive 物體渲染成圖像，由 VLM 評估與重采樣，實(shí)現(xiàn) VLM 對?身規(guī)劃結(jié)果的閉環(huán)調(diào)整。
閉環(huán)機(jī)器?執(zhí)?：通過物體 6D 姿態(tài)跟蹤器實(shí)時(shí)更新 Active/Passive 物體的位姿，轉(zhuǎn)換為機(jī)械臂末端執(zhí)?器的操作軌跡，實(shí)現(xiàn)閉環(huán)執(zhí)?。

以物體為中?的交互基元

物體的交互基元通過其在標(biāo)準(zhǔn)空間中的交互點(diǎn)和?向來表征。交互點(diǎn) p∈R3 表示物體上關(guān)鍵的交互位置，?交互?向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構(gòu)成交互基元 O={p,v}，封裝了滿?任務(wù)約束所需的基本?何和功能屬性。這些標(biāo)準(zhǔn)交互基元相對于其標(biāo)準(zhǔn)空間定義，能夠在不同場景中保持?致，實(shí)現(xiàn)更通?和可重?的操作策略。

對于通?物體的交互點(diǎn)提取，OmniManip 利?視覺語?模型（VLM）在原圖（當(dāng)部件可?且實(shí)體存在時(shí)）或在正交視圖中渲染的 3D ?格（當(dāng)部件不可?或?qū)嶓w不存在時(shí)）上進(jìn)?定位。

與 CoPa 和 ReKep 等?法不同，OmniManip 直接讓 VLM 進(jìn)? grounding，不會受限于不穩(wěn)定的 part 分割或聚類結(jié)果。

在交互?向的采樣??，由于物體的規(guī)范化空間通過 Omni6DPose 錨定，軸的?向與語義對?，該團(tuán)隊(duì)讓 VLM 直接對物體標(biāo)準(zhǔn)空間的軸進(jìn)?語義描述，并根據(jù)操作任務(wù)進(jìn)?匹配度排序，以獲得交互?向的候選。

雙閉環(huán)系統(tǒng)設(shè)計(jì)

李??團(tuán)隊(duì)的?作 ReKep 通過關(guān)鍵點(diǎn)跟蹤巧妙地實(shí)現(xiàn)了機(jī)械臂的閉環(huán)執(zhí)?，但其 VLM 規(guī)劃過程是開環(huán)的。OmniManip 則更進(jìn)?步，得益于以物體為中?的設(shè)計(jì)理念，?次在 VLM 規(guī)劃和機(jī)械臂執(zhí)?層?實(shí)現(xiàn)了雙閉環(huán)系統(tǒng)：

閉環(huán)規(guī)劃：在實(shí)驗(yàn)中，VLM 推理很容易出現(xiàn)幻覺，導(dǎo)致錯(cuò)誤的規(guī)劃結(jié)果（尤其是在涉及 3D 旋轉(zhuǎn)的任務(wù)中，如倒?、插筆）。OmniManip 賦予 VLM 閉環(huán)規(guī)劃能?，通過渲染物體的三維模型，幫助 VLM 「腦補(bǔ)」出規(guī)劃結(jié)果后的物體樣貌，再判斷其合理性。

這?功能賦予了 VLM 空間反思能?，使其能夠在測試時(shí)進(jìn)?推理，類似于 OpenAI 的 O1，??提?了操作成功率。為了保持框架的簡潔性，研究團(tuán)隊(duì)沒有設(shè)計(jì)復(fù)雜的測試時(shí)推理流程，僅作?輪校驗(yàn)就已明顯提?了 VLM 的規(guī)劃準(zhǔn)確率。

閉環(huán)執(zhí)?：OmniManip 提取的交互基元位于物體的規(guī)范空間中，只需引??個(gè) 6D 位姿跟蹤器即可輕松實(shí)現(xiàn)閉環(huán)操作。與 ReKep 使?的關(guān)鍵點(diǎn)跟蹤器相?，基于物體的 6D 位姿跟蹤?式更為穩(wěn)定，并對遮擋具有更強(qiáng)的魯棒性。（缺點(diǎn)則是不如關(guān)鍵點(diǎn)靈活、?法建模柔性物體操作。）

實(shí)驗(yàn)結(jié)果

強(qiáng)?的開放詞匯操作性能

在 12 個(gè)真機(jī)短程任務(wù)上，OmniManip 均展現(xiàn)出卓越的性能。

雙閉環(huán)系統(tǒng)設(shè)計(jì)為 OmniManip 帶來了約 17% 的性能提升，這證明了 RRC 在有效減少?模型幻覺影響??的作?。

交互基元的魯棒性

VLM 需要基于交互基元對機(jī)器?操作進(jìn)?規(guī)劃，如果交互基元本身存在問題，VLM 就會陷?「巧婦難為??之炊」的困境。因此，可靠的交互基元?關(guān)重要。以往的?法通常是讓 VLM 直接在相機(jī)拍攝的 2D 圖像上采樣交互基元，然后通過相機(jī)的內(nèi)外參數(shù)轉(zhuǎn)換到 3D 空間。

然?，由于 2D 圖像存在空間歧義，采樣效果對相機(jī)視?、圖像紋理和部件形狀等因素極為敏感（例如，當(dāng)相機(jī)平視杯?時(shí)，之前的?法只能對準(zhǔn)杯?的側(cè)壁、?不是開?）。? OmniManip 則是在物體的 3D 規(guī)范空間中進(jìn)?采樣，能夠輕松克服 2D 圖像的局限性，實(shí)現(xiàn)可靠的 3D 交互基元提取。

強(qiáng)?的拓展性與潛?

OmniManip 能夠與 high-level 任務(wù)規(guī)劃器結(jié)合，實(shí)現(xiàn)?程任務(wù)操作

作為?種以物體為中?的算法，OmniManip 與機(jī)械臂本體解耦，能夠零成本遷移?不同形態(tài)的本體（例如雙臂?形機(jī)器?）。

OmniManip 具有強(qiáng)?的通?泛化能?，不受特定場景和物體限制。團(tuán)隊(duì)已將其應(yīng)?于數(shù)字資產(chǎn)?動(dòng)標(biāo)注 / 合成管道，實(shí)現(xiàn)?規(guī)模的機(jī)器?軌跡?動(dòng)采集。該研究團(tuán)隊(duì)即將開源?質(zhì)量的泛化操作?規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準(zhǔn)，敬請期待！

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器人 3D 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="1zmlq"><button id="1zmlq"><center id="1zmlq"></center></button></var>

<strong id="1zmlq"><ruby id="1zmlq"><span id="1zmlq"></span></ruby></strong>

<sub id="1zmlq"></sub>

<sub id="1zmlq"></sub>

<blockquote id="1zmlq"></blockquote>