自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="z3vhp"></em>

<ruby id="z3vhp"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

CVPR 2025 | 2D 大模型賦能3D Affordance 預(yù)測，GEAL助力可泛化的3D場景可交互區(qū)域識(shí)別

作者：機(jī)器之心 2025-04-11 09:44:23

人工智能新聞

所謂?3D Affordance Learning，就是希望模型能夠根據(jù)視覺和語言線索，自動(dòng)推理出物體可供哪些操作、以及可交互區(qū)域的空間位置，從而為機(jī)器人或人工智能系統(tǒng)提供對(duì)物體潛在操作方式的理解。

GEAL 由新加坡國立大學(xué)的研究團(tuán)隊(duì)開展，第一作者為博士生魯東岳，通訊作者為該校副教授 Gim Hee Lee，團(tuán)隊(duì)其他成員還包括孔令東與黃田鑫博士。

主頁：https://dylanorange.github.io/projects/geal/
論文：https://arxiv.org/abs/2412.09511
代碼：https://github.com/DylanOrange/geal

在現(xiàn)實(shí)世界中，如何讓智能體理解并挖掘 3D 場景中可交互的部位（Affordance）對(duì)于機(jī)器人操作與人機(jī)交互至關(guān)重要。所謂 3D Affordance Learning，就是希望模型能夠根據(jù)視覺和語言線索，自動(dòng)推理出物體可供哪些操作、以及可交互區(qū)域的空間位置，從而為機(jī)器人或人工智能系統(tǒng)提供對(duì)物體潛在操作方式的理解。

與 2D 任務(wù)相比，3D 數(shù)據(jù)的獲取與高精度標(biāo)注通常更為困難且成本高昂，這使得大規(guī)模高質(zhì)量的 3D 標(biāo)注數(shù)據(jù)十分稀缺，也阻礙了模型在新物體或場景中的泛化。與此同時(shí)，現(xiàn)有 3D 多依賴幾何與位置編碼來表征空間結(jié)構(gòu)，難以從外觀語義中充分汲取上下文信息，因而在傳感器不準(zhǔn)、場景復(fù)雜或處理誤差等情形下更易受到噪聲影響，導(dǎo)致其魯棒性不足，難以穩(wěn)定應(yīng)對(duì)真實(shí)環(huán)境中的多變挑戰(zhàn)。

為克服標(biāo)注與數(shù)據(jù)分布限制，一些工作嘗試將 2D 視覺模型或大語言模型融入 3D 場景理解。但由于 3D 與 2D 的特征存在顯著模態(tài)差異，以及受限于對(duì)空間幾何關(guān)系與紋理細(xì)節(jié)的保留，直接對(duì)接往往導(dǎo)致可交互區(qū)域定位不準(zhǔn)確或易受點(diǎn)云噪聲的干擾，難以在真實(shí)復(fù)雜場景中保持魯棒性和通用性。因此，如何充分利用大規(guī)模預(yù)訓(xùn)練的 2D 模型所蘊(yùn)含的強(qiáng)大表征能力，同時(shí)兼顧 3D 模態(tài)下細(xì)節(jié)和結(jié)構(gòu)信息的準(zhǔn)確對(duì)齊，成為提升 3D Affordance Learning 效果的關(guān)鍵挑戰(zhàn)。

針對(duì)上述問題，新加坡國立大學(xué)的研究團(tuán)隊(duì)提出了 GEAL（Generalizable 3D Affordance Learning），無需額外收集與標(biāo)注大規(guī)模 3D 數(shù)據(jù)，便可借助 2D 基礎(chǔ)模型實(shí)現(xiàn)對(duì) 3D 場景中可交互區(qū)域的精確預(yù)測。具體而言，GEAL 首先利用 3D Gaussian Splatting 將稀疏點(diǎn)云轉(zhuǎn)換為可在 2D 模型中處理的真實(shí)感渲染圖，并通過跨模態(tài)一致性對(duì)齊（Cross-Modal Consistency Alignment）有效融合 2D 視覺與 3D 空間特征，顯著提升模型對(duì)多種物體與場景的泛化能力。此外，團(tuán)隊(duì)還構(gòu)建了針對(duì)真實(shí)場景擾動(dòng)的全新基準(zhǔn)數(shù)據(jù)集，全面評(píng)估模型的穩(wěn)健性。實(shí)驗(yàn)結(jié)果表明，GEAL 無論在公共數(shù)據(jù)集還是各種噪聲環(huán)境下，都顯著優(yōu)于現(xiàn)有方法，為通用且魯棒的 3D Affordance Learning 提供了新思路。

目前，GEAL 已被 CVPR 2025 接收，論文、代碼和模型權(quán)重均已公開。

2D-3D 跨模態(tài)對(duì)齊

完成 3D 可交互區(qū)域預(yù)測

如圖所示，在 GEAL 的整體框架中，我們通過 2D 分支與 3D 分支的協(xié)同合作，將預(yù)訓(xùn)練 2D 模型的強(qiáng)語義表達(dá)能力注入到稀疏點(diǎn)云的三維世界中，并通過跨模態(tài)特征對(duì)齊來獲得更強(qiáng)的魯棒性與泛化能力。下面對(duì)各個(gè)關(guān)鍵步驟加以說明

利用 3D Gaussian Splatting 渲染稀疏點(diǎn)云，高效引入 2D 分支

考慮到三維數(shù)據(jù)通常存在采樣稀疏、標(biāo)注昂貴、遮擋嚴(yán)重等問題，我們在網(wǎng)絡(luò)結(jié)構(gòu)中單獨(dú)設(shè)置了一個(gè) 2D 分支，借助在海量 2D 數(shù)據(jù)上預(yù)訓(xùn)練的視覺 backbone（如 DINOV2），獲取包含豐富語義上下文與外觀信息的多粒度圖像特征，從而為后續(xù)的三維功能區(qū)域預(yù)測提供更具魯棒性與泛化力的先驗(yàn)。由于該分支與 3D 分支并行存在，我們可在后期設(shè)計(jì)中靈活地融合并對(duì)齊 2D/3D 特征，避免簡單拼接帶來的模態(tài)失配。為了讓預(yù)訓(xùn)練的 2D 模型充分 “看見” 三維場景的紋理與遮擋信息，GEAL 采用了 3D Gaussian Splatting 技術(shù)來渲染點(diǎn)云。具體而言，我們用可學(xué)習(xí)的高斯基元對(duì)每個(gè)三維點(diǎn)進(jìn)行表示，并通過光柵化與 α- 混合在 2D 圖像中生成具有深度、透明度與顏色信息的像素，從而獲得更為平滑、逼真的二維視圖。這些視圖不僅能夠?yàn)?2D 模型提供足以辨別紋理和輪廓的語義特征，還能在后續(xù)跨模態(tài)步驟中與點(diǎn)云的幾何結(jié)構(gòu)建立一一對(duì)應(yīng)關(guān)系，為特征對(duì)齊打下基礎(chǔ)。

跨模態(tài)特征對(duì)齊

在兩條分支分別獲得多尺度 2D/3D 特征后，GEAL 通過顆粒度自適應(yīng)融合模塊（Granularity-Adaptive Fusion Module, GAFM）與一致性對(duì)齊模塊（Consistency Alignment Module，CAM）實(shí)現(xiàn)語義與幾何間的雙向?qū)R。

顆粒度自適應(yīng)融合模塊

針對(duì) 2D 與 3D 在不同層級(jí)上所捕獲的細(xì)節(jié)與全局信息，通過自適應(yīng)權(quán)重聚合和文本引導(dǎo)的視覺對(duì)齊，將最相關(guān)的多粒度特征與用戶指令相互融合。這樣既能突出與功能需求緊密關(guān)聯(lián)的目標(biāo)局部，又確保對(duì)全局場景保持整體把握。

一致性對(duì)齊模塊

基于 Gaussian Splatting 所構(gòu)建的像素 - 點(diǎn)云映射，將 3D 分支提取的點(diǎn)云特征再度渲染至二維平面，與 2D 分支形成逐像素對(duì)應(yīng)，然后通過一致性損失（如 L2 距離）使兩者在同一空間區(qū)域的表征盡可能相似。這種策略能讓 2D 分支的通用語義向 3D 分支擴(kuò)散，同時(shí)也讓 3D 分支在幾何維度上對(duì) 2D 特征形成有益補(bǔ)充，最終實(shí)現(xiàn)更準(zhǔn)確的可交互區(qū)域定位。

Corrupt Data Benchmark 評(píng)估魯棒性

為了更全面地測試 GEAL 在真實(shí)干擾環(huán)境中的表現(xiàn)，我們基于常見的 PIAD 與 LASO 數(shù)據(jù)集，構(gòu)建了包含多種擾動(dòng)形式的 Corrupt Data Benchmark。它涵蓋局部或全局的隨機(jī)丟失、噪聲注入、尺度變化、抖動(dòng)及旋轉(zhuǎn)等多種干擾場景，模擬復(fù)雜感知條件下的真實(shí)挑戰(zhàn)。實(shí)驗(yàn)結(jié)果表明，GEAL 在該基準(zhǔn)上依然能夠保持高精度與魯棒性，印證了跨模態(tài)對(duì)齊對(duì)于三維功能區(qū)域預(yù)測在噪聲環(huán)境中的關(guān)鍵價(jià)值。

通過以上幾個(gè)核心環(huán)節(jié)，GEAL 成功將 2D 模型的強(qiáng)大語義理解與 3D 數(shù)據(jù)的空間幾何細(xì)節(jié)有機(jī)結(jié)合，不僅免去了大規(guī)模 3D 標(biāo)注數(shù)據(jù)的依賴，還顯著提升了可交互區(qū)域預(yù)測的可靠性與泛化水平，為 3D Affordance Learning 邁向真實(shí)應(yīng)用場景提供了新的技術(shù)思路。

實(shí)驗(yàn)結(jié)果

為評(píng)估 GEAL 在 3D 場景可交互區(qū)域預(yù)測上的整體表現(xiàn)，作者在主流數(shù)據(jù)集 PIAD 與 LASO 上進(jìn)行了系統(tǒng)實(shí)驗(yàn)。結(jié)果顯示，GEAL 相較現(xiàn)有最優(yōu)方法均取得了更高分?jǐn)?shù)，尤其在 unseen 類別測試中依然保持高準(zhǔn)確率，證明其對(duì)未見過的物體形狀與類別具備良好適應(yīng)能力。這一優(yōu)勢主要得益于 2D 語義先驗(yàn)的充分利用，以及跨模態(tài)一致性帶來的 2D-3D 特征對(duì)齊，使得模型能在幾何細(xì)節(jié)與語義信息之間保持平衡。

為了模擬實(shí)際感知場景中的各種干擾，如傳感器噪聲、局部丟失或隨機(jī)旋轉(zhuǎn)等，作者還在新提出的 Corrupt Data Benchmark 上對(duì) GEAL 進(jìn)行了測試。結(jié)果表明，即便在高度不確定的環(huán)境下，GEAL 依然能夠穩(wěn)定預(yù)測可交互區(qū)域，展現(xiàn)出優(yōu)異的魯棒性。這主要?dú)w功于 2D 分支在大規(guī)模預(yù)訓(xùn)練模型中的抗干擾特性，以及與 3D 分支通過一致性約束實(shí)現(xiàn)的高效信息傳遞。

相比僅使用 2D 分支或 3D 分支的基礎(chǔ)版本，融合雙分支并加入 CAM 后，在未見類別和高噪聲條件下的準(zhǔn)確率均顯著提升；進(jìn)一步引入 GAFM 后，則在見類與未見類任務(wù)中同時(shí)提高精度與 IoU，說明多粒度特征融合對(duì)于捕捉局部細(xì)節(jié)和全局語義至關(guān)重要。

綜上所述，多項(xiàng)實(shí)驗(yàn)結(jié)果與消融研究均驗(yàn)證了 GEAL 的有效性：該方法不僅在常規(guī)數(shù)據(jù)集上表現(xiàn)出卓越的精度與泛化能力，還能在真實(shí)干擾環(huán)境中保持穩(wěn)健，展現(xiàn)出跨模態(tài)對(duì)齊與雙分支架構(gòu)在 3D 場景可交互區(qū)域預(yù)測中的強(qiáng)大潛力。

結(jié)論

綜上所述，GEAL 通過雙分支架構(gòu)與 3D Gaussian Splatting 的巧妙結(jié)合，在不依賴大規(guī)模 3D 標(biāo)注的情況下，充分挖掘了大規(guī)模 2D 預(yù)訓(xùn)練模型蘊(yùn)含的豐富語義信息，實(shí)現(xiàn)了對(duì) 3D 場景可交互區(qū)域的精確預(yù)測。該成果為在機(jī)器人操作、增強(qiáng)現(xiàn)實(shí)和智能家居等領(lǐng)域中靈活、高效地獲取三維可交互區(qū)域提供了新思路，對(duì)構(gòu)建通用、穩(wěn)健的 3D Affordance Learning 系統(tǒng)具有重要意義。

責(zé)任編輯：張燕妮來源：機(jī)器之心

3D 智能體 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<button id="ztny7"></button>