自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一次推理,實現(xiàn)六大3D點云分割任務!華科發(fā)布大一統(tǒng)算法UniSeg3D,性能新SOTA

人工智能 新聞
華中科技大學研發(fā)的UniSeg3D算法,能一次性完成三維場景中的六項分割任務,提升了場景理解的全面性和效率。通過任務間的信息共享,優(yōu)化了性能,為虛擬現(xiàn)實和機器人導航等領域帶來新的解決方案。

三維場景理解在虛擬現(xiàn)實和具身智能等技術中具有廣泛應用,吸引了研究者們的極大關注。

3D點云分割任務是三維場景理解中的重要組成部分,涵蓋了實例分割、語義分割和全景分割,以及交互式分割、參考分割和開放詞匯分割等子任務。

盡管針對相關任務的研究已經(jīng)取得引人注目的進展,但現(xiàn)有研究往往聚焦于單一任務領域,從而導致三維場景理解局限于單一任務視角,忽視了不同任務之間的內(nèi)在關聯(lián)性。

這種局限性為實現(xiàn)全面的三維場景理解帶來了顯著的挑戰(zhàn)。

為了解決上述問題,華中科技大學的研究人員提出了一種統(tǒng)一的三維場景理解算法UniSeg3D,通過一次推理完成六項3D點云分割任務,并通過構建任務間的顯式關聯(lián)來促進信息共享,從而增強性能表現(xiàn)。

圖片

論文地址:https://arxiv.org/abs/2407.03263

項目地址:https://dk-liang.github.io/UniSeg3D/

代碼地址:https://github.com/dk-liang/UniSeg3D

實驗結果表明,UniSeg3D在多個3D點云分割數(shù)據(jù)集上均取得了SOTA結果。

圖片

圖1:3D點云分割領域的單一任務方法與統(tǒng)一多任務方法

其主要包含如下的優(yōu)勢:

1. 多任務統(tǒng)一:當前的3D點云分割方法通常為單一任務設計,不同于現(xiàn)有的研究工作,UniSeg3D通過一次推理能夠支持六種3D點云分割任務;

2. 性能優(yōu)異:通過建立任務間的顯式關聯(lián),UniSeg3D在全景分割、語義分割、實例分割、交互式分割、參考分割和開放詞匯語義分割六個任務中均展現(xiàn)出SOTA性能;

3. 可擴展性:采用query統(tǒng)一表征多種點云分割任務的信息與特征,結構簡潔有效。且通過輸入新增任務的query表征,可將UniSeg3D拓展至更多任務,展現(xiàn)了框架的可擴展性和靈活性。

動機

三維場景理解已成為機器人技術、自主導航和混合現(xiàn)實等各類現(xiàn)實應用的基礎。近年來,構建高效、精確的三維場景理解算法成為熱門研究課題,但現(xiàn)有方法通常專注于單一子任務,并為特定任務場景進行定制化模型設計。

然而,由于單一任務算法只能實現(xiàn)單一任務預測,在應用于多任務場景時,需要運行多種單一任務方法以實現(xiàn)多任務預測,帶來了較高的算力需求。且單一任務方法缺乏其他子任務算法的場景理解知識,阻礙了全面的三維場景理解。為了解決這一問題,一些研究者探索構建統(tǒng)一三維場景理解算法,并取得了一定的成果。

但當前方法不具備對用戶提示信息的理解能力,不支持交互式分割、參考分割、開放詞匯分割任務,限制其人機交互潛力;且用戶提示信息包含三維場景先驗信息,可有效提高三維場景理解算法的可靠性,缺乏對用戶提示信息的理解能力將限制算法的有效性。

針對上述問題,文章提出了一種統(tǒng)一三維場景理解算法UniSeg3D,用于提高多任務應用場景中的場景理解效率。

方法

UniSeg3D主要由三個模塊組成:點云Backbone、Prompt編碼器和掩膜解碼器。其中,點云Backbone提取輸入三維場景的點云特征;

Prompt編碼器包含文本提示編碼器與視覺提示編碼器,文本提示編碼器提取文本特征,而視覺交互分割中的Prompt特征通過采樣點云特征獲取,將提取后的特征信息送入掩膜解碼器中獲取不同任務的分割結果。

模型整體結構如下圖所示:

圖片

圖2:UniSeg3D整體框架圖

算法采用Query統(tǒng)一表征三維場景信息、視覺提示信息和文本提示信息。

編碼自不同信息的Query攜帶差異性的場景知識,將其不加區(qū)分地送入掩膜解碼器會削弱掩膜解碼器對差異性場景信息的感知能力,因此UniSeg3D根據(jù)信息來源不同為Query疊加不同的Embedding,從而促進掩膜解碼器對三維場景信息、視覺提示信息和文本提示信息的信息提取性能。

掩膜生成過程對六個任務采用統(tǒng)一的掩膜解碼器以及輸出Head,未對特定任務進行定制化的模塊設計,整體流程簡潔有效。

在之前的研究工作中,忽略了各個任務間的關聯(lián),導致每個任務只關注其任務特定的知識,缺乏對其他任務信息的感知能力,限制了全面而深入的三維場景理解。

為克服以上缺陷,本研究采用對比學習和知識蒸餾建立了不同任務間的顯式聯(lián)系,促進深層次的三維場景理解。

圖片

圖3:任務間知識蒸餾方向以及顯式關聯(lián)關系

對比學習:對于參考分割任務,當多個形狀相同的物體相鄰排列時,容易出現(xiàn)歧義問題,如上圖(a)所示。因此引入基于ranking的對比學習方式,即利用交互式分割的特征與參考分割任務的特征進行對比學習從而建立顯式關聯(lián),如上圖(b)所示。

知識蒸餾:鑒于視覺交互式分割所展現(xiàn)出的優(yōu)異性能,如上圖(c)所示,利用交互式分割任務的預測mask和分類logits分別對全景分割任務的預測mask和參考分割任務輸出的類別logits進行監(jiān)督約束,從而實現(xiàn)性能優(yōu)化。

實驗結果

圖片

表1:多任務統(tǒng)一的挑戰(zhàn)性

研究人員首先討論在單一模型中統(tǒng)一多任務所面臨的挑戰(zhàn)。全景分割、語義分割、實例分割、開放詞匯分割、參考分割、交互式分割分別由Pan.、Sem.、Inst.、OV、Ref.、Inter.表示。

如表1所示,依次將交互式分割、參考分割和開放詞匯分割簡單地加入到框架中構建統(tǒng)一模型基線時,會觀察到算法在全景分割、實例分割任務上呈現(xiàn)性能下降。這表明平衡多任務性能具有顯著挑戰(zhàn)性。

盡管如此,研究人員認為在單一模型中實現(xiàn)多任務具有重要研究價值,因為這能夠減少計算資源消耗,有利于現(xiàn)實應用。

因此,UniSeg3D提出通過建立任務間顯示關聯(lián)來實現(xiàn)多任務聯(lián)合優(yōu)化,緩解多任務統(tǒng)一帶來的性能下降,后續(xù)實驗表明這是一個有價值的探索方向。

研究人員在ScanNet20、ScanRefer和ScanNet200數(shù)據(jù)集上進行評估測試,在全景分割、語義分割、實例分割、開放詞匯分割、交互式分割和參考分割任務中,UniSeg3D均取得SOTA表現(xiàn),這表明UniSeg3D在統(tǒng)一3D點云分割任務上的有效性:

圖片

表2:3D點云分割任務上性能對比

下圖展示了UniSeg3D在六種3D點云分割任務上的可視化結果。

圖片

總結

UniSeg3D作為首個在三維場景理解中集成六大分割任務的模型,為三維場景理解提供了一個靈活而高效的解決方案。以前的特定任務的方法難以提取跨任務信息,阻礙了全面的三維場景理解。

相比之下,UniSeg3D充分利用了支持多任務的結構特點,通過建立任務間的關聯(lián)來提高模型性能,從而在各種基準任務中取得優(yōu)異表現(xiàn)。UniSeg3D為高效、精確的三維場景理解提供新的解決方案和可能思路。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-27 17:58:26

2015-07-30 12:27:30

重郵華為

2024-01-24 09:24:19

自動駕駛算法

2017-12-15 17:14:10

云端

2024-10-15 13:07:38

2022-05-16 11:06:54

SOTA谷歌預訓練

2020-12-13 13:40:22

健康碼移動應用

2024-12-10 09:49:53

2019-12-23 10:22:05

AI 數(shù)據(jù)人工智能

2015-05-06 13:52:52

微軟外媒

2020-12-16 16:21:06

谷歌架構技術

2014-07-29 13:25:43

WWDC 2014 S

2023-09-05 10:36:51

3D視覺

2023-12-06 13:36:00

模型數(shù)據(jù)

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數(shù)據(jù)

2024-04-17 09:56:24

算法模型

2022-02-14 11:37:59

自動駕駛算法技術

2023-04-25 17:06:38

視覺任務

2023-07-17 08:03:03

Shell腳本SQL
點贊
收藏

51CTO技術棧公眾號