自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

設(shè)計一個通用的框架!3D場景理解最新研究進展

人工智能 新聞
3D Transformer網(wǎng)絡(luò)在處理3D點云數(shù)據(jù)時面臨的高計算復(fù)雜度問題。

3D場景理解是指利用計算機視覺和機器學(xué)習(xí)技術(shù)來解釋和理解三維空間中的環(huán)境和對象,通常涉及到從3D數(shù)據(jù)中識別和分類對象、理解對象之間的關(guān)系以及場景的語義信息。傳統(tǒng)的3D場景理解包括但不限于:(1)語義分割:識別并分割出圖像中每個像素所屬的類別(但不同實例的同一類別對象(如多輛汽車)通常無法區(qū)分)(2)實例分割:不僅識別圖像中每個像素的對象類別,還區(qū)分同一類別中不同的實例(3)對象檢測(4)視覺定位。3D場景理解廣泛應(yīng)用于自動駕駛、具身智能等領(lǐng)域,比如輔助車輛理解周圍的3D環(huán)境,進行導(dǎo)航和避障、幫助機器人在復(fù)雜環(huán)境中自主導(dǎo)航、與環(huán)境交互等。

目前對于3D場景理解的最新研究進展如下:(1)部分學(xué)者致力于提高3D場景理解模型的計算效率,比如改進自注意力機制的計算復(fù)雜度。(2)也有大部分學(xué)者關(guān)注開放詞匯的3D場景理解,即在沒有明確標(biāo)記數(shù)據(jù)的情況下,對3D場景進行理解和分類的方法。這與傳統(tǒng)的3D場景理解方法不同,傳統(tǒng)方法通常依賴于有限的、預(yù)先定義好的類別標(biāo)簽,而開放詞匯3D場景理解允許模型理解和分類更廣泛的對象、屬性和場景特征,而無需針對每個新類別進行重新訓(xùn)練。為了實現(xiàn)開放詞匯的3D場景理解,學(xué)者們致力于將視覺語言模型(如CLIP)的先驗知識引入3D場景理解,具體來說需要將3D點云特征與文本特征、圖像特征對齊。(3)另外,鑒于目前對于各個單一任務(wù)的3D場景理解研究已卓有成就,并且大多數(shù)3D場景理解框架僅適用于特定任務(wù),還有學(xué)者希望設(shè)計一個通用的任務(wù)框架來應(yīng)用在各種3D場景理解的任務(wù)上,包括語義分割、實例分割、全景分割、交互分割、開放詞匯分割等,具體方法比如通過知識蒸餾將通用框架在某一任務(wù)上的知識向其他任務(wù)轉(zhuǎn)移,從而實現(xiàn)了任務(wù)間的知識共享。

來看下近年來的一些研究。

Swin3D:用于 3D 室內(nèi)場景理解的預(yù)訓(xùn)練 Transformer 主干

3D Transformer網(wǎng)絡(luò)在處理3D點云數(shù)據(jù)時面臨的高計算復(fù)雜度問題。在傳統(tǒng)的3D Transformer網(wǎng)絡(luò)中,自注意力(self-attention)模塊的空間復(fù)雜度通常是二次方的,因為對于每個輸入點,都需要計算它與所有其他點之間的關(guān)系,這意味著隨著點云數(shù)據(jù)量的增加,計算和內(nèi)存需求會急劇上升。這不僅限制了模型的規(guī)模,也限制了其在大規(guī)模數(shù)據(jù)集上的應(yīng)用。為了解決這一問題,文章提出了一種改進的自注意力機制,能夠在稀疏體素(voxels)網(wǎng)格上以線性空間復(fù)雜度運行,顯著降低了內(nèi)存和計算成本,使得模型能夠處理更大規(guī)模的數(shù)據(jù)集。

  • 高效的自注意力算法:文章設(shè)計了一種新型的3D自注意力操作符,用于在局部窗口內(nèi)計算稀疏體素的自注意力。這種算法將自注意力的內(nèi)存成本從二次降低到線性,相對于窗口內(nèi)稀疏體素的數(shù)量,從而使得模型能夠高效地運行而不會犧牲自注意力的準(zhǔn)確性。
  • 首先,文章使用稀疏體素(voxels)來表示3D點云數(shù)據(jù)。體素化是一種將連續(xù)的3D空間離散化成網(wǎng)格單元(體素)的方法,其中只有非空的體素才會存儲點云數(shù)據(jù)。這種方法可以有效地減少內(nèi)存占用,因為只處理非空體素,而不是整個空間。
  • 此外,文章將3D空間劃分為局部窗口,并在這些窗口內(nèi)計算自注意力。這種方法限制了自注意力計算的范圍,從而減少了計算量和內(nèi)存需求。
  • 文章提出的新型自注意力操作符通過優(yōu)化計算過程,使得內(nèi)存需求與窗口內(nèi)非空體素的數(shù)量呈線性增長。這是通過避免存儲所有點對之間的注意力權(quán)重來實現(xiàn)的,而是直接在計算過程中累加這些權(quán)重。
  • 層次化結(jié)構(gòu):SWIN3D采用了類似Swin Transformer的層次化結(jié)構(gòu),由多個階段的SWIN3D塊組成,每個階段處理不同分辨率的體素特征,實現(xiàn)了多尺度特征編碼。
  • 上下文相對位置編碼(cRPE):為了捕捉點云信號的不規(guī)則性,文章提出了一種泛化的上下文相對位置編碼方案。這種編碼方案不僅考慮了點的位置信息,還考慮了顏色、法線等其他信號的不規(guī)則性,通過將這些信號的相對變化納入自注意力計算中,進一步提升了網(wǎng)絡(luò)的性能。

圖片

OpenScene:用開放詞匯理解3D場景

開放詞匯3D場景理解是指能夠在沒有明確標(biāo)記數(shù)據(jù)的情況下,對3D場景進行理解和分類的方法。這與傳統(tǒng)的3D場景理解方法不同,傳統(tǒng)方法通常依賴于有限的、預(yù)先定義好的類別標(biāo)簽,并且需要大量的標(biāo)記3D數(shù)據(jù)來訓(xùn)練模型,以便模型能夠在特定任務(wù)上表現(xiàn)出色。這種方法的難點在于:(1)數(shù)據(jù)標(biāo)記成本高(2)泛化能力有限(3)任務(wù)特定性強。開放詞匯3D場景理解旨在解決這些限制,它允許模型理解和分類更廣泛的對象、屬性和場景特征,而無需針對每個新類別進行重新訓(xùn)練。

文章提出的模型架構(gòu)OpenScene,是一種零樣本學(xué)習(xí)方法,它利用了大規(guī)模預(yù)訓(xùn)練的文本-圖像嵌入模型(如CLIP)來增強3D場景理解的能力。模型將3D點的特征與文本和圖像像素在CLIP特征空間中共同嵌入。這意味著3D點的特征不僅與視覺信息相關(guān)聯(lián),還與語言概念對齊,從而允許使用文本查詢來探索3D場景。模型具體通過以下步驟將3D點的特征與視覺特征和語言特征的對齊:

  • 圖像特征提取及2D-3D配對:首先,對于每個RGB圖像,使用一個預(yù)訓(xùn)練的2D視覺-語言分割模型(如OpenSeg或LSeg)來計算每個像素的嵌入特征。這些特征被用來表示圖像中的視覺信息。接著,對于3D點云中的每個3D表面點,通過相機的內(nèi)參和外參矩陣將其投影回對應(yīng)的2D圖像平面上。這個步驟確保了每個3D點都能找到它在2D圖像中的對應(yīng)像素。這樣,每個3D點都獲得了一個融合了多個視角下視覺信息的特征向量。
  • 3D網(wǎng)絡(luò)蒸餾:盡管可以直接使用融合的2D特征進行語言驅(qū)動的3D場景理解,但為了提高魯棒性并處理只有3D點云數(shù)據(jù)的情況,文章提出了一個3D網(wǎng)絡(luò)(如MinkowskiNet),它只使用3D點的位置信息作為輸入,并訓(xùn)練這個網(wǎng)絡(luò)來復(fù)現(xiàn)融合的2D特征。通過最小化3D網(wǎng)絡(luò)輸出和融合的2D特征之間的差異,3D網(wǎng)絡(luò)學(xué)習(xí)到了與2D特征對齊的特征表示。
  • 2D-3D特征集成:為了結(jié)合2D圖像特征和3D幾何特征的優(yōu)勢,文章提出了一個集成方法。通過計算每個3D點的2D融合特征和3D蒸餾特征與一組文本提示的相似度,選擇與文本提示最相似的特征作為最終的集成特征。

由于CLIP模型是在大規(guī)模的圖像和文本數(shù)據(jù)上預(yù)訓(xùn)練的,它能夠捕捉到比傳統(tǒng)對象類別標(biāo)簽更豐富的概念,包括物理屬性、材料、功能等。OpenScene利用這一點,允許用戶輸入任意文本查詢,并在3D場景中找到與這些查詢匹配的部分。

圖片

CLIP2Scene:通過CLIP實現(xiàn)標(biāo)簽高效的3D場景理解

類似于上文,CLIP2Scene也是應(yīng)用 CLIP 來幫助學(xué)習(xí) 3D 場景理解,將CLIP知識從2D圖像-文本預(yù)訓(xùn)練模型轉(zhuǎn)移到3D點云網(wǎng)絡(luò)。CLIP2Scene的框架通過語義和時空一致性正則化來預(yù)訓(xùn)練3D點云網(wǎng)絡(luò),使得3D點云特征能夠與CLIP的視覺和文本特征對齊。下面是具體的對齊方法:

  • 語義一致性正則化(Semantic Consistency Regularization):利用CLIP的文本語義來選擇正樣本和負(fù)樣本。具體來說,通過將類別名稱放入預(yù)先定義的模板中,使用CLIP的文本編碼器生成文本嵌入(text embeddings),這些嵌入包含了對應(yīng)類別的語義信息。然后,將這些文本嵌入與3D點云特征進行對比學(xué)習(xí)。通過對比損失函數(shù),拉近具有相同語義的點云特征和文本嵌入之間的距離,同時推遠(yuǎn)不同語義的點云特征和文本嵌入,從而使得3D網(wǎng)絡(luò)學(xué)習(xí)到的特征能夠與CLIP的文本語義對齊。
  • 時空一致性正則化(Spatial-Temporal Consistency Regularization):此外,還將點云數(shù)據(jù)與對應(yīng)的圖像數(shù)據(jù)進行校準(zhǔn),建立圖像像素特征與點云特征之間的對應(yīng)關(guān)系。為了使多掃描點云具有時間一致性,即在連續(xù)時間幀內(nèi)捕獲的點云數(shù)據(jù)具有空間和時間上的連貫性,在正則化過程中,強制使得同一空間位置和時間戳內(nèi)的點云特征與圖像像素特征保持一致。這通過計算點云特征和對應(yīng)圖像像素特征之間的相似度,并使用損失函數(shù)來最小化它們之間的差異來實現(xiàn)。

通過上述兩個正則化策略,CLIP2Scene框架能夠?qū)?D點云特征與CLIP的豐富視覺和文本信息有效地結(jié)合起來,從而提高3D場景理解的性能。這種跨模態(tài)的對比學(xué)習(xí)方法不僅使得3D網(wǎng)絡(luò)能夠進行零樣本(annotation-free)的語義分割,而且在有少量標(biāo)注數(shù)據(jù)進行微調(diào)(fine-tuning)時也能顯著提高性能。

圖片

PLA:語言驅(qū)動的開放詞匯3D場景理解

提出了一種名為PLA(Point-Language Association)的方法,也是希望利用視覺語言模型輔助3D特征與文本特征對齊,實現(xiàn)開放詞匯3D場景理解。具體如下:

  • 首先,從3D場景中獲取多個視角的圖像。這些圖像通常由圍繞3D場景的不同位置的相機拍攝得到,能夠提供場景的全面視圖。利用3D場景和這些多視圖圖像之間的幾何關(guān)系,例如相機的內(nèi)參和外參,以及3D點與2D圖像之間的投影關(guān)系。這些幾何約束確保了從不同視角觀察到的同一物體在3D空間中的位置是一致的。
  • 構(gòu)建分層的3D-字幕對:然后文章使用一個預(yù)訓(xùn)練的視覺語言基礎(chǔ)模型(具體為GPT-ViT2)來為3D場景的多視圖圖像添加字幕,提供與3D場景相關(guān)的語義豐富的描述。文章設(shè)計了分層的3D字幕對,包括場景級(將整個3D場景與一個匯總的字幕相關(guān)聯(lián))、視圖級(將每個視角下的3D點云與對應(yīng)圖像的字幕相關(guān)聯(lián))和實體級(通過分析相鄰視圖級點集的差異和交集,構(gòu)建與特定實體(如單個物體實例)相關(guān)的字幕)。這些層次化的字幕對利用3D場景和多視圖圖像之間的幾何約束,從而在不同的空間尺度上建立3D點云與文本之間的關(guān)聯(lián)。
  • 3D點云特征與文本特征對齊:最后,通過對比學(xué)習(xí)的方法,使得3D點云的特征與相應(yīng)文本描述的特征在特征空間中相互靠近,從而學(xué)習(xí)到能夠反映文本描述內(nèi)容的3D特征表示。

這種方法的優(yōu)勢在于,它不僅能夠利用豐富的文本信息來增強3D數(shù)據(jù)的理解,還能夠處理不同尺度和粒度的3D場景內(nèi)容,從而提高模型在開放詞匯3D場景理解任務(wù)中的性能和泛化能力。

圖片圖片

UniSeg3D:三維場景理解的統(tǒng)一框架

以往的大多數(shù) 3D 場景分割方法都專門用于特定任務(wù),因此將他們對 3D 場景的理解限制在特定于任務(wù)的視角上。這篇文章提出了 UniSeg3D,它使用一個統(tǒng)一的Transformer作為核心處理單元,這個Transformer接收統(tǒng)一的輸入表示,并為所有任務(wù)生成特征。這種設(shè)計允許模型在不同任務(wù)之間共享知識,提高了模型的泛化能力和效率。

  • 首先,為了處理不同的任務(wù),UniSeg3D引入了多種類型的輸入查詢(queries):
  • 通用分割任務(wù)(如語義分割、實例分割、全景分割)使用點云作為輸入,通過3D U-Net提取特征。
  • 交互分割任務(wù)通過視覺提示(如點擊或畫框)來指定感興趣的區(qū)域。
  • 引用分割任務(wù)使用文本描述來指定分割目標(biāo)。
  • 開放詞匯分割任務(wù)處理未在訓(xùn)練集中出現(xiàn)的類別。
  • 然后,UniSeg3D利用知識蒸餾從交互分割任務(wù)(由于其視覺提示的可靠性,通常具有較高的分割性能)向其他任務(wù)轉(zhuǎn)移知識。具體來說,使用匈牙利算法(Hungarian algorithm)將交互分割任務(wù)的預(yù)測結(jié)果與真實標(biāo)簽進行匹配,從而得到正樣本。然后,在交互分割任務(wù)的預(yù)測掩碼中,選擇具有最高置信度(例如,前k%)的區(qū)域作為學(xué)習(xí)區(qū)域。在這些學(xué)習(xí)區(qū)域內(nèi),計算交互分割任務(wù)的預(yù)測掩碼與“學(xué)生”任務(wù)的預(yù)測掩碼之間的損失。這個損失通過比較匹配區(qū)域內(nèi)的預(yù)測掩碼來衡量,使用二元交叉熵?fù)p失(Binary Cross-Entropy, BCE)來實現(xiàn)。通過最小化這個損失,將交互分割任務(wù)的知識轉(zhuǎn)移到其他任務(wù)中,從而提高這些任務(wù)的性能。
  • 此外,為了將文本描述與3D場景中的相應(yīng)對象或區(qū)域關(guān)聯(lián)起來,設(shè)計了一種基于排名的對比學(xué)習(xí)方法。具體來說,首先使用Transformer架構(gòu)來獲取點云特征、使用預(yù)訓(xùn)練的CLIP模型來獲取文本特征。然后通過一個對比學(xué)習(xí)框架匹配點云特征和文本特征。為了進一步優(yōu)化對比學(xué)習(xí)的效果,UniSeg3D引入了排名規(guī)則。這個規(guī)則確保在對比學(xué)習(xí)過程中,與特定文本描述最相關(guān)的點云特征在相似度排序中位于最前面。通過這種方式,模型能夠更好地理解和處理引用分割任務(wù)中的文本描述。

圖片

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-06-19 10:32:49

持續(xù)學(xué)習(xí)

2010-09-30 10:31:43

J2ME3D

2024-05-06 11:37:20

自動駕駛3D

2024-05-16 09:24:17

3D技術(shù)

2022-09-14 09:23:51

Java3D引擎

2025-03-27 09:26:30

2025-01-07 09:11:07

2021-03-08 15:40:46

開源技術(shù) 軟件

2024-11-12 09:34:48

2024-07-31 15:30:05

2023-12-14 12:51:28

LLM3D場景

2022-04-27 20:28:59

智能駕駛大數(shù)據(jù)

2013-10-11 13:55:06

100G超100G光傳輸

2023-03-28 16:37:38

論文視頻

2024-09-13 09:40:00

邊緣計算智能大模型

2021-09-10 16:50:35

對比學(xué)習(xí)深度學(xué)習(xí)人工智能

2015-04-27 15:35:42

Cocos3D場景編輯器

2011-06-27 15:57:21

Qt 3D OpenGL

2025-01-07 13:19:48

模型AI訓(xùn)練

2012-09-12 13:23:11

麗臺VMware Vi
點贊
收藏

51CTO技術(shù)棧公眾號