3D任意部位分割:FIND 3D模型實現(xiàn)零樣本開放世界文本查詢分割 原創(chuàng) 精華
在3D世界中,尋找任何物體的一部分聽起來像是科幻小說中的情節(jié),但加州理工學院的Ziqi Ma、Yisong Yue和Georgia Gkioxari卻將其變成了現(xiàn)實。他們開發(fā)的FIND 3D模型,不僅能夠根據(jù)任何文本查詢分割任何物體的任何部分,還能在開放世界中零距離應用。想象一下,你只需說“汽車的輪子”,F(xiàn)IND 3D就能精確地找到并分割出這個部分,無論是從網(wǎng)絡上的3D資產,還是從iPhone拍攝的照片中重建的3D模型。
FIND 3D的背后是一個由2D基礎模型(如SAM和Gemini)驅動的數(shù)據(jù)引擎,它能夠自動從網(wǎng)絡上的3D資產中進行標注。通過這些標注數(shù)據(jù),F(xiàn)IND 3D訓練了一個基于transformer的點云模型,并采用對比訓練方法,使其在多個數(shù)據(jù)集上表現(xiàn)出色,mIoU(平均交并比)比現(xiàn)有最佳方法提高了3倍。
這個模型的應用前景廣闊,從機器人到VR/AR,都需要精確的3D物體及其部分的定位。FIND 3D不僅能夠處理一般的物體類別和部分查詢,還能在推理速度上比現(xiàn)有方法快6到300倍。為了推動開放世界3D部分分割的研究,他們還發(fā)布了一個包含多樣物體和部分的基準。
FIND 3D的誕生,不僅是技術上的突破,更是對未來3D理解和交互方式的一次大膽想象。正如他們所說,我們離一個理解3D世界的基石模型還有多遠?FIND 3D給出了一個令人振奮的答案。在3D世界中尋找任何部分聽起來像是科幻小說中的情節(jié),但FIND 3D模型讓它變成了現(xiàn)實。這個模型不僅能夠根據(jù)任何文本查詢來分割任何對象的任何部分,還能在零樣本的情況下應用于任何對象。想象一下,你只需要說“給我找到那輛車的輪子”,模型就能精確地標記出輪子的位置,是不是很神奇?
FIND 3D的核心在于它的數(shù)據(jù)引擎和對比訓練方法。數(shù)據(jù)引擎利用2D基礎模型自動標注來自網(wǎng)絡的3D資產,而對比訓練方法則幫助模型處理部分層次和模糊性。這種結合使得模型在多個數(shù)據(jù)集上表現(xiàn)出色,甚至在mIoU(平均交并比)上比現(xiàn)有最佳方法提高了3倍。
但FIND 3D的魔力不止于此。它還能處理各種查詢類型,無論是“手”還是“手套”,都能準確找到對應的部分。而且,它還能在各種旋轉和數(shù)據(jù)域變化下保持魯棒性,甚至在從iPhone照片或AI生成的圖像中重建的3D點云上也能表現(xiàn)出色。
當然,F(xiàn)IND 3D也有它的局限性,比如在處理非常細小的部分時可能會有些吃力。但總體來說,它無疑是3D部分分割領域的一大進步,為機器人和VR/AR應用提供了強大的支持。
圖:FIND 3D模型的整體示意圖
數(shù)據(jù)引擎
數(shù)據(jù)引擎利用SAM和Gemini模型自動標注Objaverse中的3D資產。首先,對每個對象進行10次渲染,并使用Gemini選擇最佳方向。然后,將所有渲染結果傳遞給SAM進行分割,并使用Gemini為每個掩碼命名。最后,將掩碼映射到點云中的點,并將標簽文本嵌入到預訓練模型的潛在嵌入空間中,生成(點,文本嵌入)對。數(shù)據(jù)引擎處理了36044個高質量對象,最終獲得了30K個帶標注的對象,涵蓋761個類別和150萬個部分標注。
圖:數(shù)據(jù)引擎
開放世界3D部分模型
FIND 3D模型接收點云輸入,并返回每個點的語義特征,這些特征可以通過余弦相似度與任何自由形式的文本查詢進行查詢。模型首先將文本查詢嵌入到SigLIP文本編碼器中,然后計算每個點與文本查詢的余弦相似度。為了生成3D分割,模型將每個點分配給余弦相似度最高的文本查詢,如果所有查詢的相似度分數(shù)均為負,則分配“無標簽”。
圖:FIND 3D:開放世界部分分割模型
實驗設置
基準測試
除了自建的基準測試外,還在ShapeNet-Part和PartNet-E數(shù)據(jù)集上進行了評估。ShapeNet-Part包含16個對象類別,PartNet-E結合了PartNet和PartNet-Mobility,包含45個家用對象類別。對這兩個數(shù)據(jù)集的測試集進行了評估,包括在規(guī)范姿態(tài)和隨機旋轉姿態(tài)下的評估。
評估指標
報告了類別平均交并比(mIoU)作為評估指標,即所有標注部分在所有對象類別上的平均IoU。
競爭方法
比較了現(xiàn)有的最先進的開放世界和封閉世界3D分割方法,包括PointCLIPV2、PartSLIP++、OpenMask3D、PointNeXt和PartDistill。
實驗結果
FIND 3D在通用對象類別上表現(xiàn)出色,無論是已見類別還是未見類別,均取得了比第二好的方法高出3倍的mIoU。模型展示了強大的分布外泛化能力,并且在基線方法表現(xiàn)不佳的數(shù)據(jù)集上表現(xiàn)優(yōu)異。此外,F(xiàn)IND 3D在推理速度上比開放詞匯基線方法快6到300倍。
圖:在Objaverse-General基準測試上的定性結果
表:在Objaverse-General、ShapeNet-Part和PartNet-E上的性能比較
魯棒性評估
FIND 3D對查詢文本提示的變化、對象方向的變化以及數(shù)據(jù)域的變化表現(xiàn)出較強的魯棒性。相比之下,基線方法對這些變化較為敏感。
圖:PointCLIPV2和FIND 3D的魯棒性比較
圖:在所有ShapeNet-Part類別上的魯棒性評估
野外結果
FIND 3D能夠分割從iPhone照片或DALL-E生成的圖像重建的3D點云,展示了其在實際應用中的潛力。此外,模型支持各種查詢類型,展示了其在查詢粒度和描述風格上的靈活性。
圖:本方法支持靈活的文本查詢
失敗模式
FIND 3D在處理幾何上不顯著的細粒度部分(如表面上的按鈕)時存在局限性。此外,由于模型訓練為旋轉等變,它傾向于對所有對稱部分做出相同的預測。
圖:失敗示例
總結與展望
在計算機視覺領域,3D對象的開放世界部分分割一直是一個具有挑戰(zhàn)性的問題。傳統(tǒng)的分割方法往往局限于特定的對象類別或部分詞匯,無法靈活地處理任意對象和任意文本查詢。然而,隨著人工智能技術的飛速發(fā)展,尤其是2D圖像理解模型的顯著進步,我們看到了構建開放世界3D部分分割模型的可能性。
本文介紹的FIND 3D模型,正是這一領域的重大突破。FIND 3D不僅能夠基于任意文本查詢對任意3D對象的任意部分進行分割,而且通過結合2D基礎模型(如SAM和Gemini)的數(shù)據(jù)引擎,實現(xiàn)了對大規(guī)?;ヂ?lián)網(wǎng)3D資產的自動標注。這一創(chuàng)新的數(shù)據(jù)引擎與對比訓練方法相結合,使得FIND 3D在多個數(shù)據(jù)集上表現(xiàn)出色,其mIoU(平均交并比)比現(xiàn)有最佳方法提升了3倍。
FIND 3D的強大之處不僅在于其性能的顯著提升,還在于其對未見類別的出色泛化能力。該模型在處理通用對象類別時,無論是已見類別還是未見類別,均表現(xiàn)出卓越的性能。此外,F(xiàn)IND 3D在推理速度上也遠超現(xiàn)有方法,最高可達300倍的加速。這些優(yōu)勢使得FIND 3D在機器人和VR/AR應用中具有巨大的潛力,能夠為精確操作、交互和空間感知提供強有力的支持。
展望未來,F(xiàn)IND 3D的成功為開放世界3D部分分割的研究開辟了新的方向。首先,結合2D和3D模態(tài)以捕捉那些在3D幾何中不顯著但在2D圖像中易于感知的部分,將是一個值得探索的方向。其次,隨著訓練數(shù)據(jù)和模型參數(shù)的進一步擴展,我們有望揭示開放世界3D分割的縮放規(guī)律,從而進一步提升模型的性能和泛化能力。
總之,F(xiàn)IND 3D不僅為3D對象的開放世界部分分割提供了一個強大的解決方案,也為未來的研究奠定了堅實的基礎。我們期待這一領域的持續(xù)發(fā)展,并鼓勵讀者常來我們的公眾號學習,共同探索3D視覺的無限可能。
本文轉載自公眾號AIGC最前線 作者: 不是小馬哥啊
