無需標注數(shù)據(jù),「3D理解」進入多模態(tài)預訓練時代!ULIP系列全面開源,刷新SOTA
通過對齊三維形狀、二維圖片以及相應(yīng)的語言描述,多模態(tài)預訓練方法也帶動了3D表征學習的發(fā)展。
不過現(xiàn)有的多模態(tài)預訓練框架收集數(shù)據(jù)的方法缺乏可擴展性,極大限制了多模態(tài)學習的潛力,其中最主要的瓶頸在于語言模態(tài)的可擴展性和全面性。
最近,Salesforce AI聯(lián)手斯坦福大學和得克薩斯大學奧斯汀分校,發(fā)布了ULIP(CVP R2023)和ULIP-2項目,這些項目正在引領(lǐng)3D理解的新篇章。
論文鏈接:https://arxiv.org/pdf/2212.05171.pdf
論文鏈接:https://arxiv.org/pdf/2305.08275.pdf
代碼鏈接:https://github.com/salesforce/ULIP
研究人員采用了獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統(tǒng)一的特征空間。這種方法在3D分類任務(wù)中取得了最先進的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。
并且ULIP-2將這種多模態(tài)預訓練變得可以不需要任何人工標注,從而可以大規(guī)模擴展。
ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升,達到74.0%的最高準確率;在現(xiàn)實世界的ScanObjectNN基準上,僅用140萬個參數(shù)就獲得了91.5%的總體準確率,標志著在無需人類3D標注的可擴展多模態(tài)3D表示學習方面的突破。
對齊(3D,圖像,文本)這三種特征的預訓練框架示意圖
代碼以及發(fā)布的大規(guī)模tri-modal的數(shù)據(jù)集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經(jīng)開源。
背景
3D理解是人工智能領(lǐng)域的重要組成部分,它讓機器能像人類一樣在三維空間中感知和互動。這種能力在自動駕駛汽車、機器人、虛擬現(xiàn)實和增強現(xiàn)實等領(lǐng)域都有著重要的應(yīng)用。
然而,由于3D數(shù)據(jù)的處理和解釋復雜性,以及收集和注釋3D數(shù)據(jù)的成本,3D理解一直面臨著巨大的挑戰(zhàn)。
ULIP
Tri-modal 預訓練框架以及其下游任務(wù)
ULIP(已經(jīng)被CVPR2023接收)采用了一種獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統(tǒng)一的表示空間。
這種方法在3D分類任務(wù)中取得了最先進的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。
ULIP的成功關(guān)鍵在于使用預先對齊的圖像和文本編碼器,如CLIP,它在大量的圖像-文本對上進行預訓練。
這些編碼器將三種模態(tài)的特征對齊到一個統(tǒng)一的表示空間,使模型能夠更有效地理解和分類3D對象。
這種改進的3D表示學習不僅增強了模型對3D數(shù)據(jù)的理解,而且還使得跨模態(tài)應(yīng)用如zero-shot 3D分類和圖像到3D檢索成為可能,因為3D編碼器獲得了多模態(tài)上下文。
ULIP的預訓練損失函數(shù)如下:
在ULIP的默認設(shè)置中,α被設(shè)置為0, β和θ被設(shè)置為1,每兩個模態(tài)之間的對比學習損失函數(shù)的定義如下,這里M1和M2指三個模態(tài)中的任意兩個模態(tài):
ULIP還做了由圖像到3D的retrieval的實驗,效果如下:
實驗結(jié)果可以看出ULIP預訓練的模型已經(jīng)能夠?qū)W習到圖像和三維點云間有意義的多模態(tài)特征。
令人驚訝的是,相較于其他的檢索到的三維模型,第一名檢索到的三維模型與查詢圖像的外觀最為接近。
例如,當我們使用來自不同飛機類型(戰(zhàn)斗機和客機)的圖片進行檢索(第二行和第三行),檢索到的最接近的3D點云仍然保留了查詢圖像的微妙差異。
ULIP-2
這里是一個3D物體生成多角度文字描述的示例。首先,我們從一組視角將3D物體渲染成2D圖像,然后使用大型多模態(tài)模型為所有渲染出的圖像生成描述
ULIP-2在ULIP的基礎(chǔ)上,利用大型多模態(tài)模型為3D物體生成全方面對應(yīng)的語言描述,從而收集可擴展的多模態(tài)預訓練數(shù)據(jù),無需任何人工標注,使預訓練過程和訓練后的模型更加高效并且增強其適應(yīng)性。
ULIP-2的方法包括為每個3D物體生成多角度不同的語言描述,然后用這些描述來訓練模型,使3D物體、2D圖像、和語言描述在特征空間對齊一致。
這個框架使得無需手動注釋就可以創(chuàng)建大量的三模態(tài)數(shù)據(jù)集,從而充分發(fā)揮多模態(tài)預訓練的潛力。
ULIP-2還發(fā)布了生成的大規(guī)模三模態(tài)數(shù)據(jù)集:「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。
兩個tri-modal的datasets的一些統(tǒng)計數(shù)據(jù)
實驗結(jié)果
ULIP系列在多模態(tài)下游任務(wù)和3D表達的微調(diào)實驗中均取得了驚人的效果,尤其ULIP-2中的預訓練是完全不需要借助任何人工的標注就可以實現(xiàn)的。
ULIP-2在ModelNet40的下游零樣本分類任務(wù)中取得了顯著的提升(74.0%的top-1準確率);在真實世界的ScanObjectNN基準測試中,它僅用1.4M參數(shù)就取得了91.5%的總體準確率,這標志著在無需人工3D標注的情況下,實現(xiàn)了可擴展的多模態(tài)3D表示學習的突破。
消融實驗
兩篇論文均做了詳盡的消融實驗。
在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的預訓練框架有三個模態(tài)的參與,所以作者用實驗探究了究竟是只對齊其中的兩個模態(tài)好還是對齊所有三個模態(tài)好,實驗結(jié)果如下:
從實驗結(jié)果中可以看到,在不同的3D backbone中,對齊三個模態(tài)一致的比只對齊兩個模態(tài)好,這也應(yīng)證了ULIP的預訓練框架的合理性。
在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模態(tài)模型會對預訓練的框架有什么影響,結(jié)果如下:
實驗結(jié)果可以看出,ULIP-2框架預訓練的效果可以隨著使用的大型多模態(tài)模型的升級而提升,具有一定的成長性。
在ULIP-2中,作者還探索了在生成tri-modal的數(shù)據(jù)集是采用不同數(shù)量的視角會如何影響整體預訓練的表現(xiàn),實驗結(jié)果如下:
實驗結(jié)果顯示,隨著使用的視角數(shù)量的增加,預訓練的模型的zero-shot classification的效果也會隨之增加。
這也應(yīng)證了ULIP-2中的觀點,更全方位多樣性的語言描述會對多模態(tài)預訓練有正向的作用。
除此之外,ULIP-2還探究了取CLIP排序過的不同topk的語言描述會對多模態(tài)預訓練有什么影響,實驗結(jié)果如下:
實驗結(jié)果表明:ULIP-2的框架對不同的topk有一定的魯棒性,論文中采用了top 5作為默認設(shè)置。
結(jié)論
由Salesforce AI,斯坦福大學,得克薩斯大學奧斯汀分校聯(lián)手發(fā)布的ULIP項目(CVPR2023)和ULIP-2正在改變3D理解領(lǐng)域。
ULIP將不同的模態(tài)對齊到一個統(tǒng)一的空間,增強了3D特征的學習并啟用了跨模態(tài)應(yīng)用。
ULIP-2進一步發(fā)展,為3D對象生成整體語言描述,創(chuàng)建并開源了大量的三模態(tài)數(shù)據(jù)集,并且這個過程無需人工標注。
這些項目在3D理解方面設(shè)定了新的基準,為機器真正理解我們?nèi)S世界的未來鋪平了道路。
團隊
Salesforce AI:
Le Xue (薛樂), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于寧), Shu Zhang(張澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio savarese。
斯坦福大學:
Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。
UT Austin:
Prof. Roberto Martín-Martín。