自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需標注數(shù)據(jù),「3D理解」進入多模態(tài)預訓練時代!ULIP系列全面開源,刷新SOTA

人工智能 新聞
機器開始理解3D世界了!

通過對齊三維形狀、二維圖片以及相應(yīng)的語言描述,多模態(tài)預訓練方法也帶動了3D表征學習的發(fā)展。

不過現(xiàn)有的多模態(tài)預訓練框架收集數(shù)據(jù)的方法缺乏可擴展性,極大限制了多模態(tài)學習的潛力,其中最主要的瓶頸在于語言模態(tài)的可擴展性和全面性。

最近,Salesforce AI聯(lián)手斯坦福大學和得克薩斯大學奧斯汀分校,發(fā)布了ULIP(CVP R2023)和ULIP-2項目,這些項目正在引領(lǐng)3D理解的新篇章。

圖片

論文鏈接:https://arxiv.org/pdf/2212.05171.pdf

論文鏈接:https://arxiv.org/pdf/2305.08275.pdf

代碼鏈接:https://github.com/salesforce/ULIP

研究人員采用了獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統(tǒng)一的特征空間。這種方法在3D分類任務(wù)中取得了最先進的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。

并且ULIP-2將這種多模態(tài)預訓練變得可以不需要任何人工標注,從而可以大規(guī)模擴展。

ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升,達到74.0%的最高準確率;在現(xiàn)實世界的ScanObjectNN基準上,僅用140萬個參數(shù)就獲得了91.5%的總體準確率,標志著在無需人類3D標注的可擴展多模態(tài)3D表示學習方面的突破。

圖片


對齊(3D,圖像,文本)這三種特征的預訓練框架示意圖

代碼以及發(fā)布的大規(guī)模tri-modal的數(shù)據(jù)集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經(jīng)開源。

背景

3D理解是人工智能領(lǐng)域的重要組成部分,它讓機器能像人類一樣在三維空間中感知和互動。這種能力在自動駕駛汽車、機器人、虛擬現(xiàn)實和增強現(xiàn)實等領(lǐng)域都有著重要的應(yīng)用。

然而,由于3D數(shù)據(jù)的處理和解釋復雜性,以及收集和注釋3D數(shù)據(jù)的成本,3D理解一直面臨著巨大的挑戰(zhàn)。

ULIP

圖片

Tri-modal 預訓練框架以及其下游任務(wù)

ULIP(已經(jīng)被CVPR2023接收)采用了一種獨特的方法,使用3D點云、圖像和文本進行模型的預訓練,將它們對齊到一個統(tǒng)一的表示空間。

這種方法在3D分類任務(wù)中取得了最先進的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。

ULIP的成功關(guān)鍵在于使用預先對齊的圖像和文本編碼器,如CLIP,它在大量的圖像-文本對上進行預訓練。

這些編碼器將三種模態(tài)的特征對齊到一個統(tǒng)一的表示空間,使模型能夠更有效地理解和分類3D對象。

這種改進的3D表示學習不僅增強了模型對3D數(shù)據(jù)的理解,而且還使得跨模態(tài)應(yīng)用如zero-shot 3D分類和圖像到3D檢索成為可能,因為3D編碼器獲得了多模態(tài)上下文。

ULIP的預訓練損失函數(shù)如下:

圖片

在ULIP的默認設(shè)置中,α被設(shè)置為0, β和θ被設(shè)置為1,每兩個模態(tài)之間的對比學習損失函數(shù)的定義如下,這里M1和M2指三個模態(tài)中的任意兩個模態(tài):

圖片

ULIP還做了由圖像到3D的retrieval的實驗,效果如下:

圖片

實驗結(jié)果可以看出ULIP預訓練的模型已經(jīng)能夠?qū)W習到圖像和三維點云間有意義的多模態(tài)特征。

令人驚訝的是,相較于其他的檢索到的三維模型,第一名檢索到的三維模型與查詢圖像的外觀最為接近。

例如,當我們使用來自不同飛機類型(戰(zhàn)斗機和客機)的圖片進行檢索(第二行和第三行),檢索到的最接近的3D點云仍然保留了查詢圖像的微妙差異。

ULIP-2

這里是一個3D物體生成多角度文字描述的示例。首先,我們從一組視角將3D物體渲染成2D圖像,然后使用大型多模態(tài)模型為所有渲染出的圖像生成描述

ULIP-2在ULIP的基礎(chǔ)上,利用大型多模態(tài)模型為3D物體生成全方面對應(yīng)的語言描述,從而收集可擴展的多模態(tài)預訓練數(shù)據(jù),無需任何人工標注,使預訓練過程和訓練后的模型更加高效并且增強其適應(yīng)性。

ULIP-2的方法包括為每個3D物體生成多角度不同的語言描述,然后用這些描述來訓練模型,使3D物體、2D圖像、和語言描述在特征空間對齊一致。

這個框架使得無需手動注釋就可以創(chuàng)建大量的三模態(tài)數(shù)據(jù)集,從而充分發(fā)揮多模態(tài)預訓練的潛力。

ULIP-2還發(fā)布了生成的大規(guī)模三模態(tài)數(shù)據(jù)集:「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。

圖片

兩個tri-modal的datasets的一些統(tǒng)計數(shù)據(jù)

實驗結(jié)果

ULIP系列在多模態(tài)下游任務(wù)和3D表達的微調(diào)實驗中均取得了驚人的效果,尤其ULIP-2中的預訓練是完全不需要借助任何人工的標注就可以實現(xiàn)的。

ULIP-2在ModelNet40的下游零樣本分類任務(wù)中取得了顯著的提升(74.0%的top-1準確率);在真實世界的ScanObjectNN基準測試中,它僅用1.4M參數(shù)就取得了91.5%的總體準確率,這標志著在無需人工3D標注的情況下,實現(xiàn)了可擴展的多模態(tài)3D表示學習的突破。

圖片

消融實驗

兩篇論文均做了詳盡的消融實驗。

在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的預訓練框架有三個模態(tài)的參與,所以作者用實驗探究了究竟是只對齊其中的兩個模態(tài)好還是對齊所有三個模態(tài)好,實驗結(jié)果如下:

圖片

從實驗結(jié)果中可以看到,在不同的3D backbone中,對齊三個模態(tài)一致的比只對齊兩個模態(tài)好,這也應(yīng)證了ULIP的預訓練框架的合理性。

在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模態(tài)模型會對預訓練的框架有什么影響,結(jié)果如下:

圖片

實驗結(jié)果可以看出,ULIP-2框架預訓練的效果可以隨著使用的大型多模態(tài)模型的升級而提升,具有一定的成長性。

在ULIP-2中,作者還探索了在生成tri-modal的數(shù)據(jù)集是采用不同數(shù)量的視角會如何影響整體預訓練的表現(xiàn),實驗結(jié)果如下:

圖片

實驗結(jié)果顯示,隨著使用的視角數(shù)量的增加,預訓練的模型的zero-shot classification的效果也會隨之增加。

這也應(yīng)證了ULIP-2中的觀點,更全方位多樣性的語言描述會對多模態(tài)預訓練有正向的作用。

除此之外,ULIP-2還探究了取CLIP排序過的不同topk的語言描述會對多模態(tài)預訓練有什么影響,實驗結(jié)果如下:

圖片

實驗結(jié)果表明:ULIP-2的框架對不同的topk有一定的魯棒性,論文中采用了top 5作為默認設(shè)置。

結(jié)論

由Salesforce AI,斯坦福大學,得克薩斯大學奧斯汀分校聯(lián)手發(fā)布的ULIP項目(CVPR2023)和ULIP-2正在改變3D理解領(lǐng)域。

ULIP將不同的模態(tài)對齊到一個統(tǒng)一的空間,增強了3D特征的學習并啟用了跨模態(tài)應(yīng)用。

ULIP-2進一步發(fā)展,為3D對象生成整體語言描述,創(chuàng)建并開源了大量的三模態(tài)數(shù)據(jù)集,并且這個過程無需人工標注。

這些項目在3D理解方面設(shè)定了新的基準,為機器真正理解我們?nèi)S世界的未來鋪平了道路。

團隊

Salesforce AI:

Le Xue (薛樂), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于寧), Shu Zhang(張澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio savarese。

斯坦福大學:

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。

UT Austin:

Prof. Roberto Martín-Martín。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-07 09:11:07

2024-08-21 10:04:14

2024-06-17 00:00:00

MiCo模態(tài)人腦

2023-07-19 09:17:35

訓練3D

2025-02-13 08:26:26

2024-01-15 10:38:24

3D框架

2024-10-15 13:07:38

2021-03-08 15:40:46

開源技術(shù) 軟件

2012-08-13 17:11:37

Silverlight

2024-03-25 12:40:19

訓練模型

2024-03-25 12:30:18

AI訓練開源

2011-05-03 11:07:46

2D3D麗訊

2011-05-07 09:45:36

晶體管3D22納米

2020-08-26 10:37:21

阿里3D

2025-04-16 02:55:00

2009-12-15 16:13:11

3D圖像

2025-03-10 08:25:00

機器人AI模型

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-05-27 07:21:43

2023-11-29 15:00:00

數(shù)據(jù)訓練
點贊
收藏

51CTO技術(shù)棧公眾號