自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="ho6hm"><th id="ho6hm"></th></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

無需標注數(shù)據(jù)，「3D理解」進入多模態(tài)預訓練時代！ULIP系列全面開源，刷新SOTA

作者：新智元 2023-06-20 16:19:00

人工智能新聞

機器開始理解3D世界了！

通過對齊三維形狀、二維圖片以及相應(yīng)的語言描述，多模態(tài)預訓練方法也帶動了3D表征學習的發(fā)展。

不過現(xiàn)有的多模態(tài)預訓練框架收集數(shù)據(jù)的方法缺乏可擴展性，極大限制了多模態(tài)學習的潛力，其中最主要的瓶頸在于語言模態(tài)的可擴展性和全面性。

最近，Salesforce AI聯(lián)手斯坦福大學和得克薩斯大學奧斯汀分校，發(fā)布了ULIP（CVP R2023）和ULIP-2項目，這些項目正在引領(lǐng)3D理解的新篇章。

論文鏈接：https://arxiv.org/pdf/2212.05171.pdf

論文鏈接：https://arxiv.org/pdf/2305.08275.pdf

代碼鏈接：https://github.com/salesforce/ULIP

研究人員采用了獨特的方法，使用3D點云、圖像和文本進行模型的預訓練，將它們對齊到一個統(tǒng)一的特征空間。這種方法在3D分類任務(wù)中取得了最先進的結(jié)果，并為跨領(lǐng)域任務(wù)（如圖像到3D檢索）開辟了新的可能性。

并且ULIP-2將這種多模態(tài)預訓練變得可以不需要任何人工標注，從而可以大規(guī)模擴展。

ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升，達到74.0%的最高準確率；在現(xiàn)實世界的ScanObjectNN基準上，僅用140萬個參數(shù)就獲得了91.5%的總體準確率，標志著在無需人類3D標注的可擴展多模態(tài)3D表示學習方面的突破。

對齊（3D，圖像，文本）這三種特征的預訓練框架示意圖

代碼以及發(fā)布的大規(guī)模tri-modal的數(shù)據(jù)集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經(jīng)開源。

背景

3D理解是人工智能領(lǐng)域的重要組成部分，它讓機器能像人類一樣在三維空間中感知和互動。這種能力在自動駕駛汽車、機器人、虛擬現(xiàn)實和增強現(xiàn)實等領(lǐng)域都有著重要的應(yīng)用。

然而，由于3D數(shù)據(jù)的處理和解釋復雜性，以及收集和注釋3D數(shù)據(jù)的成本，3D理解一直面臨著巨大的挑戰(zhàn)。

ULIP

Tri-modal 預訓練框架以及其下游任務(wù)

ULIP（已經(jīng)被CVPR2023接收）采用了一種獨特的方法，使用3D點云、圖像和文本進行模型的預訓練，將它們對齊到一個統(tǒng)一的表示空間。

這種方法在3D分類任務(wù)中取得了最先進的結(jié)果，并為跨領(lǐng)域任務(wù)（如圖像到3D檢索）開辟了新的可能性。

ULIP的成功關(guān)鍵在于使用預先對齊的圖像和文本編碼器，如CLIP，它在大量的圖像-文本對上進行預訓練。

這些編碼器將三種模態(tài)的特征對齊到一個統(tǒng)一的表示空間，使模型能夠更有效地理解和分類3D對象。

這種改進的3D表示學習不僅增強了模型對3D數(shù)據(jù)的理解，而且還使得跨模態(tài)應(yīng)用如zero-shot 3D分類和圖像到3D檢索成為可能，因為3D編碼器獲得了多模態(tài)上下文。

ULIP的預訓練損失函數(shù)如下：

在ULIP的默認設(shè)置中，α被設(shè)置為0， β和θ被設(shè)置為1，每兩個模態(tài)之間的對比學習損失函數(shù)的定義如下，這里M1和M2指三個模態(tài)中的任意兩個模態(tài)：

ULIP還做了由圖像到3D的retrieval的實驗，效果如下：

實驗結(jié)果可以看出ULIP預訓練的模型已經(jīng)能夠?qū)W習到圖像和三維點云間有意義的多模態(tài)特征。

令人驚訝的是，相較于其他的檢索到的三維模型，第一名檢索到的三維模型與查詢圖像的外觀最為接近。

例如，當我們使用來自不同飛機類型（戰(zhàn)斗機和客機）的圖片進行檢索（第二行和第三行），檢索到的最接近的3D點云仍然保留了查詢圖像的微妙差異。

ULIP-2

這里是一個3D物體生成多角度文字描述的示例。首先，我們從一組視角將3D物體渲染成2D圖像，然后使用大型多模態(tài)模型為所有渲染出的圖像生成描述

ULIP-2在ULIP的基礎(chǔ)上，利用大型多模態(tài)模型為3D物體生成全方面對應(yīng)的語言描述，從而收集可擴展的多模態(tài)預訓練數(shù)據(jù)，無需任何人工標注，使預訓練過程和訓練后的模型更加高效并且增強其適應(yīng)性。

ULIP-2的方法包括為每個3D物體生成多角度不同的語言描述，然后用這些描述來訓練模型，使3D物體、2D圖像、和語言描述在特征空間對齊一致。

這個框架使得無需手動注釋就可以創(chuàng)建大量的三模態(tài)數(shù)據(jù)集，從而充分發(fā)揮多模態(tài)預訓練的潛力。

ULIP-2還發(fā)布了生成的大規(guī)模三模態(tài)數(shù)據(jù)集：「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。

兩個tri-modal的datasets的一些統(tǒng)計數(shù)據(jù)

實驗結(jié)果

ULIP系列在多模態(tài)下游任務(wù)和3D表達的微調(diào)實驗中均取得了驚人的效果，尤其ULIP-2中的預訓練是完全不需要借助任何人工的標注就可以實現(xiàn)的。

ULIP-2在ModelNet40的下游零樣本分類任務(wù)中取得了顯著的提升（74.0%的top-1準確率）；在真實世界的ScanObjectNN基準測試中，它僅用1.4M參數(shù)就取得了91.5%的總體準確率，這標志著在無需人工3D標注的情況下，實現(xiàn)了可擴展的多模態(tài)3D表示學習的突破。

消融實驗

兩篇論文均做了詳盡的消融實驗。

在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中，由于ULIP的預訓練框架有三個模態(tài)的參與，所以作者用實驗探究了究竟是只對齊其中的兩個模態(tài)好還是對齊所有三個模態(tài)好，實驗結(jié)果如下：

從實驗結(jié)果中可以看到，在不同的3D backbone中，對齊三個模態(tài)一致的比只對齊兩個模態(tài)好，這也應(yīng)證了ULIP的預訓練框架的合理性。

在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中，作者探究了不同的大型多模態(tài)模型會對預訓練的框架有什么影響，結(jié)果如下：

實驗結(jié)果可以看出，ULIP-2框架預訓練的效果可以隨著使用的大型多模態(tài)模型的升級而提升，具有一定的成長性。

在ULIP-2中，作者還探索了在生成tri-modal的數(shù)據(jù)集是采用不同數(shù)量的視角會如何影響整體預訓練的表現(xiàn)，實驗結(jié)果如下：

實驗結(jié)果顯示，隨著使用的視角數(shù)量的增加，預訓練的模型的zero-shot classification的效果也會隨之增加。

這也應(yīng)證了ULIP-2中的觀點，更全方位多樣性的語言描述會對多模態(tài)預訓練有正向的作用。

除此之外，ULIP-2還探究了取CLIP排序過的不同topk的語言描述會對多模態(tài)預訓練有什么影響，實驗結(jié)果如下：

實驗結(jié)果表明：ULIP-2的框架對不同的topk有一定的魯棒性，論文中采用了top 5作為默認設(shè)置。

結(jié)論

由Salesforce AI，斯坦福大學，得克薩斯大學奧斯汀分校聯(lián)手發(fā)布的ULIP項目（CVPR2023）和ULIP-2正在改變3D理解領(lǐng)域。

ULIP將不同的模態(tài)對齊到一個統(tǒng)一的空間，增強了3D特征的學習并啟用了跨模態(tài)應(yīng)用。

ULIP-2進一步發(fā)展，為3D對象生成整體語言描述，創(chuàng)建并開源了大量的三模態(tài)數(shù)據(jù)集，并且這個過程無需人工標注。

這些項目在3D理解方面設(shè)定了新的基準，為機器真正理解我們?nèi)S世界的未來鋪平了道路。

團隊

Salesforce AI:

Le Xue (薛樂)， Mingfei Gao (高明菲)，Chen Xing（星辰），Ning Yu（于寧）， Shu Zhang（張澍），Junnan Li（李俊男）， Caiming Xiong（熊蔡明），Ran Xu（徐然），Juan carlos niebles， Silvio savarese。

斯坦福大學：

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。

UT Austin：

Prof. Roberto Martín-Martín。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<bdo id="cohsw"><tr id="cohsw"></tr></bdo>

<legend id="cohsw"><track id="cohsw"><dfn id="cohsw"></dfn></track></legend>

<legend id="cohsw"><track id="cohsw"></track></legend>

<cite id="cohsw"><track id="cohsw"></track></cite>