自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="xfvge"></thead>

<sup id="xfvge"><rt id="xfvge"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Facebook在ICCV 2021 發(fā)布兩個3D模型，自監(jiān)督才是終極答案？

作者：佚名 2021-10-21 09:24:06

新聞人工智能

在 ICCV 2021 上，F(xiàn)acebook AI提出了兩個新模型3DETR和DepthContrast，這兩個互補的新模型可促進3D理解并更容易上手。

長久以來CV的訓練一直停留在二維數(shù)據(jù)上，三維數(shù)據(jù)因為標注成本高等原因都需要專業(yè)人員來開發(fā)專用模型。Facebook在ICCV 2021 發(fā)布兩個3D模型3DETR和DepthContrast，將模型的通用性全面升級，也許標志著CV研究全面進入三維時代！

從大規(guī)模的數(shù)據(jù)中進行預訓練，在計算機視覺中得到了廣泛應用，也是在特定任務上得到高性能模型的基礎。

但這種方法有一個致命缺陷，那就是如果目標數(shù)據(jù)類型還沒有大量標注數(shù)據(jù)的話，就沒辦法使用這種模式。

例如3D 掃描、識別的標注數(shù)據(jù)集就很稀缺，主要是因為3D 數(shù)據(jù)集的標注十分耗時，并且用于 3D 理解的模型通常依賴于與用于訓練的特定 3D 數(shù)據(jù)集的手工架構設計。

在 ICCV 2021 上，F(xiàn)acebook AI提出了兩個新模型3DETR和DepthContrast，這兩個互補的新模型可促進3D理解并更容易上手。新模型建立了簡化的3D理解的通用架構，并且能夠通過不需要標簽的自監(jiān)督學習方法來解決這些問題。

代碼目前也已開源。

出于各種原因，目前的CV 模型還主要集中在二維圖片，但構建機器以了解有關世界的 3D 數(shù)據(jù)非常重要。例如自動駕駛汽車需要 3D 理解才能移動并避免撞到障礙物，而 AR/VR 應用程序可以幫助人們完成實際任務，例如可以可視化沙發(fā)是否適合客廳。

來自 2D 圖像和視頻的數(shù)據(jù)表示為規(guī)則的像素網(wǎng)格，而 3D 數(shù)據(jù)則反映為點坐標。由于 3D 數(shù)據(jù)更難獲取和標記，因此 3D 數(shù)據(jù)集通常也比圖像和視頻數(shù)據(jù)集小得多。這意味著它們通常在整體大小和它們包含的類或概念的數(shù)量方面受到限制。

以前，專注于 3D 理解的從業(yè)者需要大量的領域知識來調整標準的 CV 架構。單視圖 3D 數(shù)據(jù)（取自一臺同時記錄深度信息的相機）比多視圖 3D 更容易收集，后者利用兩個或更多相機記錄同一場景。多視圖3D數(shù)據(jù)往往是通過對單視圖3D進行后處理生成的，但是這個處理步驟有失敗的可能，一些研究人員估計，由于源圖像模糊或相機運動過度等原因，這個失敗率可能高達 78%。

DepthContrast 主要解決了這些數(shù)據(jù)上的問題，因為它可以從任何 3D 數(shù)據(jù)（無論是單視圖還是多視圖）訓練自監(jiān)督模型，因此消除了處理小型未標記數(shù)據(jù)集的挑戰(zhàn)。一般的CV 模型即使是對大量 2D 圖像或視頻進行預訓練也不太可能為 AR/VR 等復雜應用產(chǎn)生準確的 3D 理解。

https://arxiv.org/abs/2101.02691

自監(jiān)督學習一直是研究界和FAIR的主要興趣領域， DepthContrast也是業(yè)界在不使用標記數(shù)據(jù)的情況下學習強大3D表示的最新嘗試。這項研究繼承自FAIR 之前的工作PointContrast，也是3D的一種自我監(jiān)督技術。

現(xiàn)在獲得3D數(shù)據(jù)的機會很多。傳感器和多視圖立體算法通常為視頻或圖像提供補充信息。然而，理解這些數(shù)據(jù)以前一直是一個挑戰(zhàn)，因為3D數(shù)據(jù)具有不同的物理特性，這取決于它的獲取方式和位置。

例如，與來自室外傳感器（如 LiDAR）的數(shù)據(jù)相比，來自商用手機傳感器的深度數(shù)據(jù)看起來非常不同。AI研究中使用的大多數(shù)3D數(shù)據(jù)都是以單視圖深度圖的形式獲取的，這些數(shù)據(jù)通過為3D registration的步驟進行后處理以獲得多視圖3D。先前的工作依賴于多視圖3D數(shù)據(jù)來學習自監(jiān)督特征，訓練目標主要考慮3D點對應關系。

雖然將單視圖數(shù)據(jù)轉換為多視圖數(shù)據(jù)的失敗率很高，但DepthContrast表明僅使用單視圖3D數(shù)據(jù)就足以學習最先進的3D特征。

使用3D數(shù)據(jù)增強可以從單視圖深度圖生成略有不同的3D深度圖。DepthContrast通過使用對比學習來對齊從這些增強深度圖獲得的特征來實現(xiàn)這一點。

并且研究結果表明該學習信號可用于預訓練不同類型的3D架構，例如PointNet++和Sparse ConvNets。

更重要的是，DepthContrast可以應用于任何類型的3D數(shù)據(jù)，無論是在室內(nèi)還是室外，單視圖還是多視圖。我們的研究表明，使用DepthContrast預訓練的模型在ScanNet 3D檢測基準上絕對是最先進的。

DepthContrast的功能在形狀分類、對象檢測和分割等任務的各種3D基準測試中提供了增益。

DepthContrast表明自監(jiān)督學習也有希望用于3D理解。事實上，DepthContrast分享了學習增強不變特征的基本原理，該原理已被用于支持自監(jiān)督模型，例如Facebook AI的SEER。

第二個工作3DETR是3D Detection Transformer的縮寫。該模型是一種基于Transformer的簡單三維檢測和分類架構，可作為檢測和分類任務的通用三維模型，該模型簡化了用于訓練3D檢測模型的損失函數(shù)，更容易實現(xiàn)。它的性能也相當于或超過了依賴于手動調整的3D架構和損耗函數(shù)的現(xiàn)有最先進的方法。

https://arxiv.org/abs/2109.08141

3DETR將三維場景（表示為點云或一組XYZ點坐標）作為輸入，并為場景中的對象生成一組三維邊界框。這項新的研究建立在VoteNet和Detection Transformers（DETR）的基礎上，其中VoteNet是FAIR在3D點云中檢測物體的模型，DETR是Facebook AI為重新定義物體檢測挑戰(zhàn)而創(chuàng)建的一種更簡單的架構。

為了實現(xiàn)2D檢測的飛躍，F(xiàn)acebook AI之前的研究確定了兩個重要的變化，需要解決Transformer的3D理解工作，還需要非參數(shù)查詢嵌入和傅立葉編碼。因為點云在大量空白空間和噪聲點之間具有不同的密度，所以這兩種設計決策都是必需的。

3DETR使用兩種技術來處理此問題，與DETR和其他變壓器模型/DETR中使用的標準（正弦）嵌入相比，傅里葉編碼是表示XYZ坐標的更好方法。

其次，DETR使用一組固定的參數(shù)（稱為查詢）來預測對象的位置，研究結果發(fā)現(xiàn)此設計決策不適用于點云。取而代之的是，我們從場景中采樣隨機點，并預測相對于這些點的對象。實際上沒有一組固定的參數(shù)來預測位置，而是隨機點采樣適應3D點云的不同密度。

使用點云輸入，Transformer編碼器生成場景中對象形狀和位置的坐標表示通過一系列的自注意操作來捕獲識別所需的全局和局部上下文。例如，它可以檢測3D場景的幾何特性如放置在圓桌周圍的椅子的腿和靠背。

Transformer解碼器將這些點特征作為輸入并輸出一組 3D 邊界框，它對點特征和查詢嵌入應用了一系列交叉注意操作。解碼器的自注意力表明它專注于對象以預測它們周圍的邊界框。

Transformer編碼器也足夠通用，可以用于其他3D任務，例如形狀分類。

總的來說，3DETR比之前的工作更容易實現(xiàn)。在3D基準測試中，3DETR的性能與之前手工制作的3D架構相比也有優(yōu)勢。它的設計決策也與之前的3D工作兼容，使研究人員能夠靈活地將3DETR中的組件適應他們自己的pipeline。

從幫助機器人導航世界到為使用智能手機和未來設備（如AR眼鏡）的人們帶來豐富的新VR/AR體驗，這些模型都具有巨大的潛力。

隨著手機中3D傳感器的普及，研究人員甚至可以從自己的設備上獲取單視圖3D數(shù)據(jù)來訓練模型。深度對比技術是以自我監(jiān)督的方式使用這些數(shù)據(jù)的第一步。通過處理單視圖和多視圖數(shù)據(jù)類型，DepthContrast大大增加了3D自監(jiān)督學習的潛在使用案例。

自監(jiān)督學習仍然是跨文本、圖像和視頻學習表示的強大工具?，F(xiàn)在，大多數(shù)智能手機都配備了深度傳感器，這為提高3D理解和創(chuàng)造更多人可以享受的新體驗提供了重要機會。

責任編輯：張燕妮來源：新智元

模型人工智能 3D

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營