自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Point Transformer V3:更簡(jiǎn)單、更快、更強(qiáng)!

人工智能 新聞
本文介紹了 Point Transformer V3,它朝著克服點(diǎn)云處理中準(zhǔn)確性和效率之間的傳統(tǒng)權(quán)衡邁出了一大步。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

原標(biāo)題:Point Transformer V3: Simpler, Faster, Stronger

論文鏈接:https://arxiv.org/pdf/2312.10035.pdf

代碼鏈接:https://github.com/Pointcept/PointTransformerV3

作者單位:HKU SH AI Lab MPI PKU MIT

論文思路:

本文無意在注意力機(jī)制內(nèi)尋求創(chuàng)新。相反,它側(cè)重于利用規(guī)模(scale)的力量,克服點(diǎn)云處理背景下準(zhǔn)確性和效率之間現(xiàn)有的權(quán)衡。從 3D 大規(guī)模表示學(xué)習(xí)的最新進(jìn)展中汲取靈感,本文認(rèn)識(shí)到模型性能更多地受到規(guī)模的影響,而不是復(fù)雜的設(shè)計(jì)。因此,本文提出了 Point Transformer V3 (PTv3),它優(yōu)先考慮簡(jiǎn)單性和效率,而不是某些機(jī)制的準(zhǔn)確性,這些機(jī)制對(duì) scaling 后的整體性能影響較小,例如用以特定模式組織的點(diǎn)云的高效序列化鄰域映射來替換 KNN 的精確鄰域搜索。這一原理實(shí)現(xiàn)了顯著的 scaling,將感受野從 16 點(diǎn)擴(kuò)展到 1024 點(diǎn),同時(shí)保持高效(與前身 PTv2 相比,處理速度提高了 3 倍,內(nèi)存效率提高了 10 倍)。PTv3 在涵蓋室內(nèi)和室外場(chǎng)景的 20 多個(gè)下游任務(wù)中取得了最先進(jìn)的結(jié)果。通過多數(shù)據(jù)集聯(lián)合訓(xùn)練的進(jìn)一步增強(qiáng),PTv3 將這些結(jié)果推向了更高的水平。

網(wǎng)絡(luò)設(shè)計(jì):

3D 表示學(xué)習(xí)的最新進(jìn)展 [85] 通過引入跨多個(gè) 3D 數(shù)據(jù)集的協(xié)同訓(xùn)練方法,在克服點(diǎn)云處理中的數(shù)據(jù)規(guī)模限制方面取得了進(jìn)展。與該策略相結(jié)合,高效的卷積 backbone  [12] 有效地彌補(bǔ)了通常與 point cloud transformers [38, 84] 相關(guān)的精度差距。然而,由于與稀疏卷積相比,point cloud transformers 的效率存在差距,因此 point cloud transformers 本身尚未完全受益于這種規(guī)模優(yōu)勢(shì)。這一發(fā)現(xiàn)塑造了本文工作的最初動(dòng)機(jī):用 scaling principle 的視角重新權(quán)衡 point transformers 的設(shè)計(jì)選擇。本文認(rèn)為模型性能受規(guī)模的影響比受復(fù)雜設(shè)計(jì)的影響更顯著。

因此,本文引入了 Point Transformer V3 (PTv3),它優(yōu)先考慮簡(jiǎn)單性和效率,而不是某些機(jī)制的準(zhǔn)確性,從而實(shí)現(xiàn) scalability 。這樣的調(diào)整對(duì) scaling 后的整體性能影響可以忽略不計(jì)。具體來說,PTv3 進(jìn)行了以下調(diào)整以實(shí)現(xiàn)卓越的效率和 scalability :

  • 受到最近兩項(xiàng)進(jìn)展 [48, 77] 的啟發(fā),并認(rèn)識(shí)到結(jié)構(gòu)化非結(jié)構(gòu)化點(diǎn)云的 scalability 優(yōu)勢(shì),PTv3 改變了由 K-Nearest Neighbors (KNN) query 定義的傳統(tǒng)空間鄰近性,占 forward time 的 28%。相反,它探索了點(diǎn)云中根據(jù)特定模式組織的序列化鄰域的潛力。
  • PTv3 采用專為序列化點(diǎn)云量身定制的簡(jiǎn)化方法,取代了更復(fù)雜的注意力 patch 交互機(jī)制,例如 shift-window(阻礙注意力算子的融合)和鄰域機(jī)制(導(dǎo)致高內(nèi)存消耗)。
  • PTv3 消除了對(duì)占 forward time  26% 的相對(duì)位置編碼的依賴,有利于更簡(jiǎn)單的前置稀疏卷積層。

本文認(rèn)為這些設(shè)計(jì)是由現(xiàn)有 point cloud transformers 的 scaling principles 和進(jìn)步驅(qū)動(dòng)的直觀選擇。重要的是,本文強(qiáng)調(diào)了認(rèn)識(shí) scalability 如何影響 backbone 設(shè)計(jì)的至關(guān)重要性,而不是詳細(xì)的模塊設(shè)計(jì)。

這一原則顯著增強(qiáng)了 scalability ,克服了準(zhǔn)確性和效率之間的傳統(tǒng)權(quán)衡(見圖 1)。與前身相比,PTv3 的推理速度提高了 3.3 倍,內(nèi)存使用量降低了 10.2 倍。更重要的是,PTv3 利用其固有的 scale 感知范圍的能力,將其感受野從 16 點(diǎn)擴(kuò)展到 1024 點(diǎn),同時(shí)保持效率。這種 scalability 支撐了其在現(xiàn)實(shí)世界感知任務(wù)中的卓越性能,其中 PTv3 在室內(nèi)和室外場(chǎng)景中的 20 多個(gè)下游任務(wù)中取得了最先進(jìn)的結(jié)果。PTv3 通過多數(shù)據(jù)集訓(xùn)練進(jìn)一步擴(kuò)大其數(shù)據(jù)規(guī)模 [85],進(jìn)一步提升了這些結(jié)果。本文希望本文的見解能夠激發(fā)未來這一方向的研究。

圖片

圖 1.Point Transformer V3 (PTv3) 概述。與其前身PTv2[84]相比,本文的PTv3在以下方面表現(xiàn)出優(yōu)越性:1.性能更強(qiáng)。PTv3 在各種室內(nèi)和室外 3D 感知任務(wù)中均取得了最先進(jìn)的結(jié)果。2.更寬的感受野。受益于簡(jiǎn)單性和效率,PTv3 將感受野從 16 點(diǎn)擴(kuò)展到 1024 點(diǎn)。3、速度更快。PTv3 顯著提高了處理速度,使其適合對(duì)延遲敏感的應(yīng)用程序。4. 降低內(nèi)存消耗。PTv3 減少了內(nèi)存使用量,增強(qiáng)了更廣泛情況下的可訪問性。

圖 2. PTv2 各組件的延遲樹形圖。本文對(duì) PTv2 的每個(gè)組件的 forward time 比例進(jìn)行基準(zhǔn)測(cè)試和可視化。KNN Query 和 RPE 總共占用了 54% 的 forward time 。

圖 3.點(diǎn)云序列化。本文通過三元組可視化展示了四種序列化模式。對(duì)于每個(gè)三元組,顯示了用于序列化的空間填充曲線(左)、空間填充曲線內(nèi)的點(diǎn)云序列化變量排序順序(中)以及用于局部注意力的序列化點(diǎn)云的 grouped patches(右)。四種序列化模式的轉(zhuǎn)換允許注意力機(jī)制捕獲各種空間關(guān)系和上下文,從而提高模型準(zhǔn)確性和泛化能力。

圖 4. Patch grouping。(a) 根據(jù)從特定序列化模式導(dǎo)出的順序?qū)c(diǎn)云進(jìn)行重新排序。(b) 通過借用相鄰 patches 的點(diǎn)來填充點(diǎn)云序列,以確保它可以被指定的 patch size 整除。

圖 5. Patch interaction。(a) Standard patch grouping,具有規(guī)則的、非移位的排列;(b) 平移擴(kuò)張,其中點(diǎn)按規(guī)則間隔聚合,產(chǎn)生擴(kuò)張效果;(c) Shift Patch,采用類似于 shift window 方法的移位機(jī)制;(d) Shift Order,其中不同的序列化模式被循環(huán)分配給連續(xù)的注意力層;(d) Shuffle Order,序列化模式的序列在輸入到注意層之前被隨機(jī)化。

圖 6. 整體架構(gòu)。

實(shí)驗(yàn)結(jié)果:

總結(jié):

本文介紹了 Point Transformer V3,它朝著克服點(diǎn)云處理中準(zhǔn)確性和效率之間的傳統(tǒng)權(quán)衡邁出了一大步。在對(duì) backbone 設(shè)計(jì)中 scaling principle 的新穎解釋的指導(dǎo)下,本文認(rèn)為模型性能受規(guī)模的影響比受復(fù)雜設(shè)計(jì)的影響更深刻。通過優(yōu)先考慮效率而不是影響較小的機(jī)制的準(zhǔn)確性,本文利用規(guī)模的力量,從而提高性能。簡(jiǎn)而言之,通過使模型更簡(jiǎn)單、更快,本文可以使其變得更強(qiáng)大。

引用:

Wu, X., Jiang, L., Wang, P., Liu, Z., Liu, X., Qiao, Y., Ouyang, W., He, T., & Zhao, H. (2023). Point Transformer V3: Simpler, Faster, Stronger. ArXiv. /abs/2312.10035

原文鏈接:https://mp.weixin.qq.com/s/u_kN8bCHO96x9FfS4HQGiA

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2014-10-28 09:10:52

戴爾

2011-07-19 10:18:00

錢伯斯思科裁員

2020-05-03 13:52:27

深度學(xué)習(xí)開源人工智能

2024-10-14 14:45:00

數(shù)據(jù)模型

2021-06-28 10:27:58

MacOSApp公證AppStore

2011-05-20 07:52:54

RADVISIONSCOPIA Mobi

2024-12-30 20:32:36

2020-11-01 16:14:27

PythonPyston v2.0

2024-12-30 09:25:00

數(shù)據(jù)訓(xùn)練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2017-06-09 15:58:23

人工智能AI深度學(xué)習(xí)

2011-03-28 12:17:03

ibmdwRational

2010-07-30 13:17:33

NFS V3

2012-12-12 14:52:36

2010-02-03 17:51:42

Ubuntu Linu

2022-03-09 09:35:07

GoogleChrome 99Safari

2013-06-03 10:24:49

E3-1230 v3英特爾至強(qiáng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)