自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

新聞 人工智能
神經(jīng)網(wǎng)絡(luò)的深度并不意味著一切?在近期的一項研究中,普林斯頓和英特爾的研究者提出了一種使用并行子網(wǎng)絡(luò)或子結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò) ParNet,在有效減少深度的同時能夠保持高性能,甚至實現(xiàn)更快的速度及更好的準(zhǔn)確性。

  [[434088]]

深度是深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵,但更多的深度意味著更多的序列計算和更多的延遲。這就引出了一個問題——是否有可能構(gòu)建高性能的「非深度」神經(jīng)網(wǎng)絡(luò)?

近日,普林斯頓大學(xué)和英特爾實驗室的一項研究證明了這一觀點的可行性。該研究使用并行子網(wǎng)絡(luò)而不是一層又一層地堆疊,這有助于在保持高性能的同時有效地減少深度。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

論文地址:https://arxiv.org/abs/2110.07641

通過利用并行子結(jié)構(gòu),該研究首次表明深度僅為 12 的網(wǎng)絡(luò)可在 ImageNet 上實現(xiàn)超過 80%、在 CIFAR10 上實現(xiàn)超過 96%、在 CIFAR100 上實現(xiàn) 81% 的 top-1 準(zhǔn)確率。該研究還表明,具有低深度主干網(wǎng)絡(luò)的模型可以在 MS-COCO 上達到 48% 的 AP 指標(biāo)。研究者分析了該設(shè)計的擴展規(guī)則,并展示了如何在不改變網(wǎng)絡(luò)深度的情況下提高性能。最后,研究者提供了關(guān)于如何使用非深度網(wǎng)絡(luò)來構(gòu)建低延遲識別系統(tǒng)的概念證明。

方法

該研究提出了一種深度較低但仍能在多項基準(zhǔn)上實現(xiàn)高性能的網(wǎng)絡(luò)架構(gòu) ParNet,ParNet 由處理不同分辨率特征的并行子結(jié)構(gòu)組成。這些并行子結(jié)構(gòu)稱為流(stream),來自不同流的特征在網(wǎng)絡(luò)的后期融合,融合的特征用于下游任務(wù)。圖 2a 提供了 ParNet 的示意圖。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

圖 2

ParNet Block

ParNet 中使用了 VGG 風(fēng)格的 block(Simonyan & Zisserman,2015)。為了探究非深度網(wǎng)絡(luò)是否可以實現(xiàn)高性能,該研究通過實驗發(fā)現(xiàn) VGG 風(fēng)格 block 比 ResNet 風(fēng)格 block 更合適(如下表 8 所示)。一般來說,訓(xùn)練 VGG 風(fēng)格的網(wǎng)絡(luò)比 ResNet 更難(He 等,2016a)。但是最近的一些工作表明,使用「結(jié)構(gòu)重參數(shù)化」方法(Ding 等,2021),會讓 VGG 風(fēng)格 block 更容易訓(xùn)練。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

訓(xùn)練期間,該研究在 3×3 卷積 block 上使用多個分支。訓(xùn)練完成后,多個分支可以融合為一個 3×3 的卷積 block。因此,最終得到一個僅由 3×3 block 和非線性組成的簡單網(wǎng)絡(luò)。block 的這種重參數(shù)化或融合(fusion)有助于減少推理期間的延遲。

降采樣和融合 block

除了輸入和輸出大小相同的 RepVGG-SSE block 之外,ParNet 還包含降采樣(downsampling)和融合 block。降采樣 block 降低了分辨率并增加了寬度以實現(xiàn)多尺度(multi-scale)處理,而融合 block 將來自多個分辨率的信息組合。在降采樣 block 中,沒有殘差連接(skip connection);相反,該研究添加了一個與卷積層并行的單層 SE 模塊。

此外,該研究在 1×1 卷積分支中添加了 2D 平均池化。融合 block 和降采樣 block 類似,但還包含一個額外的串聯(lián)(concatenation)層。由于串聯(lián),融合 block 的輸入通道數(shù)是降采樣 block 的兩倍。為了減少參數(shù)量,該研究的降采樣和融合 block 的設(shè)計如下圖所示。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

網(wǎng)絡(luò)架構(gòu)

圖 2a 展示了用于 ImageNet 數(shù)據(jù)集的 ParNet 模型示意圖。初始層由一系列降采樣塊組成,降采樣 block 2、3 和 4 的輸出分別饋送到流 1、2 和 3。研究者發(fā)現(xiàn) 3 是給定參數(shù)預(yù)算的最佳流數(shù)(如表 10 所示)。每個流由一系列不同分辨率處理特征的 RepVGG-SSE block 組成。然后來自不同流的特征由融合 block 使用串聯(lián)進行融合。最后,輸出被傳遞到深度為 11 的降采樣 block。與 RepVGG(Ding 等, 2021)類似,該研究對最后一個降采樣層使用更大的寬度。

擴展 ParNet

據(jù)觀察,神經(jīng)網(wǎng)絡(luò)可以通過擴大網(wǎng)絡(luò)規(guī)模來獲得更高的準(zhǔn)確度。之前的研究 (Tan & Le, 2019) 擴展了寬度、分辨率和深度。由于本研究的目標(biāo)是評估是否可以在深度較低的情況下實現(xiàn)高性能,因此研究者將模型的深度保持不變,通過增加寬度、分辨率和流數(shù)來擴展 ParNet。

對于 CIFAR10 和 CIFAR100,該研究增加了網(wǎng)絡(luò)的寬度,同時將分辨率保持為 32,流數(shù)保持為 3。對于 ImageNet,該研究在三個不同的維度上進行了實驗,如下圖 3 所示。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

并行架構(gòu)的實際優(yōu)勢

目前 5 納米光刻工藝已接近 0.5 納米晶硅尺寸,處理器頻率進一步提升的空間有限。這意味著神經(jīng)網(wǎng)絡(luò)的更快推理必須依賴計算的并行化。單個單片 GPU 的性能增長也在放緩,預(yù)計傳統(tǒng)光刻可實現(xiàn)的最大芯片尺寸將達到 800 平方毫米(Arunkumar 等,2017)??傮w而言,未來在處理器頻率、芯片尺寸以及每個處理器的晶體管數(shù)等方面都將維持一個平穩(wěn)狀態(tài)。

為了解決這個問題,最近的一些工作提出了多芯片模塊 GPU (MCM-GPU),比最大的可實現(xiàn)單片 GPU 更快。用中型芯片取代大型芯片有望降低硅成本。這樣的芯片設(shè)計有利于具有并行分支的分區(qū)算法,算法之間交換有限的數(shù)據(jù)并且盡可能地分別獨立執(zhí)行?;谶@些因素,非深度并行結(jié)構(gòu)將有利于實現(xiàn)快速推理,尤其是對于未來的硬件。

實驗結(jié)果

表 1 展示了 ParNet 在 ImageNet 上的性能。該研究發(fā)現(xiàn),深度僅為 12 的網(wǎng)絡(luò)就可以實現(xiàn)驚人的高性能。為了與 ResNet 進行公平比較,研究者使用相同的訓(xùn)練協(xié)議和數(shù)據(jù)增強重新訓(xùn)練 ResNet,這將 ResNet 的性能提升到了超越官方結(jié)果的水平。值得注意的是,該研究發(fā)現(xiàn) ParNet-S 在參數(shù)數(shù)量較少的情況下(19M vs 22M)在準(zhǔn)確率上比 ResNet34 高出 1 個百分點以上。ParNet 還通過瓶頸設(shè)計實現(xiàn)了與 ResNet 相當(dāng)?shù)男阅?,同時深度減少到 1/4-1/8。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

如下表 2 所示,ParNet 在準(zhǔn)確率和速度上優(yōu)于 ResNet,但參數(shù)和 flop 也更多。例如,ParNet-L 實現(xiàn)了比 ResNet34 和 ResNet50 更快的速度和更好的準(zhǔn)確度。類似地,ParNet-XL 實現(xiàn)了比 ResNet50 更快的速度和更好的準(zhǔn)確度,但具有更多的參數(shù)和 flop。這表明使用 ParNet 代替 ResNet 時存在速度與參數(shù)和 flop 之間的權(quán)衡。請注意,可以通過利用可以分布在 GPU 上的并行子結(jié)構(gòu)來實現(xiàn)高速。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

該研究測試了 ParNet 三種變體的速度:未融合、融合和多 GPU,結(jié)果如下表 3 所示。未融合的變體由 RepVGG-SSE 塊中的 3×3 和 1×1 分支組成。在融合變體中,使用結(jié)構(gòu)重參數(shù)化技巧將 3×3 和 1×1 分支合并為一個 3×3 分支。對于融合和未融合變體,該研究使用單個 GPU 進行推理,而對于多 GPU 變體,使用了 3 個 GPU。對于多 GPU 變體,每個流都在單獨的 GPU 上啟動。當(dāng)一個流中的所有層都被處理時,來自兩個相鄰流的結(jié)果將在其中一個 GPU 上連接并進一步處理。為了跨 GPU 傳輸數(shù)據(jù),該研究使用了 PyTorch 中的 NCCL 后端。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

該研究發(fā)現(xiàn)盡管存在通信開銷,但 ParNet 仍可以跨 GPU 有效并行化以進行快速推理。使用專門的硬件可以減少通信延遲,甚至可以實現(xiàn)更快的速度。

表 5 展示了提高 ParNet 性能的其他方法,例如使用更高分辨率的圖像、更長的訓(xùn)練機制(200 個 epoch、余弦退火)和 10-crop 測試。這項研究有助于評估非深度模型在 ImageNet 等大規(guī)模數(shù)據(jù)集上可以實現(xiàn)的準(zhǔn)確性。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

MS-COCO (Lin 等,2014) 是一個目標(biāo)檢測數(shù)據(jù)集,其中包含具有常見對象的日常場景圖像。研究者用 COCO-2017 數(shù)據(jù)集進行了評估。如下表 4 所示,即使在單個 GPU 上,ParNet 也實現(xiàn)了比基線更高的速度。這闡明了如何使用非深度網(wǎng)絡(luò)來制作快速目標(biāo)檢測系統(tǒng)。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

表 6 總結(jié)了各種網(wǎng)絡(luò)在 CIFAR10 和 CIFAR100 上的性能。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

消融實驗

為了測試是否可以簡單地減少 ResNet 的深度并使它們變寬,研究者測試了三個 ResNet 變體:ResNet12-Wide、ResNet14-Wide-BN 和 ResNet12-Wide-SSE。ResNet12-Wide 使用 ResNet 基礎(chǔ) block,深度為 12,而 ResNet14-Wide-BN 使用 ResNet 瓶頸 block,深度為 14。表 7 展示了對網(wǎng)絡(luò)架構(gòu)和訓(xùn)練協(xié)議的各種設(shè)計的消融研究結(jié)果,其中包括使用數(shù)據(jù)增強、SSE block 和 SiLU 激活函數(shù)的 3 種情況。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

在表 10 中,研究者評估了參數(shù)總數(shù)相同但分支數(shù)不同( 1、2、3、4)的網(wǎng)絡(luò)。實驗表明,對于固定數(shù)量的參數(shù),具有 3 個分支的網(wǎng)絡(luò)具有最高的準(zhǔn)確率,并且在網(wǎng)絡(luò)分辨率分別為 224x224 和 320x320 這兩種情況下都是最優(yōu)的。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

另一種網(wǎng)絡(luò)并行化的方法是創(chuàng)建由多個網(wǎng)絡(luò)組成的集合體。因此,該研究將 ParNet 和集成的網(wǎng)絡(luò)進行對比。如下表 9 所示,當(dāng)使用較少的參數(shù)時,ParNet 的性能優(yōu)于集成的網(wǎng)絡(luò)。

普林斯頓、英特爾提出ParNet,速度和準(zhǔn)確性顯著優(yōu)于ResNet

 

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-11-01 09:44:12

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2010-04-09 09:13:42

2011-11-25 09:51:38

英特爾處理器Knights Cor服務(wù)器

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2022-07-26 09:56:48

模型AI

2009-03-30 13:43:47

多核服務(wù)器英特爾

2013-04-22 09:29:31

SDNNFV英特爾

2014-04-03 14:23:02

英特爾統(tǒng)一固件管理套件

2012-05-16 10:21:04

英特爾SSDPCIe

2023-11-20 13:06:52

2024-11-04 14:26:14

2011-12-14 19:01:20

英特爾

2024-11-04 15:15:00

AI模型

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2012-06-18 17:42:42

英特爾ARM
點贊
收藏

51CTO技術(shù)棧公眾號