自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="6mycy"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

作者：機器之心報道 2021-11-09 09:52:57

新聞人工智能

神經(jīng)網(wǎng)絡(luò)的深度并不意味著一切？在近期的一項研究中，普林斯頓和英特爾的研究者提出了一種使用并行子網(wǎng)絡(luò)或子結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò) ParNet，在有效減少深度的同時能夠保持高性能，甚至實現(xiàn)更快的速度及更好的準(zhǔn)確性。

深度是深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵，但更多的深度意味著更多的序列計算和更多的延遲。這就引出了一個問題——是否有可能構(gòu)建高性能的「非深度」神經(jīng)網(wǎng)絡(luò)？

近日，普林斯頓大學(xué)和英特爾實驗室的一項研究證明了這一觀點的可行性。該研究使用并行子網(wǎng)絡(luò)而不是一層又一層地堆疊，這有助于在保持高性能的同時有效地減少深度。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

論文地址：https://arxiv.org/abs/2110.07641

通過利用并行子結(jié)構(gòu)，該研究首次表明深度僅為 12 的網(wǎng)絡(luò)可在 ImageNet 上實現(xiàn)超過 80%、在 CIFAR10 上實現(xiàn)超過 96%、在 CIFAR100 上實現(xiàn) 81% 的 top-1 準(zhǔn)確率。該研究還表明，具有低深度主干網(wǎng)絡(luò)的模型可以在 MS-COCO 上達到 48% 的 AP 指標(biāo)。研究者分析了該設(shè)計的擴展規(guī)則，并展示了如何在不改變網(wǎng)絡(luò)深度的情況下提高性能。最后，研究者提供了關(guān)于如何使用非深度網(wǎng)絡(luò)來構(gòu)建低延遲識別系統(tǒng)的概念證明。

方法

該研究提出了一種深度較低但仍能在多項基準(zhǔn)上實現(xiàn)高性能的網(wǎng)絡(luò)架構(gòu) ParNet，ParNet 由處理不同分辨率特征的并行子結(jié)構(gòu)組成。這些并行子結(jié)構(gòu)稱為流（stream），來自不同流的特征在網(wǎng)絡(luò)的后期融合，融合的特征用于下游任務(wù)。圖 2a 提供了 ParNet 的示意圖。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

圖 2

ParNet Block

ParNet 中使用了 VGG 風(fēng)格的 block（Simonyan & Zisserman，2015）。為了探究非深度網(wǎng)絡(luò)是否可以實現(xiàn)高性能，該研究通過實驗發(fā)現(xiàn) VGG 風(fēng)格 block 比 ResNet 風(fēng)格 block 更合適（如下表 8 所示）。一般來說，訓(xùn)練 VGG 風(fēng)格的網(wǎng)絡(luò)比 ResNet 更難（He 等，2016a）。但是最近的一些工作表明，使用「結(jié)構(gòu)重參數(shù)化」方法（Ding 等，2021），會讓 VGG 風(fēng)格 block 更容易訓(xùn)練。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

訓(xùn)練期間，該研究在 3×3 卷積 block 上使用多個分支。訓(xùn)練完成后，多個分支可以融合為一個 3×3 的卷積 block。因此，最終得到一個僅由 3×3 block 和非線性組成的簡單網(wǎng)絡(luò)。block 的這種重參數(shù)化或融合（fusion）有助于減少推理期間的延遲。

降采樣和融合 block

除了輸入和輸出大小相同的 RepVGG-SSE block 之外，ParNet 還包含降采樣（downsampling）和融合 block。降采樣 block 降低了分辨率并增加了寬度以實現(xiàn)多尺度（multi-scale）處理，而融合 block 將來自多個分辨率的信息組合。在降采樣 block 中，沒有殘差連接（skip connection）；相反，該研究添加了一個與卷積層并行的單層 SE 模塊。

此外，該研究在 1×1 卷積分支中添加了 2D 平均池化。融合 block 和降采樣 block 類似，但還包含一個額外的串聯(lián)（concatenation）層。由于串聯(lián)，融合 block 的輸入通道數(shù)是降采樣 block 的兩倍。為了減少參數(shù)量，該研究的降采樣和融合 block 的設(shè)計如下圖所示。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

網(wǎng)絡(luò)架構(gòu)

圖 2a 展示了用于 ImageNet 數(shù)據(jù)集的 ParNet 模型示意圖。初始層由一系列降采樣塊組成，降采樣 block 2、3 和 4 的輸出分別饋送到流 1、2 和 3。研究者發(fā)現(xiàn) 3 是給定參數(shù)預(yù)算的最佳流數(shù)（如表 10 所示）。每個流由一系列不同分辨率處理特征的 RepVGG-SSE block 組成。然后來自不同流的特征由融合 block 使用串聯(lián)進行融合。最后，輸出被傳遞到深度為 11 的降采樣 block。與 RepVGG（Ding 等, 2021）類似，該研究對最后一個降采樣層使用更大的寬度。

擴展 ParNet

據(jù)觀察，神經(jīng)網(wǎng)絡(luò)可以通過擴大網(wǎng)絡(luò)規(guī)模來獲得更高的準(zhǔn)確度。之前的研究 (Tan & Le, 2019) 擴展了寬度、分辨率和深度。由于本研究的目標(biāo)是評估是否可以在深度較低的情況下實現(xiàn)高性能，因此研究者將模型的深度保持不變，通過增加寬度、分辨率和流數(shù)來擴展 ParNet。

對于 CIFAR10 和 CIFAR100，該研究增加了網(wǎng)絡(luò)的寬度，同時將分辨率保持為 32，流數(shù)保持為 3。對于 ImageNet，該研究在三個不同的維度上進行了實驗，如下圖 3 所示。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

并行架構(gòu)的實際優(yōu)勢

目前 5 納米光刻工藝已接近 0.5 納米晶硅尺寸，處理器頻率進一步提升的空間有限。這意味著神經(jīng)網(wǎng)絡(luò)的更快推理必須依賴計算的并行化。單個單片 GPU 的性能增長也在放緩，預(yù)計傳統(tǒng)光刻可實現(xiàn)的最大芯片尺寸將達到 800 平方毫米（Arunkumar 等，2017）?？傮w而言，未來在處理器頻率、芯片尺寸以及每個處理器的晶體管數(shù)等方面都將維持一個平穩(wěn)狀態(tài)。

為了解決這個問題，最近的一些工作提出了多芯片模塊 GPU (MCM-GPU)，比最大的可實現(xiàn)單片 GPU 更快。用中型芯片取代大型芯片有望降低硅成本。這樣的芯片設(shè)計有利于具有并行分支的分區(qū)算法，算法之間交換有限的數(shù)據(jù)并且盡可能地分別獨立執(zhí)行?；谶@些因素，非深度并行結(jié)構(gòu)將有利于實現(xiàn)快速推理，尤其是對于未來的硬件。

實驗結(jié)果

表 1 展示了 ParNet 在 ImageNet 上的性能。該研究發(fā)現(xiàn)，深度僅為 12 的網(wǎng)絡(luò)就可以實現(xiàn)驚人的高性能。為了與 ResNet 進行公平比較，研究者使用相同的訓(xùn)練協(xié)議和數(shù)據(jù)增強重新訓(xùn)練 ResNet，這將 ResNet 的性能提升到了超越官方結(jié)果的水平。值得注意的是，該研究發(fā)現(xiàn) ParNet-S 在參數(shù)數(shù)量較少的情況下（19M vs 22M）在準(zhǔn)確率上比 ResNet34 高出 1 個百分點以上。ParNet 還通過瓶頸設(shè)計實現(xiàn)了與 ResNet 相當(dāng)?shù)男阅?，同時深度減少到 1/4-1/8。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

如下表 2 所示，ParNet 在準(zhǔn)確率和速度上優(yōu)于 ResNet，但參數(shù)和 flop 也更多。例如，ParNet-L 實現(xiàn)了比 ResNet34 和 ResNet50 更快的速度和更好的準(zhǔn)確度。類似地，ParNet-XL 實現(xiàn)了比 ResNet50 更快的速度和更好的準(zhǔn)確度，但具有更多的參數(shù)和 flop。這表明使用 ParNet 代替 ResNet 時存在速度與參數(shù)和 flop 之間的權(quán)衡。請注意，可以通過利用可以分布在 GPU 上的并行子結(jié)構(gòu)來實現(xiàn)高速。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

該研究測試了 ParNet 三種變體的速度：未融合、融合和多 GPU，結(jié)果如下表 3 所示。未融合的變體由 RepVGG-SSE 塊中的 3×3 和 1×1 分支組成。在融合變體中，使用結(jié)構(gòu)重參數(shù)化技巧將 3×3 和 1×1 分支合并為一個 3×3 分支。對于融合和未融合變體，該研究使用單個 GPU 進行推理，而對于多 GPU 變體，使用了 3 個 GPU。對于多 GPU 變體，每個流都在單獨的 GPU 上啟動。當(dāng)一個流中的所有層都被處理時，來自兩個相鄰流的結(jié)果將在其中一個 GPU 上連接并進一步處理。為了跨 GPU 傳輸數(shù)據(jù)，該研究使用了 PyTorch 中的 NCCL 后端。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

該研究發(fā)現(xiàn)盡管存在通信開銷，但 ParNet 仍可以跨 GPU 有效并行化以進行快速推理。使用專門的硬件可以減少通信延遲，甚至可以實現(xiàn)更快的速度。

表 5 展示了提高 ParNet 性能的其他方法，例如使用更高分辨率的圖像、更長的訓(xùn)練機制（200 個 epoch、余弦退火）和 10-crop 測試。這項研究有助于評估非深度模型在 ImageNet 等大規(guī)模數(shù)據(jù)集上可以實現(xiàn)的準(zhǔn)確性。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

MS-COCO (Lin 等，2014) 是一個目標(biāo)檢測數(shù)據(jù)集，其中包含具有常見對象的日常場景圖像。研究者用 COCO-2017 數(shù)據(jù)集進行了評估。如下表 4 所示，即使在單個 GPU 上，ParNet 也實現(xiàn)了比基線更高的速度。這闡明了如何使用非深度網(wǎng)絡(luò)來制作快速目標(biāo)檢測系統(tǒng)。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

表 6 總結(jié)了各種網(wǎng)絡(luò)在 CIFAR10 和 CIFAR100 上的性能。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

消融實驗

為了測試是否可以簡單地減少 ResNet 的深度并使它們變寬，研究者測試了三個 ResNet 變體：ResNet12-Wide、ResNet14-Wide-BN 和 ResNet12-Wide-SSE。ResNet12-Wide 使用 ResNet 基礎(chǔ) block，深度為 12，而 ResNet14-Wide-BN 使用 ResNet 瓶頸 block，深度為 14。表 7 展示了對網(wǎng)絡(luò)架構(gòu)和訓(xùn)練協(xié)議的各種設(shè)計的消融研究結(jié)果，其中包括使用數(shù)據(jù)增強、SSE block 和 SiLU 激活函數(shù)的 3 種情況。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

在表 10 中，研究者評估了參數(shù)總數(shù)相同但分支數(shù)不同（ 1、2、3、4）的網(wǎng)絡(luò)。實驗表明，對于固定數(shù)量的參數(shù)，具有 3 個分支的網(wǎng)絡(luò)具有最高的準(zhǔn)確率，并且在網(wǎng)絡(luò)分辨率分別為 224x224 和 320x320 這兩種情況下都是最優(yōu)的。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

另一種網(wǎng)絡(luò)并行化的方法是創(chuàng)建由多個網(wǎng)絡(luò)組成的集合體。因此，該研究將 ParNet 和集成的網(wǎng)絡(luò)進行對比。如下表 9 所示，當(dāng)使用較少的參數(shù)時，ParNet 的性能優(yōu)于集成的網(wǎng)絡(luò)。

普林斯頓、英特爾提出ParNet，速度和準(zhǔn)確性顯著優(yōu)于ResNet

責(zé)任編輯：張燕妮來源：機器之心Pro

神經(jīng)網(wǎng)絡(luò)AI 算法

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營