自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="emta6"><rp id="emta6"></rp></cite>

^{<blockquote id="emta6"><i id="emta6"></i></blockquote>}

<legend id="emta6"><track id="emta6"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

作者：曉查 2021-11-01 09:44:12

新聞深度學(xué)習(xí)

“深度”是深度神經(jīng)網(wǎng)絡(luò)（DNN）的關(guān)鍵詞。但網(wǎng)絡(luò)越深也就意味著，訓(xùn)練時反向傳播的鏈條更長，推理時順序計算步驟更多、延遲更高。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

“深度”是深度神經(jīng)網(wǎng)絡(luò)（DNN）的關(guān)鍵詞。但網(wǎng)絡(luò)越深也就意味著，訓(xùn)練時反向傳播的鏈條更長，推理時順序計算步驟更多、延遲更高。

而深度如果不夠，神經(jīng)網(wǎng)絡(luò)的性能往往又不好。

這就引出了一個問題：是否有可能構(gòu)建高性能的“非深度”神經(jīng)網(wǎng)絡(luò)？

普林斯頓大學(xué)和英特爾最新的論文證明，確實能做到。

他們只用了12層網(wǎng)絡(luò)ParNet就在ImageNet上達(dá)到了接近SOTA的性能。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

ParNet在ImageNet上準(zhǔn)確率超過80%、在CIFAR10上超過 96%、在CIFAR100上top-1準(zhǔn)確率達(dá)到了81%，另外在MS-COCO上實現(xiàn)了48%的AP。

他們是如何在網(wǎng)絡(luò)這么“淺”的情況下做到的？

并行子網(wǎng)提升性能

ParNet 中的一個關(guān)鍵設(shè)計選擇是使用并行子網(wǎng)，不是按順序排列層，而是在并行子網(wǎng)中排列層。

ParNet由處理不同分辨率特征的并行子結(jié)構(gòu)組成。我們將這些并行子結(jié)構(gòu)稱為流（stream）。來自不同流的特征在網(wǎng)絡(luò)的后期融合，這些融合的特征用于下游任務(wù)。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

在 ParNet 中，作者使用VGG樣式的塊。但是對于非深度網(wǎng)絡(luò)來說，只有3×3卷積感受野比較有限。

為了解決這個問題，作者構(gòu)建了一個基于Squeeze-and-Excitation設(shè)計的 Skip-Squeeze-Excitation (SSE) 層。使用SSE模塊修改后的Rep-VGG稱之為Rep VGG-SSE。

對于ImageNet等大規(guī)模數(shù)據(jù)集，非深度網(wǎng)絡(luò)可能沒有足夠的非線性，從而限制了其表示能力。因此，作者用SiLU激活函數(shù)替代了ReLU。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

除了RepVGG-SSE塊的輸入和輸出具有相同的大小外，ParNet還包含下采樣和融合塊。

模塊降低分辨率并增加寬度以實現(xiàn)多尺度處理，而融合塊組合來自多個分辨率的信息，有助于減少推理期間的延遲。

為了在小深度下實現(xiàn)高性能，作者通過增加寬度、分辨率和流數(shù)量來擴(kuò)展ParNet。

作者表示，由于摩爾定律放緩，處理器頻率提升空間也有限，因此并行計算有利于神經(jīng)網(wǎng)絡(luò)實現(xiàn)更快的推理。而并行結(jié)構(gòu)的非深度網(wǎng)絡(luò)ParNet在這方面具有優(yōu)勢。

實際性能如何

在ImageNet數(shù)據(jù)集上，無論是Top-1還是Top-5上，ParNet都接近SOTA性能。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

在MS-COCO任務(wù)中，ParNet在性能最佳的同時，延遲最低。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

不過也有人質(zhì)疑“非深度網(wǎng)絡(luò)”的實際表現(xiàn)，因為雖然層數(shù)少，但網(wǎng)絡(luò)寬度變大，實際上ParNet比更深的ResNet50的參數(shù)還要多，似乎不太有說服力。

“非深度網(wǎng)絡(luò)”12層打敗50層，普林斯頓+英特爾：更深不一定更好

但作者也表示“非深度”網(wǎng)絡(luò)在多GPU下能發(fā)揮更大的并行計算優(yōu)勢。

最后，ParNet的GitHub頁已經(jīng)建立，代碼將在不久后開源。

責(zé)任編輯：張燕妮來源：量子位

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="u2u8u"><rp id="u2u8u"></rp></cite>

<cite id="u2u8u"></cite>