自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何提高存儲(chǔ)、傳輸效率?參數(shù)集約型掩碼網(wǎng)絡(luò)效果顯著

人工智能 新聞
美國(guó)東北大學(xué),羅切斯特理工等研究者提出參數(shù)集約型掩碼網(wǎng)絡(luò),探索有限數(shù)量隨機(jī)數(shù)的表征能力并提升神經(jīng)網(wǎng)絡(luò)儲(chǔ)存和傳輸效率。

為了處理更復(fù)雜的任務(wù),近年來(lái)神經(jīng)網(wǎng)絡(luò)的規(guī)模也在不斷變大,如何高效的儲(chǔ)存和傳輸神經(jīng)網(wǎng)絡(luò)變得十分重要。另一方面,隨著彩票假說(shuō)(Lottery Ticket Hypothesis (LTH))的提出,隨機(jī)稀疏神經(jīng)網(wǎng)絡(luò)最近展現(xiàn)出很強(qiáng)的潛力,如何利用這種潛力來(lái)提高網(wǎng)絡(luò)的存儲(chǔ)和傳輸效率也很值得探索。

來(lái)自美國(guó)東北大學(xué)和羅切斯特理工的研究者提出參數(shù)集約型掩碼網(wǎng)絡(luò)(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限數(shù)量隨機(jī)數(shù)生成的隨機(jī)網(wǎng)絡(luò)的表征能力。實(shí)驗(yàn)表明,即使網(wǎng)絡(luò)由有限數(shù)量的隨機(jī)數(shù)生成,通過(guò)選擇不同的子網(wǎng)絡(luò)結(jié)構(gòu),其依然具有很好的表征能力。

通過(guò)這種探索性實(shí)驗(yàn),作者自然地提出使用一組有限數(shù)量隨機(jī)數(shù)作為 prototype,結(jié)合一組 mask 來(lái)表達(dá)一個(gè)神經(jīng)網(wǎng)絡(luò)。因?yàn)橛邢迶?shù)量的隨機(jī)數(shù)和二值的 mask 占用很少的儲(chǔ)存空間,作者以此來(lái)提出一種新的思路來(lái)進(jìn)行網(wǎng)絡(luò)壓縮。文章已被 NeurIPS 2022 接受。代碼已開(kāi)源。

圖片

  • 論文地址: https://arxiv.org/abs/2210.06699
  • 論文代碼:  https://github.com/yueb17/PEMN

1. 相關(guān)研究

MIT 研究人員提出彩票假說(shuō) Lottery Ticket Hypothesis (ICLR’19):在一個(gè)隨機(jī)初始化網(wǎng)絡(luò)中,存在一個(gè)彩票子網(wǎng)絡(luò)(winning ticket)在被單獨(dú)訓(xùn)練的情況下達(dá)到很好的效果。彩票假說(shuō)探索了隨機(jī)稀疏網(wǎng)絡(luò)的可訓(xùn)練性。Uber 研究人員提出 Supermask (NeurIPS’19):在一個(gè)隨機(jī)初始化網(wǎng)絡(luò)中,存在一個(gè)子網(wǎng)絡(luò),可以直接用來(lái)做推斷而不需要訓(xùn)練。Supermask 探索了隨機(jī)稀疏網(wǎng)絡(luò)的可用性。華盛頓大學(xué)研究人員提出 Edge-Popup (CVPR’20):通過(guò)反向傳播學(xué)習(xí)子網(wǎng)絡(luò)的 mask,大幅提升了隨機(jī)稀疏網(wǎng)絡(luò)的可用性。

2. 研究動(dòng)機(jī) / 流程

以上相關(guān)研究從不同角度探索了隨機(jī)稀疏網(wǎng)絡(luò)的潛力,如可訓(xùn)練性和可用性,其中可用性也可以理解為表征能力。在此工作中,作者感興趣的是由隨機(jī)數(shù)生成的神經(jīng)網(wǎng)絡(luò)在不訓(xùn)練權(quán)重的情況下有多強(qiáng)的表征能力。隨著對(duì)該問(wèn)題的探索,作者提出了 Parameter-Efficient Masking Networks (PEMN)。自然地,作者運(yùn)用 PEMN 為網(wǎng)絡(luò)壓縮提供了一種新的思路,并作為一個(gè)例子對(duì) PEMN 的潛在應(yīng)用場(chǎng)景進(jìn)行探索。

3. 探索隨機(jī)數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力

給定一個(gè)隨機(jī)網(wǎng)絡(luò),作者選擇 Edge-Popup 算法在其中選擇子網(wǎng)絡(luò)來(lái)探索其表征能力。不同的是,相對(duì)于對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行隨機(jī)初始化,作者提出了三種參數(shù)集約型的網(wǎng)絡(luò)生成策略來(lái)使用一個(gè) prototype 構(gòu)建隨機(jī)網(wǎng)絡(luò)。

  • One-layer: 選擇網(wǎng)絡(luò)中重復(fù)結(jié)構(gòu)的權(quán)重作為 prototype 來(lái)填充其他的與之結(jié)構(gòu)相同的網(wǎng)絡(luò)層。
  • Max-layer padding (MP): 選擇參數(shù)量最多的網(wǎng)絡(luò)層作為 prototype 并且截?cái)嘞鄳?yīng)的參數(shù)量來(lái)填充其他網(wǎng)絡(luò)層。
  • Random vector padding (RP): 選擇一定長(zhǎng)度的隨機(jī)向量作為 prototype 并對(duì)其進(jìn)行復(fù)制來(lái)填充整個(gè)網(wǎng)絡(luò)。

三種不同的隨機(jī)網(wǎng)絡(luò)生成策略把網(wǎng)絡(luò)中不重復(fù)參數(shù)值(unique values)的數(shù)量逐步變小,我們基于不同策略得到的隨機(jī)網(wǎng)絡(luò)來(lái)選擇子網(wǎng)絡(luò),從而探索了有限數(shù)量隨機(jī)數(shù)生成的隨機(jī)網(wǎng)絡(luò)的表征潛力。

圖片

上圖展示了使用 ConvMixer 和 ViT 網(wǎng)絡(luò) CIFAR10 圖像分類的實(shí)驗(yàn)結(jié)果。Y 軸為準(zhǔn)確率,X 軸為使用不同策略得到的隨機(jī)網(wǎng)絡(luò)。隨之 X 軸的變大,隨機(jī)網(wǎng)絡(luò)中不重復(fù)隨機(jī)數(shù)數(shù)量逐漸變小 (RP 后的數(shù)字表示相比較于 MP,RP 中不重復(fù)隨機(jī)數(shù)數(shù)量的比例)。

根據(jù)實(shí)驗(yàn)結(jié)果,我們觀察到即使隨機(jī)網(wǎng)絡(luò)只有非常有限的不重復(fù)隨機(jī)數(shù)(比如 PR_1e-3),依然可以很好的維持選擇出來(lái)的子網(wǎng)絡(luò)的表征能力。至此,作者通過(guò)不同的隨機(jī)網(wǎng)絡(luò)生成策略,探索了有限數(shù)量隨機(jī)數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力并觀察到即使不重復(fù)隨機(jī)數(shù)非常有限,其對(duì)應(yīng)的隨機(jī)網(wǎng)絡(luò)依然可以很好地對(duì)數(shù)據(jù)進(jìn)行表征。

同時(shí)作者基于這些隨機(jī)網(wǎng)絡(luò)生成策略,結(jié)合所得到的子網(wǎng)絡(luò)掩碼,提出了 Parameter-Efficient Masking Networks(PEMN)這種新的神經(jīng)網(wǎng)絡(luò)類型。

4. 一種新的網(wǎng)絡(luò)壓縮思路

本文選擇了神經(jīng)網(wǎng)路壓縮為例來(lái)拓展 PEMN 的潛在應(yīng)用。具體來(lái)說(shuō),文中所提出的不同隨機(jī)網(wǎng)絡(luò)生成策略可以高效的使用 prototype 來(lái)代表完整的隨機(jī)網(wǎng)絡(luò),尤其是最細(xì)粒度的 random vector padding (RP)策略。

作者使用 RP 策略中的隨機(jī)向量 prototype 和與之對(duì)應(yīng)的一組子網(wǎng)絡(luò)掩碼來(lái)表示一個(gè)隨機(jī)網(wǎng)絡(luò)。在其中 prototype 需要保存浮點(diǎn)數(shù)格式,而掩碼只需要保存成二值格式。因?yàn)?RP 中的 prototype 長(zhǎng)度可以很短(因?yàn)橛邢迶?shù)量的不重復(fù)隨機(jī)數(shù)仍有很強(qiáng)的表征能力),所以表示一個(gè)神經(jīng)網(wǎng)絡(luò)的開(kāi)銷會(huì)變得很小,即儲(chǔ)存一個(gè)長(zhǎng)度有限的浮點(diǎn)數(shù)格式的隨機(jī)向量和一組二值格式的掩碼。相比較于傳統(tǒng)的稀疏網(wǎng)絡(luò)儲(chǔ)存子網(wǎng)絡(luò)的浮點(diǎn)值,本文提出了一種新的網(wǎng)絡(luò)壓縮思路用來(lái)高效的儲(chǔ)存和傳輸神經(jīng)網(wǎng)絡(luò)。

圖片

在上圖中,作者使用 PEMN 對(duì)網(wǎng)絡(luò)進(jìn)行壓縮并與傳統(tǒng)的網(wǎng)絡(luò)剪枝方法進(jìn)行對(duì)比。實(shí)驗(yàn)使用 ResNet 網(wǎng)絡(luò)在 CIFAR 數(shù)據(jù)集做圖像分類任務(wù)。我們觀察到,新的壓縮方案表現(xiàn)普遍優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)剪枝,尤其是在很高的壓縮率下,PEMN 仍然可以維持較好的準(zhǔn)確率。

5. 結(jié)論

本文受近來(lái)隨機(jī)網(wǎng)絡(luò)展現(xiàn)出來(lái)的潛力所啟發(fā),提出不同種參數(shù)集約策略來(lái)構(gòu)建隨機(jī)神經(jīng)網(wǎng)絡(luò),進(jìn)而探索了在只有有限的不重復(fù)隨機(jī)數(shù)的情況下所生成的隨機(jī)神經(jīng)網(wǎng)絡(luò)的表征潛力,并提出參數(shù)集約型掩碼網(wǎng)絡(luò) Parameter-Efficient Masking Networks (PEMN)。作者將 PEMN 應(yīng)用到網(wǎng)絡(luò)壓縮的場(chǎng)景中探索了其在實(shí)際應(yīng)用方面的潛力并且為網(wǎng)絡(luò)壓縮提供了一種新的思路。作者提供了廣泛的實(shí)驗(yàn),表明即使隨機(jī)網(wǎng)絡(luò)中只有非常有限的不重復(fù)隨機(jī)數(shù),通過(guò)子網(wǎng)絡(luò)的選擇,其依然有較好的表征能力。此外,相比較于傳統(tǒng)剪枝算法,實(shí)驗(yàn)表明新提出的方法可以取得更好的網(wǎng)絡(luò)壓縮效果,驗(yàn)證了 PEMN 在該場(chǎng)景下的應(yīng)用潛力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-11-13 09:58:55

釣魚(yú)網(wǎng)站網(wǎng)絡(luò)安全

2013-01-24 15:57:47

2022-03-16 09:33:13

模型算法智能

2017-04-18 12:52:54

華為

2024-03-25 11:42:50

2021-06-25 14:34:07

自動(dòng)化數(shù)據(jù)中心人工智能

2013-01-06 16:08:43

風(fēng)險(xiǎn)評(píng)估信息安全

2023-04-03 16:21:20

數(shù)字孿生數(shù)字建筑

2009-07-24 16:25:57

遠(yuǎn)程診斷遠(yuǎn)程協(xié)助

2010-03-12 10:53:57

智能交換機(jī)

2018-05-24 08:47:15

數(shù)據(jù)存儲(chǔ)技巧

2009-06-24 09:37:18

CCNPVLAN設(shè)置

2016-05-09 10:08:05

IBMIBM FlashSy

2023-06-25 09:55:04

模型方案

2021-04-27 06:52:49

團(tuán)隊(duì)研發(fā)效率

2009-11-27 15:24:48

PHP遞歸效率

2020-04-30 16:15:04

物聯(lián)網(wǎng)IoT工業(yè)效率

2023-12-29 15:24:56

物聯(lián)網(wǎng)通信能源管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)