自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比可微架構(gòu)搜索DARTS快10倍,第四范式提出優(yōu)化NAS算法

新聞 深度學(xué)習(xí) 算法
神經(jīng)架構(gòu)搜索一直被認(rèn)為是高算力的代表,盡管可微架構(gòu)搜索的概念非常吸引人,但它目前的效率與效果仍然不盡人意。

 神經(jīng)架構(gòu)搜索一直被認(rèn)為是高算力的代表,盡管可微架構(gòu)搜索的概念非常吸引人,但它目前的效率與效果仍然不盡人意。在最近的 AAAI 2020 中,第四范式提出了一種基于臨近迭代(Proximal Iterations)的 NAS 方法,其速度比 DARTS 快了 10 倍以上。

[[314763]]

神經(jīng)架構(gòu)搜索(NAS)因其比手工構(gòu)建的架構(gòu)更能識(shí)別出更好的架構(gòu)而備受關(guān)注。近年來(lái),可微分的搜索方法因可以在數(shù)天內(nèi)獲得高性能的 NAS 而成為研究熱點(diǎn)。然而,由于超級(jí)網(wǎng)的建設(shè),其仍然面臨著巨大的計(jì)算成本和性能低下的問(wèn)題。

在本文中,我們提出了一種基于近端迭代(NASP)的高效 NAS 方法。與以往的工作不同,NASP 將搜索過(guò)程重新定義為具有離散約束的優(yōu)化問(wèn)題和模型復(fù)雜度的正則化器。由于新的目標(biāo)是難以解決的,我們進(jìn)一步提出了一種高效的算法,由近端啟發(fā)法進(jìn)行優(yōu)化。

通過(guò)這種方式,NASP 不僅比現(xiàn)有的可微分的搜索方法速度快,而且還可以找到更好的體系結(jié)構(gòu)并平衡模型復(fù)雜度。最終,通過(guò)不同任務(wù)的大量實(shí)驗(yàn)表明,NASP 在測(cè)試精度和計(jì)算效率上均能獲得更好的性能,在發(fā)現(xiàn)更好的模型結(jié)構(gòu)的同時(shí),速度比 DARTS 等現(xiàn)有技術(shù)快 10 倍以上。此外,NASP 消除了操作之間的關(guān)聯(lián)性。

  • 論文:https://arxiv.org/abs/1905.13577
  • 代碼:https://github.com/xujinfan/NASP-codes

此外,在 WWW 2020 的論文」Efficient Neural Interaction Functions Search for Collaborative Filtering」中,我們將 NASP 算法應(yīng)用到了推薦系統(tǒng)領(lǐng)域:

  • 視頻:https://www.tuijianxitong.cn/cn/school/video/26
  • PPT:https://www.tuijianxitong.cn/cn/school/openclass/27
  • 論文:https://arxiv.org/pdf/1906.12091
  • 代碼:https://github.com/quanmingyao/SIF

走向極速的神經(jīng)架構(gòu)搜索

 深度網(wǎng)絡(luò)已經(jīng)應(yīng)用到許多應(yīng)用中,其中,適當(dāng)?shù)捏w系結(jié)構(gòu)對(duì)于確保良好的性能至關(guān)重要。近年來(lái),NAS 因可以找到參數(shù)更少、性能更好的網(wǎng)絡(luò)成為了關(guān)注和研究的熱點(diǎn),該方法可取代設(shè)計(jì)架構(gòu)的人類專家。

NASNet 是這方面的先驅(qū)性工作,它將卷積神經(jīng)網(wǎng)絡(luò)(CNN)的設(shè)計(jì)為一個(gè)多步驟決策問(wèn)題,并用強(qiáng)化學(xué)習(xí)來(lái)解決。

然而,由于搜索空間離散且巨大,NASNet 需要數(shù)百個(gè) GPU 耗費(fèi)一個(gè)月的時(shí)間,才能獲得一個(gè)令人滿意的網(wǎng)絡(luò)結(jié)構(gòu)。后來(lái),通過(guò)觀察網(wǎng)絡(luò)從小到大的良好傳輸性,NASNetA)提議將網(wǎng)絡(luò)分割成塊,并在塊或單元內(nèi)進(jìn)行搜索。然后,識(shí)別出的單元被用作構(gòu)建塊來(lái)組裝大型網(wǎng)絡(luò)。這種兩階段的搜索策略極大地減小了搜索空間的大小,從而使進(jìn)化算法、貪心算法、強(qiáng)化學(xué)習(xí)等搜索算法顯著加速。

盡管減少了搜索空間,但搜索空間仍然是離散的,通常很難有效搜索。最近的研究集中在如何將搜索空間從離散的變?yōu)榭晌⒎?。這種思想的優(yōu)點(diǎn)在于可微空間可以計(jì)算梯度信息,從而加快優(yōu)化算法的收斂速度。

該思想已經(jīng)衍生出了各種技術(shù),例如 DARTS 平滑了 Softmax 的設(shè)計(jì)選擇,并訓(xùn)練了一組網(wǎng)絡(luò);SNAS 通過(guò)平滑抽樣方案加強(qiáng)強(qiáng)化學(xué)習(xí)。NAO 使用自動(dòng)編碼器將搜索空間映射到新的可微空間。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

在所有這些工作中(Table 1),最為出色的是 DARTS [1],因?yàn)樗Y(jié)合了可微分以及小搜索空間兩者的優(yōu)點(diǎn),實(shí)現(xiàn)了單元內(nèi)的快速梯度下降。然而,其搜索效率和識(shí)別體系結(jié)構(gòu)的性能仍然不夠令人滿意。

由于它在搜索過(guò)程中保持超級(jí)網(wǎng),從計(jì)算的角度來(lái)看,所有操作都需要在梯度下降過(guò)程中向前和向后傳播。從性能的角度來(lái)看,操作通常是相互關(guān)聯(lián)的。例如,7x7 的卷積濾波器可以作為特例覆蓋 3x3 的濾波器。當(dāng)更新網(wǎng)絡(luò)權(quán)值時(shí),由 DARTS 構(gòu)造的 ensemble 可能會(huì)導(dǎo)致發(fā)現(xiàn)劣質(zhì)的體系結(jié)構(gòu)。

此外,DARTS 最終的結(jié)構(gòu)需要在搜索后重新確定。這會(huì)導(dǎo)致搜索的體系結(jié)構(gòu)和最終體系結(jié)構(gòu)之間存在偏差,并可能導(dǎo)致最終體系結(jié)構(gòu)的性能下降。

更快更強(qiáng)的臨近迭代

在此次工作中,第四范式提出了基于臨近迭代算子算法(Proximal gradient Algorithm [2])的 NAS 方法(NASP),以提高現(xiàn)有的可微搜索方法的效率和性能。我們給出了一個(gè)新的 NAS 問(wèn)題的公式和優(yōu)化算法,它允許在可微空間中搜索,同時(shí)保持離散的結(jié)構(gòu)。這樣,NASP 就不再需要訓(xùn)練一個(gè)超級(jí)網(wǎng),從而加快搜索速度,從而產(chǎn)生更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

該工作的貢獻(xiàn)在于:

  • 除了以往 NAS 普遍討論的搜索空間、完備性和模型復(fù)雜度之外,該工作確定了一個(gè)全新且重要的一個(gè)因素,即 NAS 對(duì)體系結(jié)構(gòu)的約束;
  • 我們將 NAS 描述為一個(gè)約束優(yōu)化問(wèn)題,保持空間可微,但強(qiáng)制架構(gòu)在搜索過(guò)程中是離散的,即在反向梯度傳播的時(shí)候盡量維持少量激活的操作。這有助于提高搜索效率并在訓(xùn)練過(guò)程中分離不同的操作。正則化器也被引入到新目標(biāo)中,從而控制網(wǎng)絡(luò)結(jié)構(gòu)的大?。?/li>
  • 由于這種離散約束難以優(yōu)化,且無(wú)法應(yīng)用簡(jiǎn)單的 DARTS 自適應(yīng)。因此,第四范式提出了一種由近端迭代衍生的新優(yōu)化算法,并且消除了 DARTS 所需的昂貴二階近似,為保證算法的收斂性,我們更進(jìn)一步進(jìn)行了理論分析。
  • 最后,在設(shè)計(jì) CNN 和 RNN 架構(gòu)時(shí),使用各種基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。與最先進(jìn)的方法相比,提出的 NASP 不僅速度快(比 DARTS 快 10 倍以上),而且可以發(fā)現(xiàn)更好的模型結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,NASP 在測(cè)試精度和計(jì)算效率上均能獲得更好的性能。

具體算法如下:

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

在第三步中,我們利用臨近迭代算子產(chǎn)生離散結(jié)構(gòu);再在第四步中更新連續(xù)的結(jié)構(gòu)參數(shù)(單步梯度下降,無(wú)二階近似);最后,我們?cè)陔x散的網(wǎng)絡(luò)結(jié)構(gòu)下,更新網(wǎng)絡(luò)權(quán)重。

實(shí)驗(yàn)結(jié)果

該工作利用搜索 CNN 和 RNN 結(jié)構(gòu)來(lái)進(jìn)行實(shí)驗(yàn)。此次試驗(yàn)使用 CIFAR-10、ImageNet、PTB、WT2 等四個(gè)數(shù)據(jù)集。

CNN 的架構(gòu)搜索

1. 在 CIFAR-10 上搜索單元

在 CIFAR-10 上搜索架構(gòu)相同,卷積單元由 N=7 個(gè)節(jié)點(diǎn)組成,通過(guò)對(duì)單元進(jìn)行 8 次疊加獲得網(wǎng)絡(luò);在搜索過(guò)程中,我們訓(xùn)練了一個(gè)由 8 個(gè)單元疊加的 50 個(gè)周期的小網(wǎng)絡(luò)。這里考慮兩個(gè)不同的搜索空間。第一個(gè)與 DARTS 相同,包含 7 個(gè)操作。第二個(gè)更大,包含 12 個(gè)操作。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

與最新的 NAS 方法相比,在相同的空間(7 次操作)中,NASP 的性能與 DARTS(二階)相當(dāng),比 DARTS(一階)好得多。在更大的空間(12 個(gè)操作)中,NASP 仍然比 DARTS 快很多,測(cè)試誤差比其他方法更低很多。

在以上實(shí)驗(yàn)中,研究人員對(duì)模型復(fù)雜度進(jìn)行了正則化,我們?cè)O(shè)置了的η=0。結(jié)果顯示,模型尺寸隨著η的增大而變小。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

2.遷移到 ImageNet

為了探索實(shí)驗(yàn)中搜索到的單元在 ImageNet 上的遷移能力,我們將搜索到的單元堆疊了 14 次。值得注意的是,NASP 可以用最先進(jìn)的方法實(shí)現(xiàn)競(jìng)爭(zhēng)性測(cè)試誤差。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

RNN 的架構(gòu)搜索

1. 在 PTB 上搜索單元

根據(jù) DARTS 的設(shè)置,遞歸單元由 N=12 個(gè)節(jié)點(diǎn)組成;第一個(gè)中間節(jié)點(diǎn)通過(guò)線性變換兩個(gè)輸入節(jié)點(diǎn),將結(jié)果相加,然后通過(guò) tanh 激活函數(shù)得到;第一個(gè)中間節(jié)點(diǎn)的結(jié)果應(yīng)為由激活函數(shù)轉(zhuǎn)換而成。

在搜索過(guò)程中,我們訓(xùn)練了一個(gè)序列長(zhǎng)度為 35 的 50 個(gè)階段的小網(wǎng)絡(luò)。為了評(píng)估在 PTB 上搜索到單元的性能,使用所發(fā)現(xiàn)的單元對(duì)單層遞歸網(wǎng)絡(luò)進(jìn)行最多 8000 個(gè)階段的訓(xùn)練,直到與批處理大小 64 收斂。實(shí)驗(yàn)結(jié)果顯示,DARTS 的二階比一階慢得多,NASP 不僅比 DARTS 快得多,而且可以達(dá)到與其他最先進(jìn)的方法相當(dāng)?shù)臏y(cè)試性能。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

模型簡(jiǎn)化測(cè)試

1. 對(duì)比 DARTS

實(shí)驗(yàn)給出了更新網(wǎng)絡(luò)參數(shù)(即 w)和架構(gòu)(即 A)的詳細(xì)比較。在相同的搜索時(shí)間內(nèi),NASP 可以獲得更高的精度,且 NASP 在相同的精度下花費(fèi)更少的時(shí)間。這進(jìn)一步驗(yàn)證了 NASP 比 DARTS 效率更高。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

2. 與同期工作比較

實(shí)驗(yàn)中也加入了與同期工作的比較。ASAP 與 BayesNAS 將 NAS 作為一個(gè)網(wǎng)絡(luò)修剪問(wèn)題,該工作刪除了在搜索過(guò)程中無(wú)效的操作。ASNG 和 GDAS 都對(duì)搜索空間進(jìn)行隨機(jī)松弛,區(qū)別在于 ASNG 使用自然梯度下降進(jìn)行優(yōu)化,而 GDAS 使用 Gumbel-Max 技巧進(jìn)行梯度下降。此次實(shí)驗(yàn)將 NASP 與這些工作進(jìn)行比較,實(shí)驗(yàn)表明,NASP 更有效,可在 CNN 任務(wù)上提供更好的性能。此外,NASP 還可以應(yīng)用于 RNN。

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

比可微架构搜索DARTS快10倍,第四范式提出优化NAS算法

[1]. Liu, H.; Simonyan, K.; and Yang, Y. DARTS: Differentiable architecture search. In ICLR 2019
[2]. Parikh, N., and Boyd, S. Proximal algorithms. Foundations and Trends in Optimization 2013
 

 


 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-04-07 08:17:39

fasthttp場(chǎng)景設(shè)計(jì)HTTP

2019-12-23 10:22:05

AI 數(shù)據(jù)人工智能

2025-03-12 09:35:45

2022-11-02 08:12:47

TurbopackVite

2011-06-29 09:31:58

3G4G5G

2015-01-16 10:43:09

WiGigWiFi

2021-08-30 11:48:26

數(shù)字化

2022-10-27 08:31:31

架構(gòu)

2024-03-26 10:13:54

日志引擎SigLens

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-05-26 09:13:16

2025-03-25 10:40:53

2024-11-26 07:43:21

2021-03-08 09:05:47

數(shù)據(jù)傳輸新線纜數(shù)據(jù)中心

2023-02-21 13:32:09

Linux 6.3操作系統(tǒng)

2021-01-22 10:09:32

第四范式D輪7億美元融資

2014-09-11 16:30:03

系統(tǒng)架構(gòu)算法實(shí)戰(zhàn)

2021-09-02 16:00:06

算法開(kāi)源技術(shù)

2021-07-28 14:20:13

正則PythonFlashText

2023-05-26 10:15:34

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)