自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

比可微架構(gòu)搜索DARTS快10倍，第四范式提出優(yōu)化NAS算法

作者：Quanming Yao ，Ju Xu 2020-02-12 15:02:15

新聞深度學(xué)習(xí) 算法

神經(jīng)架構(gòu)搜索一直被認(rèn)為是高算力的代表，盡管可微架構(gòu)搜索的概念非常吸引人，但它目前的效率與效果仍然不盡人意。

神經(jīng)架構(gòu)搜索一直被認(rèn)為是高算力的代表，盡管可微架構(gòu)搜索的概念非常吸引人，但它目前的效率與效果仍然不盡人意。在最近的 AAAI 2020 中，第四范式提出了一種基于臨近迭代（Proximal Iterations）的 NAS 方法，其速度比 DARTS 快了 10 倍以上。

[[314763]]

神經(jīng)架構(gòu)搜索（NAS）因其比手工構(gòu)建的架構(gòu)更能識(shí)別出更好的架構(gòu)而備受關(guān)注。近年來(lái)，可微分的搜索方法因可以在數(shù)天內(nèi)獲得高性能的 NAS 而成為研究熱點(diǎn)。然而，由于超級(jí)網(wǎng)的建設(shè)，其仍然面臨著巨大的計(jì)算成本和性能低下的問(wèn)題。

在本文中，我們提出了一種基于近端迭代（NASP）的高效 NAS 方法。與以往的工作不同，NASP 將搜索過(guò)程重新定義為具有離散約束的優(yōu)化問(wèn)題和模型復(fù)雜度的正則化器。由于新的目標(biāo)是難以解決的，我們進(jìn)一步提出了一種高效的算法，由近端啟發(fā)法進(jìn)行優(yōu)化。

通過(guò)這種方式，NASP 不僅比現(xiàn)有的可微分的搜索方法速度快，而且還可以找到更好的體系結(jié)構(gòu)并平衡模型復(fù)雜度。最終，通過(guò)不同任務(wù)的大量實(shí)驗(yàn)表明，NASP 在測(cè)試精度和計(jì)算效率上均能獲得更好的性能，在發(fā)現(xiàn)更好的模型結(jié)構(gòu)的同時(shí)，速度比 DARTS 等現(xiàn)有技術(shù)快 10 倍以上。此外，NASP 消除了操作之間的關(guān)聯(lián)性。

論文：https://arxiv.org/abs/1905.13577
代碼：https://github.com/xujinfan/NASP-codes

此外，在 WWW 2020 的論文」Efficient Neural Interaction Functions Search for Collaborative Filtering」中，我們將 NASP 算法應(yīng)用到了推薦系統(tǒng)領(lǐng)域：

視頻：https://www.tuijianxitong.cn/cn/school/video/26
PPT：https://www.tuijianxitong.cn/cn/school/openclass/27
論文：https://arxiv.org/pdf/1906.12091
代碼：https://github.com/quanmingyao/SIF

走向極速的神經(jīng)架構(gòu)搜索

深度網(wǎng)絡(luò)已經(jīng)應(yīng)用到許多應(yīng)用中，其中，適當(dāng)?shù)捏w系結(jié)構(gòu)對(duì)于確保良好的性能至關(guān)重要。近年來(lái)，NAS 因可以找到參數(shù)更少、性能更好的網(wǎng)絡(luò)成為了關(guān)注和研究的熱點(diǎn)，該方法可取代設(shè)計(jì)架構(gòu)的人類專家。

NASNet 是這方面的先驅(qū)性工作，它將卷積神經(jīng)網(wǎng)絡(luò)（CNN）的設(shè)計(jì)為一個(gè)多步驟決策問(wèn)題，并用強(qiáng)化學(xué)習(xí)來(lái)解決。

然而，由于搜索空間離散且巨大，NASNet 需要數(shù)百個(gè) GPU 耗費(fèi)一個(gè)月的時(shí)間，才能獲得一個(gè)令人滿意的網(wǎng)絡(luò)結(jié)構(gòu)。后來(lái)，通過(guò)觀察網(wǎng)絡(luò)從小到大的良好傳輸性，NASNetA）提議將網(wǎng)絡(luò)分割成塊，并在塊或單元內(nèi)進(jìn)行搜索。然后，識(shí)別出的單元被用作構(gòu)建塊來(lái)組裝大型網(wǎng)絡(luò)。這種兩階段的搜索策略極大地減小了搜索空間的大小，從而使進(jìn)化算法、貪心算法、強(qiáng)化學(xué)習(xí)等搜索算法顯著加速。

盡管減少了搜索空間，但搜索空間仍然是離散的，通常很難有效搜索。最近的研究集中在如何將搜索空間從離散的變?yōu)榭晌⒎?。這種思想的優(yōu)點(diǎn)在于可微空間可以計(jì)算梯度信息，從而加快優(yōu)化算法的收斂速度。

該思想已經(jīng)衍生出了各種技術(shù)，例如 DARTS 平滑了 Softmax 的設(shè)計(jì)選擇，并訓(xùn)練了一組網(wǎng)絡(luò)；SNAS 通過(guò)平滑抽樣方案加強(qiáng)強(qiáng)化學(xué)習(xí)。NAO 使用自動(dòng)編碼器將搜索空間映射到新的可微空間。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

在所有這些工作中（Table 1），最為出色的是 DARTS [1]，因?yàn)樗Y(jié)合了可微分以及小搜索空間兩者的優(yōu)點(diǎn)，實(shí)現(xiàn)了單元內(nèi)的快速梯度下降。然而，其搜索效率和識(shí)別體系結(jié)構(gòu)的性能仍然不夠令人滿意。

由于它在搜索過(guò)程中保持超級(jí)網(wǎng)，從計(jì)算的角度來(lái)看，所有操作都需要在梯度下降過(guò)程中向前和向后傳播。從性能的角度來(lái)看，操作通常是相互關(guān)聯(lián)的。例如，7x7 的卷積濾波器可以作為特例覆蓋 3x3 的濾波器。當(dāng)更新網(wǎng)絡(luò)權(quán)值時(shí)，由 DARTS 構(gòu)造的 ensemble 可能會(huì)導(dǎo)致發(fā)現(xiàn)劣質(zhì)的體系結(jié)構(gòu)。

此外，DARTS 最終的結(jié)構(gòu)需要在搜索后重新確定。這會(huì)導(dǎo)致搜索的體系結(jié)構(gòu)和最終體系結(jié)構(gòu)之間存在偏差，并可能導(dǎo)致最終體系結(jié)構(gòu)的性能下降。

更快更強(qiáng)的臨近迭代

在此次工作中，第四范式提出了基于臨近迭代算子算法（Proximal gradient Algorithm [2]）的 NAS 方法（NASP），以提高現(xiàn)有的可微搜索方法的效率和性能。我們給出了一個(gè)新的 NAS 問(wèn)題的公式和優(yōu)化算法，它允許在可微空間中搜索，同時(shí)保持離散的結(jié)構(gòu)。這樣，NASP 就不再需要訓(xùn)練一個(gè)超級(jí)網(wǎng)，從而加快搜索速度，從而產(chǎn)生更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

該工作的貢獻(xiàn)在于：

除了以往 NAS 普遍討論的搜索空間、完備性和模型復(fù)雜度之外，該工作確定了一個(gè)全新且重要的一個(gè)因素，即 NAS 對(duì)體系結(jié)構(gòu)的約束；
我們將 NAS 描述為一個(gè)約束優(yōu)化問(wèn)題，保持空間可微，但強(qiáng)制架構(gòu)在搜索過(guò)程中是離散的，即在反向梯度傳播的時(shí)候盡量維持少量激活的操作。這有助于提高搜索效率并在訓(xùn)練過(guò)程中分離不同的操作。正則化器也被引入到新目標(biāo)中，從而控制網(wǎng)絡(luò)結(jié)構(gòu)的大?。?/li>
由于這種離散約束難以優(yōu)化，且無(wú)法應(yīng)用簡(jiǎn)單的 DARTS 自適應(yīng)。因此，第四范式提出了一種由近端迭代衍生的新優(yōu)化算法，并且消除了 DARTS 所需的昂貴二階近似，為保證算法的收斂性，我們更進(jìn)一步進(jìn)行了理論分析。
最后，在設(shè)計(jì) CNN 和 RNN 架構(gòu)時(shí)，使用各種基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。與最先進(jìn)的方法相比，提出的 NASP 不僅速度快（比 DARTS 快 10 倍以上），而且可以發(fā)現(xiàn)更好的模型結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明，NASP 在測(cè)試精度和計(jì)算效率上均能獲得更好的性能。

具體算法如下：

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

在第三步中，我們利用臨近迭代算子產(chǎn)生離散結(jié)構(gòu)；再在第四步中更新連續(xù)的結(jié)構(gòu)參數(shù)（單步梯度下降，無(wú)二階近似）；最后，我們?cè)陔x散的網(wǎng)絡(luò)結(jié)構(gòu)下，更新網(wǎng)絡(luò)權(quán)重。

實(shí)驗(yàn)結(jié)果

該工作利用搜索 CNN 和 RNN 結(jié)構(gòu)來(lái)進(jìn)行實(shí)驗(yàn)。此次試驗(yàn)使用 CIFAR-10、ImageNet、PTB、WT2 等四個(gè)數(shù)據(jù)集。

CNN 的架構(gòu)搜索

1. 在 CIFAR-10 上搜索單元

在 CIFAR-10 上搜索架構(gòu)相同，卷積單元由 N=7 個(gè)節(jié)點(diǎn)組成，通過(guò)對(duì)單元進(jìn)行 8 次疊加獲得網(wǎng)絡(luò)；在搜索過(guò)程中，我們訓(xùn)練了一個(gè)由 8 個(gè)單元疊加的 50 個(gè)周期的小網(wǎng)絡(luò)。這里考慮兩個(gè)不同的搜索空間。第一個(gè)與 DARTS 相同，包含 7 個(gè)操作。第二個(gè)更大，包含 12 個(gè)操作。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

與最新的 NAS 方法相比，在相同的空間（7 次操作）中，NASP 的性能與 DARTS（二階）相當(dāng)，比 DARTS（一階）好得多。在更大的空間（12 個(gè)操作）中，NASP 仍然比 DARTS 快很多，測(cè)試誤差比其他方法更低很多。

在以上實(shí)驗(yàn)中，研究人員對(duì)模型復(fù)雜度進(jìn)行了正則化，我們?cè)O(shè)置了的η＝0。結(jié)果顯示，模型尺寸隨著η的增大而變小。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

2.遷移到 ImageNet

為了探索實(shí)驗(yàn)中搜索到的單元在 ImageNet 上的遷移能力，我們將搜索到的單元堆疊了 14 次。值得注意的是，NASP 可以用最先進(jìn)的方法實(shí)現(xiàn)競(jìng)爭(zhēng)性測(cè)試誤差。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

RNN 的架構(gòu)搜索

1. 在 PTB 上搜索單元

根據(jù) DARTS 的設(shè)置，遞歸單元由 N=12 個(gè)節(jié)點(diǎn)組成；第一個(gè)中間節(jié)點(diǎn)通過(guò)線性變換兩個(gè)輸入節(jié)點(diǎn)，將結(jié)果相加，然后通過(guò) tanh 激活函數(shù)得到；第一個(gè)中間節(jié)點(diǎn)的結(jié)果應(yīng)為由激活函數(shù)轉(zhuǎn)換而成。

在搜索過(guò)程中，我們訓(xùn)練了一個(gè)序列長(zhǎng)度為 35 的 50 個(gè)階段的小網(wǎng)絡(luò)。為了評(píng)估在 PTB 上搜索到單元的性能，使用所發(fā)現(xiàn)的單元對(duì)單層遞歸網(wǎng)絡(luò)進(jìn)行最多 8000 個(gè)階段的訓(xùn)練，直到與批處理大小 64 收斂。實(shí)驗(yàn)結(jié)果顯示，DARTS 的二階比一階慢得多，NASP 不僅比 DARTS 快得多，而且可以達(dá)到與其他最先進(jìn)的方法相當(dāng)?shù)臏y(cè)試性能。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

模型簡(jiǎn)化測(cè)試

1. 對(duì)比 DARTS

實(shí)驗(yàn)給出了更新網(wǎng)絡(luò)參數(shù)（即 w）和架構(gòu)（即 A）的詳細(xì)比較。在相同的搜索時(shí)間內(nèi)，NASP 可以獲得更高的精度，且 NASP 在相同的精度下花費(fèi)更少的時(shí)間。這進(jìn)一步驗(yàn)證了 NASP 比 DARTS 效率更高。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

2. 與同期工作比較

實(shí)驗(yàn)中也加入了與同期工作的比較。ASAP 與 BayesNAS 將 NAS 作為一個(gè)網(wǎng)絡(luò)修剪問(wèn)題，該工作刪除了在搜索過(guò)程中無(wú)效的操作。ASNG 和 GDAS 都對(duì)搜索空間進(jìn)行隨機(jī)松弛，區(qū)別在于 ASNG 使用自然梯度下降進(jìn)行優(yōu)化，而 GDAS 使用 Gumbel-Max 技巧進(jìn)行梯度下降。此次實(shí)驗(yàn)將 NASP 與這些工作進(jìn)行比較，實(shí)驗(yàn)表明，NASP 更有效，可在 CNN 任務(wù)上提供更好的性能。此外，NASP 還可以應(yīng)用于 RNN。

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

æ¯”å¯å¾®æž¶æž„æœç´¢DARTSå¿«10å€ï¼Œç¬¬å››èŒƒå¼æå‡ºä¼˜åŒ–NASç®—æ³•

[1]. Liu, H.; Simonyan, K.; and Yang, Y. DARTS: Differentiable architecture search. In ICLR 2019
[2]. Parikh, N., and Boyd, S. Proximal algorithms. Foundations and Trends in Optimization 2013

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

人工智能機(jī)器學(xué)習(xí)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="7rnl8"><track id="7rnl8"><menuitem id="7rnl8"></menuitem></track></legend>

<p id="7rnl8"></p>

<thead id="7rnl8"><rt id="7rnl8"></rt></thead>

<cite id="7rnl8"><track id="7rnl8"><dfn id="7rnl8"></dfn></track></cite>