自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nav id="renjn"></nav>

<em id="renjn"></em>

^{<tt id="renjn"></tt>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

作者：AI火箭營(yíng) 2020-08-03 11:43:01

人工智能深度學(xué)習(xí)

梯度下降是機(jī)器學(xué)習(xí)中最重要的思想之一：給定一些代價(jià)函數(shù)以使其最小化，該算法迭代地采取最大下降斜率的步驟，理論上在經(jīng)過足夠的迭代次數(shù)后才達(dá)到最小值?？挛?Cauchy)于1847年首次發(fā)現(xiàn)，在1944年針對(duì)非線性優(yōu)化問題在Haskell Curry上得到擴(kuò)展，梯度下降已用于從線性回歸到深度神經(jīng)網(wǎng)絡(luò)的各種算法。

[[336078]]

梯度下降是機(jī)器學(xué)習(xí)中最重要的思想之一：給定一些代價(jià)函數(shù)以使其最小化，該算法迭代地采取最大下降斜率的步驟，理論上在經(jīng)過足夠的迭代次數(shù)后才達(dá)到最小值?？挛?Cauchy)于1847年首次發(fā)現(xiàn)，在1944年針對(duì)非線性優(yōu)化問題在Haskell Curry上得到擴(kuò)展，梯度下降已用于從線性回歸到深度神經(jīng)網(wǎng)絡(luò)的各種算法。

雖然梯度下降及其反向傳播形式的重新用途已成為機(jī)器學(xué)習(xí)的最大突破之一，但神經(jīng)網(wǎng)絡(luò)的優(yōu)化仍然是一個(gè)尚未解決的問題?；ヂ?lián)網(wǎng)上的許多人都愿意宣稱"梯度下降很爛"，盡管可能有些遙遠(yuǎn)，但梯度下降確實(shí)存在許多問題。

優(yōu)化程序陷入了足夠深的局部最小值中。誠然，有一些聰明的解決方案有時(shí)可以解決這些問題，例如動(dòng)量，它可以使優(yōu)化器在大山丘上行走。隨機(jī)梯度下降;或批量歸一化，從而平滑錯(cuò)誤空間。但是，局部最小值仍然是神經(jīng)網(wǎng)絡(luò)中許多分支問題的根本原因。

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

因?yàn)閮?yōu)化器對(duì)本地極小值很感興趣，所以即使設(shè)法擺脫它，也要花費(fèi)很長(zhǎng)時(shí)間。梯度下降法通常是一種冗長(zhǎng)的方法，因?yàn)樗氖諗克俣嚷词箤?duì)大數(shù)據(jù)集(如批梯度下降法)進(jìn)行了調(diào)整也是如此。

梯度下降對(duì)優(yōu)化器的初始化特別敏感。例如，如果優(yōu)化器在第二個(gè)局部最小值而不是第一個(gè)局部最小值附近初始化，則性能可能會(huì)好得多，但這都是隨機(jī)確定的。

學(xué)習(xí)率決定了優(yōu)化器的信心和風(fēng)險(xiǎn)。設(shè)置過高的學(xué)習(xí)率可能會(huì)導(dǎo)致它忽略全局最小值，而過低的學(xué)習(xí)會(huì)導(dǎo)致運(yùn)行時(shí)間中斷。為了解決這個(gè)問題，學(xué)習(xí)率隨著迭代衰減，但是在許多指示學(xué)習(xí)率的變量中選擇衰減率是困難的。

梯度下降需要梯度，這意味著它除了無法處理不可微的函數(shù)外，還容易出現(xiàn)基于梯度的問題，例如消失或爆炸的梯度問題。

當(dāng)然，已經(jīng)對(duì)梯度下降進(jìn)行了廣泛的研究，并且提出了許多建議的解決方案，其中一些解決方案是GD變體，而其他解決方案是基于網(wǎng)絡(luò)體系結(jié)構(gòu)的。僅僅因?yàn)樘荻认陆当桓吖懒瞬⒉灰馕吨皇钱?dāng)前可用的最佳解決方案。即使使用批處理規(guī)范化來平滑錯(cuò)誤空間或選擇復(fù)雜的優(yōu)化器(如Adam或Adagrad)，這些通用知識(shí)也不是本文的重點(diǎn)，即使它們通常表現(xiàn)更好。

取而代之的是，本文的目的是向一些晦澀難懂的確定性有趣的優(yōu)化方法提供一些理所應(yīng)得的信息，這些方法不適合基于梯度的標(biāo)準(zhǔn)方法，該方法與任何其他用于改善該方法性能的技術(shù)一樣。神經(jīng)網(wǎng)絡(luò)在某些情況下表現(xiàn)特別出色，而在其他情況下則表現(xiàn)不佳。無論他們?cè)谔囟ㄈ蝿?wù)上的表現(xiàn)如何，他們對(duì)于機(jī)器學(xué)習(xí)的未來都充滿著魅力，創(chuàng)造力和充滿希望的研究領(lǐng)域。

粒子群優(yōu)化PSO

粒子群優(yōu)化是一種基于種群的方法，它定義了一組探索搜索空間并試圖尋找最小值的"粒子"。PSO相對(duì)于某個(gè)質(zhì)量指標(biāo)迭代地改進(jìn)了候選解決方案。它通過擁有大量潛在的解決方案("粒子")并根據(jù)簡(jiǎn)單的數(shù)學(xué)規(guī)則(例如粒子的位置和速度)移動(dòng)它們來解決該問題。每個(gè)粒子的運(yùn)動(dòng)都受到其認(rèn)為最佳的局部位置的影響，但也被搜索位置(由其他粒子找到)中最知名的位置所吸引。從理論上講，該群體經(jīng)過多次迭代以求出最佳解決方案。

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

資料來源：維基

PSO是一個(gè)有趣的想法-與神經(jīng)網(wǎng)絡(luò)相比，它對(duì)初始化的敏感度要低得多，并且在某些發(fā)現(xiàn)上的粒子之間的通信可能被證明是一種搜索稀疏和大面積區(qū)域的非常有效的方法。

因?yàn)榱Ｗ尤簝?yōu)化不是基于梯度的(gasp!)，所以不需要優(yōu)化問題是可微的。因此，使用PSO優(yōu)化神經(jīng)網(wǎng)絡(luò)或任何其他算法將對(duì)選擇其他函數(shù)中的激活函數(shù)或等效角色具有更大的自由度和更低的敏感性。此外，它幾乎沒有關(guān)于優(yōu)化問題的假設(shè)，甚至可以搜索很大的空間。

可以想象，基于總體的方法比基于梯度的優(yōu)化器在計(jì)算上要昂貴得多，但不一定如此。由于該算法是如此開放和非剛性-正如基于進(jìn)化的算法通常如此，因此人們可以控制粒子的數(shù)量，粒子的移動(dòng)速度，全局共享的信息量等等。就像可能會(huì)調(diào)整神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)率一樣。

代理優(yōu)化是一種優(yōu)化方法，它嘗試使用另一個(gè)完善的函數(shù)對(duì)損失函數(shù)建模以找到最小值。該技術(shù)從損失函數(shù)中采樣"數(shù)據(jù)點(diǎn)"，這意味著它嘗試使用不同的參數(shù)值(x)并存儲(chǔ)損失函數(shù)的值(y)。在收集到足夠數(shù)量的數(shù)據(jù)點(diǎn)之后，將代理函數(shù)(在這種情況下為7次多項(xiàng)式)擬合到所收集的數(shù)據(jù)。

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

因?yàn)檎业蕉囗?xiàng)式的最小值是一個(gè)經(jīng)過充分研究的主題，并且存在許多使用導(dǎo)數(shù)來找到多項(xiàng)式的全局最小值的非常有效的方法，所以我們可以假定替代函數(shù)的全局最小值對(duì)于損失是相同的函數(shù)。

代理優(yōu)化從技術(shù)上講是一種非迭代方法，盡管代理功能的訓(xùn)練通常是迭代的。此外，從技術(shù)上講，它是一種無梯度方法，盡管查找建模函數(shù)全局最小值的有效數(shù)學(xué)方法通常基于導(dǎo)數(shù)。但是，由于迭代和基于梯度的屬性都是替代優(yōu)化的"次要"屬性，因此它可以處理大數(shù)據(jù)和不可微的優(yōu)化問題。

使用代理函數(shù)的優(yōu)化在以下幾種方面的特性：

它實(shí)質(zhì)上是在平滑真實(shí)的損失函數(shù)的表面，從而減少了鋸齒狀的局部最小值，該局部最小值導(dǎo)致了神經(jīng)網(wǎng)絡(luò)中大量額外的訓(xùn)練時(shí)間。
它將一個(gè)困難的問題投影到一個(gè)容易得多的問題上：無論是多項(xiàng)式，RBF、GP、MARS還是其他替代模型，尋找全局最小值的任務(wù)都會(huì)借助數(shù)學(xué)知識(shí)來完成。
過擬合替代模型并不是什么大問題，因?yàn)榧词褂邢喈?dāng)多的過擬合，替代函數(shù)也比真實(shí)損失函數(shù)更平滑，參差不齊。除了建立簡(jiǎn)化的數(shù)學(xué)傾向模型外，還有許多其他標(biāo)準(zhǔn)考慮因素，因此訓(xùn)練替代模型要容易得多。
替代優(yōu)化不受當(dāng)前位置的限制，因?yàn)樗吹搅?quot;整個(gè)函數(shù)"，而不是梯度下降，梯度下降必須不斷做出危險(xiǎn)的選擇，以決定是否認(rèn)為下一個(gè)山峰會(huì)有更深的最小值。

替代優(yōu)化幾乎總是比梯度下降方法快，但通常以準(zhǔn)確性為代價(jià)。使用代理優(yōu)化可能只能查明全局最小值的大致位置，但這仍然可以極大地受益。

另一種方法是混合模型。替代優(yōu)化用于將神經(jīng)網(wǎng)絡(luò)參數(shù)帶到粗略位置，從中可以使用梯度下降法找到確切的全局最小值。另一個(gè)方法是使用替代模型來指導(dǎo)優(yōu)化程序的決策，因?yàn)樘娲瘮?shù)可以a)"先見之明"和b)對(duì)損失函數(shù)的特定起伏不敏感。

模擬退火

模擬退火是基于冶金退火的概念，其中可以將材料加熱到其重結(jié)晶溫度以上，以降低其硬度并改變其他物理特性，有時(shí)還改變化學(xué)特性，然后使材料逐漸冷卻并再次變硬。

使用緩慢冷卻的概念，隨著對(duì)溶液空間的探索，模擬退火緩慢地降低了接受較差溶液的可能性。由于接受較差的解決方案可以對(duì)全局最小值進(jìn)行更廣泛的搜索(認(rèn)為-越過山丘進(jìn)入更深的山谷)，因此模擬退火假定可以在第一次迭代中正確表示和探索各種可能性。隨著時(shí)間的流逝，該算法從探索轉(zhuǎn)向開發(fā)。

以下是模擬退火算法如何工作的粗略概述：

溫度設(shè)置為某個(gè)初始正值，然后逐漸接近零。
在每個(gè)時(shí)間步長(zhǎng)上，算法都會(huì)隨機(jī)選擇一個(gè)與當(dāng)前解決方案接近的解決方案，測(cè)量其質(zhì)量，然后根據(jù)當(dāng)前溫度(接受更好或更差的解決方案的可能性)移至該解決方案。
理想情況下，當(dāng)溫度達(dá)到零時(shí)，該算法已收斂于全局最小解。

可以使用動(dòng)力學(xué)方程式或隨機(jī)采樣方法進(jìn)行模擬。模擬退火用于解決旅行商問題，該問題試圖找到數(shù)百個(gè)位置之間的最短距離，以數(shù)據(jù)點(diǎn)表示。顯然，這些組合是無止境的，但是模擬退火(加上強(qiáng)化學(xué)習(xí)的效果)效果很好。

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

模擬的旅行商問題退火解決方案。資料來源：維基

在需要在短時(shí)間內(nèi)找到近似解的情況下，模擬退火效果特別好，勝過緩慢的梯度下降速度。像代理優(yōu)化一樣，它可以與梯度下降混合使用，從而具有以下優(yōu)點(diǎn)：模擬退火的速度和梯度下降的準(zhǔn)確性。

這是一些非梯度方法的樣本;還有許多其他的算法，例如模式搜索和多目標(biāo)優(yōu)化，都需要探索。鑒于我們?nèi)祟愡z傳成功的證據(jù)，因此基于遺傳和種群的算法(例如粒子群優(yōu)化)對(duì)于創(chuàng)建真正的"智能"代理非常有前途。

非梯度優(yōu)化方法之所以令人著迷，是因?yàn)樗鼈兒芏喽祭昧藙?chuàng)造力，而不受梯度數(shù)學(xué)鏈的限制。沒有人期望無梯度方法能夠成為主流，因?yàn)榧词箍紤]到許多問題，基于梯度的優(yōu)化也能如此出色。但是，將無梯度和基于梯度的方法的強(qiáng)大功能與混合優(yōu)化器一起使用證明了極高的潛力，特別是在我們達(dá)到計(jì)算極限的時(shí)代。

責(zé)任編輯：未麗燕來源：今日頭條

神經(jīng)網(wǎng)絡(luò)優(yōu)化機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)