自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

人工智能 深度學(xué)習(xí)
梯度下降是機(jī)器學(xué)習(xí)中最重要的思想之一:給定一些代價(jià)函數(shù)以使其最小化,該算法迭代地采取最大下降斜率的步驟,理論上在經(jīng)過足夠的迭代次數(shù)后才達(dá)到最小值??挛?Cauchy)于1847年首次發(fā)現(xiàn),在1944年針對(duì)非線性優(yōu)化問題在Haskell Curry上得到擴(kuò)展,梯度下降已用于從線性回歸到深度神經(jīng)網(wǎng)絡(luò)的各種算法。

[[336078]]

梯度下降是機(jī)器學(xué)習(xí)中最重要的思想之一:給定一些代價(jià)函數(shù)以使其最小化,該算法迭代地采取最大下降斜率的步驟,理論上在經(jīng)過足夠的迭代次數(shù)后才達(dá)到最小值??挛?Cauchy)于1847年首次發(fā)現(xiàn),在1944年針對(duì)非線性優(yōu)化問題在Haskell Curry上得到擴(kuò)展,梯度下降已用于從線性回歸到深度神經(jīng)網(wǎng)絡(luò)的各種算法。

雖然梯度下降及其反向傳播形式的重新用途已成為機(jī)器學(xué)習(xí)的最大突破之一,但神經(jīng)網(wǎng)絡(luò)的優(yōu)化仍然是一個(gè)尚未解決的問題?;ヂ?lián)網(wǎng)上的許多人都愿意宣稱"梯度下降很爛",盡管可能有些遙遠(yuǎn),但梯度下降確實(shí)存在許多問題。

優(yōu)化程序陷入了足夠深的局部最小值中。誠然,有一些聰明的解決方案有時(shí)可以解決這些問題,例如動(dòng)量,它可以使優(yōu)化器在大山丘上行走。隨機(jī)梯度下降;或批量歸一化,從而平滑錯(cuò)誤空間。但是,局部最小值仍然是神經(jīng)網(wǎng)絡(luò)中許多分支問題的根本原因。

 

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

因?yàn)閮?yōu)化器對(duì)本地極小值很感興趣,所以即使設(shè)法擺脫它,也要花費(fèi)很長(zhǎng)時(shí)間。梯度下降法通常是一種冗長(zhǎng)的方法,因?yàn)樗氖諗克俣嚷词箤?duì)大數(shù)據(jù)集(如批梯度下降法)進(jìn)行了調(diào)整也是如此。

梯度下降對(duì)優(yōu)化器的初始化特別敏感。例如,如果優(yōu)化器在第二個(gè)局部最小值而不是第一個(gè)局部最小值附近初始化,則性能可能會(huì)好得多,但這都是隨機(jī)確定的。

學(xué)習(xí)率決定了優(yōu)化器的信心和風(fēng)險(xiǎn)。設(shè)置過高的學(xué)習(xí)率可能會(huì)導(dǎo)致它忽略全局最小值,而過低的學(xué)習(xí)會(huì)導(dǎo)致運(yùn)行時(shí)間中斷。為了解決這個(gè)問題,學(xué)習(xí)率隨著迭代衰減,但是在許多指示學(xué)習(xí)率的變量中選擇衰減率是困難的。

梯度下降需要梯度,這意味著它除了無法處理不可微的函數(shù)外,還容易出現(xiàn)基于梯度的問題,例如消失或爆炸的梯度問題。

當(dāng)然,已經(jīng)對(duì)梯度下降進(jìn)行了廣泛的研究,并且提出了許多建議的解決方案,其中一些解決方案是GD變體,而其他解決方案是基于網(wǎng)絡(luò)體系結(jié)構(gòu)的。僅僅因?yàn)樘荻认陆当桓吖懒瞬⒉灰馕吨皇钱?dāng)前可用的最佳解決方案。即使使用批處理規(guī)范化來平滑錯(cuò)誤空間或選擇復(fù)雜的優(yōu)化器(如Adam或Adagrad),這些通用知識(shí)也不是本文的重點(diǎn),即使它們通常表現(xiàn)更好。

取而代之的是,本文的目的是向一些晦澀難懂的確定性有趣的優(yōu)化方法提供一些理所應(yīng)得的信息,這些方法不適合基于梯度的標(biāo)準(zhǔn)方法,該方法與任何其他用于改善該方法性能的技術(shù)一樣。神經(jīng)網(wǎng)絡(luò)在某些情況下表現(xiàn)特別出色,而在其他情況下則表現(xiàn)不佳。無論他們?cè)谔囟ㄈ蝿?wù)上的表現(xiàn)如何,他們對(duì)于機(jī)器學(xué)習(xí)的未來都充滿著魅力,創(chuàng)造力和充滿希望的研究領(lǐng)域。

粒子群優(yōu)化PSO

粒子群優(yōu)化是一種基于種群的方法,它 定義了一組探索搜索空間并試圖尋找最小值的"粒子"。PSO相對(duì)于某個(gè)質(zhì)量指標(biāo)迭代地改進(jìn)了候選解決方案。它通過擁有大量潛在的解決方案("粒子")并根據(jù)簡(jiǎn)單的數(shù)學(xué)規(guī)則(例如粒子的位置和速度)移動(dòng)它們來解決該問題。每個(gè)粒子的運(yùn)動(dòng)都受到其認(rèn)為最佳的局部位置的影響,但也被搜索位置(由其他粒子找到)中最知名的位置所吸引。從理論上講,該群體經(jīng)過多次迭代以求出最佳解決方案。

 

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法
資料來源:維基

PSO是一個(gè)有趣的想法-與神經(jīng)網(wǎng)絡(luò)相比,它對(duì)初始化的敏感度要低得多,并且在某些發(fā)現(xiàn)上的粒子之間的通信可能被證明是一種搜索稀疏和大面積區(qū)域的非常有效的方法。

因?yàn)榱W尤簝?yōu)化不是基于梯度的(gasp!),所以不需要優(yōu)化問題是可微的。因此,使用PSO優(yōu)化神經(jīng)網(wǎng)絡(luò)或任何其他算法將對(duì)選擇其他函數(shù)中的激活函數(shù)或等效角色具有更大的自由度和更低的敏感性。此外,它幾乎沒有關(guān)于優(yōu)化問題的假設(shè),甚至可以搜索很大的空間。

可以想象,基于總體的方法比基于梯度的優(yōu)化器在計(jì)算上要昂貴得多,但不一定如此。由于該算法是如此開放和非剛性-正如基于進(jìn)化的算法通常如此,因此人們可以控制粒子的數(shù)量,粒子的移動(dòng)速度,全局共享的信息量等等。就像可能會(huì)調(diào)整神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)率一樣。

代理優(yōu)化是一種優(yōu)化方法,它嘗試使用另一個(gè)完善的函數(shù)對(duì)損失函數(shù)建模以找到最小值。該技術(shù)從損失函數(shù)中采樣"數(shù)據(jù)點(diǎn)",這意味著它嘗試使用不同的參數(shù)值(x)并存儲(chǔ)損失函數(shù)的值(y)。在收集到足夠數(shù)量的數(shù)據(jù)點(diǎn)之后,將代理函數(shù)(在這種情況下為7次多項(xiàng)式)擬合到所收集的數(shù)據(jù)。

 

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法

因?yàn)檎业蕉囗?xiàng)式的最小值是一個(gè)經(jīng)過充分研究的主題,并且存在許多使用導(dǎo)數(shù)來找到多項(xiàng)式的全局最小值的非常有效的方法,所以我們可以假定替代函數(shù)的全局最小值對(duì)于損失是相同的函數(shù)。

代理優(yōu)化從技術(shù)上講是一種非迭代方法,盡管代理功能的訓(xùn)練通常是迭代的。此外,從技術(shù)上講,它是一種無梯度方法,盡管查找建模函數(shù)全局最小值的有效數(shù)學(xué)方法通常基于導(dǎo)數(shù)。但是,由于迭代和基于梯度的屬性都是替代優(yōu)化的"次要"屬性,因此它可以處理大數(shù)據(jù)和不可微的優(yōu)化問題。

使用代理函數(shù)的優(yōu)化在以下幾種方面的特性:

  • 它實(shí)質(zhì)上是在平滑真實(shí)的損失函數(shù)的表面,從而減少了鋸齒狀的局部最小值,該局部最小值導(dǎo)致了神經(jīng)網(wǎng)絡(luò)中大量額外的訓(xùn)練時(shí)間。
  • 它將一個(gè)困難的問題投影到一個(gè)容易得多的問題上:無論是多項(xiàng)式,RBF、GP、MARS還是其他替代模型,尋找全局最小值的任務(wù)都會(huì)借助數(shù)學(xué)知識(shí)來完成。
  • 過擬合替代模型并不是什么大問題,因?yàn)榧词褂邢喈?dāng)多的過擬合,替代函數(shù)也比真實(shí)損失函數(shù)更平滑,參差不齊。除了建立簡(jiǎn)化的數(shù)學(xué)傾向模型外,還有許多其他標(biāo)準(zhǔn)考慮因素,因此訓(xùn)練替代模型要容易得多。
  • 替代優(yōu)化不受當(dāng)前位置的限制,因?yàn)樗吹搅?quot;整個(gè)函數(shù)",而不是梯度下降,梯度下降必須不斷做出危險(xiǎn)的選擇,以決定是否認(rèn)為下一個(gè)山峰會(huì)有更深的最小值。

替代優(yōu)化幾乎總是比梯度下降方法快,但通常以準(zhǔn)確性為代價(jià)。使用代理優(yōu)化可能只能查明全局最小值的大致位置,但這仍然可以極大地受益。

另一種方法是混合模型。替代優(yōu)化用于將神經(jīng)網(wǎng)絡(luò)參數(shù)帶到粗略位置,從中可以使用梯度下降法找到確切的全局最小值。另一個(gè)方法是使用替代模型來指導(dǎo)優(yōu)化程序的決策,因?yàn)樘娲瘮?shù)可以a)"先見之明"和b)對(duì)損失函數(shù)的特定起伏不敏感。

模擬退火

模擬退火是基于冶金退火的概念,其中可以將材料加熱到其重結(jié)晶溫度以上,以降低其硬度并改變其他物理特性,有時(shí)還改變化學(xué)特性,然后使材料逐漸冷卻并再次變硬。

使用緩慢冷卻的概念,隨著對(duì)溶液空間的探索,模擬退火緩慢地降低了接受較差溶液的可能性。由于接受較差的解決方案可以對(duì)全局最小值進(jìn)行更廣泛的搜索(認(rèn)為-越過山丘進(jìn)入更深的山谷),因此模擬退火假定可以在第一次迭代中正確表示和探索各種可能性。隨著時(shí)間的流逝,該算法從探索轉(zhuǎn)向開發(fā)。

以下是模擬退火算法如何工作的粗略概述:

  • 溫度設(shè)置為某個(gè)初始正值,然后逐漸接近零。
  • 在每個(gè)時(shí)間步長(zhǎng)上,算法都會(huì)隨機(jī)選擇一個(gè)與當(dāng)前解決方案接近的解決方案,測(cè)量其質(zhì)量,然后根據(jù)當(dāng)前溫度(接受更好或更差的解決方案的可能性)移至該解決方案。
  • 理想情況下,當(dāng)溫度達(dá)到零時(shí),該算法已收斂于全局最小解。

可以使用動(dòng)力學(xué)方程式或隨機(jī)采樣方法進(jìn)行模擬。模擬退火用于解決旅行商問題,該問題試圖找到數(shù)百個(gè)位置之間的最短距離,以數(shù)據(jù)點(diǎn)表示。顯然,這些組合是無止境的,但是模擬退火(加上強(qiáng)化學(xué)習(xí)的效果)效果很好。

 

令人著迷的無梯度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法
模擬的旅行商問題退火解決方案。資料來源:維基

在需要在短時(shí)間內(nèi)找到近似解的情況下,模擬退火效果特別好,勝過緩慢的梯度下降速度。像代理優(yōu)化一樣,它可以與梯度下降混合使用,從而具有以下優(yōu)點(diǎn):模擬退火的速度和梯度下降的準(zhǔn)確性。

這是一些非梯度方法的樣本;還有許多其他的算法,例如模式搜索和多目標(biāo)優(yōu)化,都需要探索。鑒于我們?nèi)祟愡z傳成功的證據(jù),因此基于遺傳和種群的算法(例如粒子群優(yōu)化)對(duì)于創(chuàng)建真正的"智能"代理非常有前途。

非梯度優(yōu)化方法之所以令人著迷,是因?yàn)樗鼈兒芏喽祭昧藙?chuàng)造力,而不受梯度數(shù)學(xué)鏈的限制。沒有人期望無梯度方法能夠成為主流,因?yàn)榧词箍紤]到許多問題,基于梯度的優(yōu)化也能如此出色。但是,將無梯度和基于梯度的方法的強(qiáng)大功能與混合優(yōu)化器一起使用證明了極高的潛力,特別是在我們達(dá)到計(jì)算極限的時(shí)代。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2021-12-28 08:48:54

PyTorch神經(jīng)網(wǎng)絡(luò)人工智能

2022-04-07 09:01:52

神經(jīng)網(wǎng)絡(luò)人工智能

2021-10-26 16:10:50

神經(jīng)網(wǎng)絡(luò)AI算法

2017-06-11 23:38:43

進(jìn)化圖像神經(jīng)網(wǎng)絡(luò)

2018-11-26 07:04:59

神經(jīng)網(wǎng)絡(luò)優(yōu)化函數(shù)

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2025-02-25 14:13:31

2020-08-06 10:11:13

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法

2017-05-23 18:54:18

深度學(xué)習(xí)人工智能

2019-04-19 08:18:37

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2017-09-10 07:07:32

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集可視化

2023-06-18 23:00:39

神經(jīng)網(wǎng)絡(luò)損失函數(shù)隨機(jī)變量

2020-05-11 13:44:38

神經(jīng)網(wǎng)絡(luò)人工智能深度學(xué)習(xí)

2022-06-14 13:55:30

模型訓(xùn)練網(wǎng)絡(luò)

2017-03-21 08:52:20

神經(jīng)網(wǎng)絡(luò)聲譽(yù)

2023-11-14 16:29:14

深度學(xué)習(xí)

2017-11-30 18:05:18

2021-01-18 14:38:53

神經(jīng)網(wǎng)絡(luò)人工智能神經(jīng)元

2017-05-04 18:30:34

大數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)

2019-05-07 19:12:28

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)