為什么深度學習沒有局部最小值?
這篇文章主要回答量化問題。量化問題主要包括以下情況:
“據(jù)我所知,每個方向0的衍生機率很低。除此之外,還有其他原因嗎?”
理論上,這個問題是可以驗證的,而且這幾十年間也有很多研究人員一直在致力于驗證它。
首先,我想指出無論如何這個問題已在實踐中得到了驗證。這個觀點最初由LeCun在他早期的著作中提出?,F(xiàn)在David G. Stork, Peter E. Hart, 和 Richard O. Duda合著的“小紅書”《圖形分類》中有討論。
20年前旋轉(zhuǎn)玻璃研究中這個問題已在濃縮物質(zhì)物理學中被大量解釋。
最基礎(chǔ)的項目由Parisi通過一個類似的非現(xiàn)實形式開發(fā)研究:
以靜態(tài)的觀點表現(xiàn)TAP的自由能量
后來采用了無規(guī)矩陣理論實證的正確可行的方法論證。LeCun所談及的結(jié)果如下:
高維景觀的關(guān)鍵點
我來總結(jié)一下Parisi的方法:
他研究隨機哈密爾敦函數(shù)的其中一種——平均場自旋玻璃,被稱作P狀旋轉(zhuǎn)的球狀旋轉(zhuǎn)玻璃。他發(fā)現(xiàn):
1.得出TAP自由能量的分析表達式(當T>0時)TAP(索利斯安德森帕爾默)理論是研究旋轉(zhuǎn)玻璃的一般方法,而且能應用于RBMs(可參閱《使用物理化學提高RMBs》)
2.可計算構(gòu)形的平均信息量,除此之外,還有復雜性度量——通過統(tǒng)計學理論的方法計算關(guān)鍵點的數(shù)量。
3.為了在能量水平E時計算關(guān)鍵點數(shù)量,可延伸這一結(jié)論到T=0的能量景觀。Paris得出的普適結(jié)果是所有本地最小化能量“集中(靜態(tài)上)”在輕微高于地球表面的一小部分地帶中。
一直未解釋的是為什么在研究旋轉(zhuǎn)玻璃中這是一個重要問題以及為什么P形球狀旋轉(zhuǎn)玻璃是研究目標,除了它是一個已被論證的模型以及有大量深度學習研究人員可得出的硬性設(shè)想。
此外,在深度學習研究中,T=0能量觀景與T>0能量觀景之間沒有區(qū)別,雖然在傳統(tǒng)的方法中如RBMs和VAEs是假設(shè)T=1。
最近有更多的結(jié)論可嘗試直接應用于深度學習研究中:
不存在極少的局部最小值的深度學習
這一結(jié)論進一步假設(shè)SGD解決者實際中無法分辨鞍點與局部最小值的區(qū)別,因為Hessian理論的假設(shè)是很有問題的。LeCun最近的數(shù)值計算研究證實了這一點。他的研究顯示Hessian理論假設(shè)有很多0值。
偏向性梯度下降至谷底
我個人認為這一結(jié)論還不完整,而且對于物理化學家,例如沃利尼斯*彼特來說,這方面的問題還有大量研究工作。這個議題在被稱作“亞當?shù)睦吖?rdquo;現(xiàn)象以及關(guān)聯(lián)的在真實結(jié)構(gòu)性玻璃出現(xiàn)的平均信息量危機的極冷玻璃理論中一個讓人非常迷惑的現(xiàn)象。這個題目很深奧,但足以說明P旋轉(zhuǎn)球狀旋轉(zhuǎn)玻璃非常有趣的原因是這是一個簡單的旋轉(zhuǎn)玻璃模型,具有大量的真實能量觀景。它表現(xiàn)了平均信息量危機。事實上,我設(shè)想深網(wǎng)也將表現(xiàn)出平均信息量危機,例如:當深網(wǎng)被過度訓練后他們會呈現(xiàn)出很多假設(shè)性的平均信息量。
由于過度訓練而引發(fā)的平均信息量危機將呈現(xiàn)為高聳的山峰,因為它已偏離假設(shè)性平均信息量,類似于LeCun在他的關(guān)于平均信息量SGD論著中提及的。而且這一現(xiàn)象最近在RBMs被觀察到。
[1612.01.1717] 具有二元突觸的限制性波爾茲曼機器的非監(jiān)控特征的統(tǒng)計力學
這些漏斗狀的觀景可從蛋白質(zhì)折疊中觀察到。
那么,為什么深度學習可行呢?
我在UC 伯克利大學的2016夏季MDDS 討論中談及了這些問題 (可點擊 閱讀原文 查看視頻)。