天才還是白癡:有史以來最具爭議的神經(jīng)網(wǎng)絡(luò)_IT技術(shù)周刊第656期
極限學(xué)習(xí)機(jī)
有人認(rèn)為,極限學(xué)習(xí)機(jī)是有史以來最聰明的神經(jīng)網(wǎng)絡(luò)發(fā)明之一,以至于甚至召開了專門討論ELM神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的會(huì)議。ELM的支持者認(rèn)為,它可以以指數(shù)級(jí)的更快的訓(xùn)練時(shí)間執(zhí)行標(biāo)準(zhǔn)任務(wù),而很少有訓(xùn)練實(shí)例。另一方面,除了它在機(jī)器學(xué)習(xí)社區(qū)中并不大的事實(shí)之外,它還受到深度學(xué)習(xí)專家的廣泛批評(píng),其中包括Yann LeCun,他們認(rèn)為它的宣傳和信譽(yù)遠(yuǎn)遠(yuǎn)超出其應(yīng)有的程度。
通常,人們似乎認(rèn)為這是一個(gè)有趣的概念。
ELM體系結(jié)構(gòu)由兩層組成:第一個(gè)是隨機(jī)初始化和固定的,而第二個(gè)是可訓(xùn)練的。本質(zhì)上,網(wǎng)絡(luò)將數(shù)據(jù)隨機(jī)投影到新空間中并執(zhí)行多元回歸(當(dāng)然,然后將其傳遞給輸出激活函數(shù))。隨機(jī)投影需要一種降維(或放大)方法,該方法將隨機(jī)矩陣乘以輸入-盡管這個(gè)想法聽起來很奇怪,但從戰(zhàn)略分布中隨機(jī)抽取實(shí)際上可以很好地工作(我們將在以后的直觀類比中看到)。它會(huì)施加某種隨機(jī)失真,這種失真會(huì)以良好的方式(如果正確完成的話)會(huì)產(chǎn)生噪聲,并使網(wǎng)絡(luò)的其余部分能夠適應(yīng),從而為學(xué)習(xí)機(jī)會(huì)打開了新的大門。
實(shí)際上,正是由于這種隨機(jī)性,Extreme Learning Machines才被證明具有隱藏層中具有相對(duì)較小節(jié)點(diǎn)的通用近似定理冪。
實(shí)際上,在1980年代和1990年代,以神經(jīng)網(wǎng)絡(luò)發(fā)展領(lǐng)域的名字就已經(jīng)探索了隨機(jī)投影的想法,這就是對(duì)ELM并不是什么新鮮事物的一種批評(píng)。只是舊研究以新名稱打包。許多其他體系結(jié)構(gòu)(例如回聲狀態(tài)機(jī)和液體狀態(tài)機(jī))也利用隨機(jī)跳過連接和其他隨機(jī)性來源。
但是,ELM與其他神經(jīng)網(wǎng)絡(luò)架構(gòu)之間的最大區(qū)別可能是它不使用反向傳播。取而代之的是,由于網(wǎng)絡(luò)的可訓(xùn)練部分只是簡單的多元回歸,因此以大致相同的方式在回歸中擬合系數(shù)來訓(xùn)練參數(shù)。這代表了人們認(rèn)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式的根本轉(zhuǎn)變。
自從基本人工神經(jīng)網(wǎng)絡(luò)出現(xiàn)以來,幾乎所有開發(fā)出的神經(jīng)網(wǎng)絡(luò)都通過在整個(gè)網(wǎng)絡(luò)中前后反射信息信號(hào),使用迭代更新(或根據(jù)需要將其稱為"調(diào)整")進(jìn)行了優(yōu)化。由于這種方法已經(jīng)存在了很長時(shí)間,因此必須假定已經(jīng)嘗試并測(cè)試了該方法為最佳方法,但是研究人員承認(rèn),標(biāo)準(zhǔn)反向傳播存在許多問題,例如訓(xùn)練起來很慢或陷入極小的局部極小值現(xiàn)象。
另一方面,ELM使用數(shù)學(xué)上涉及更多的公式來設(shè)置權(quán)重,而無需太深入地研究數(shù)學(xué),可以想到使用隨機(jī)層來補(bǔ)償更多計(jì)算上昂貴的細(xì)節(jié),否則它將被替換。從技術(shù)上講,如果有幫助,那么非常成功的Dropout層就是一種隨機(jī)投影。
因?yàn)镋LM同時(shí)使用隨機(jī)性和無反向傳播算法,所以它們的訓(xùn)練速度比標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)快得多。
另一方面,他們是否表現(xiàn)更好是另一個(gè)問題。
有人可能會(huì)提出這樣一種觀點(diǎn),即ELM比標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(盡管兩者都相距甚遠(yuǎn))更能反映人類的學(xué)習(xí)方式,因?yàn)樗鼉H需幾個(gè)示例就可以非??焖俚亟鉀Q更簡單的任務(wù),但是迭代神經(jīng)網(wǎng)絡(luò)需要貫穿其中至少,成千上萬的樣本可以泛化并表現(xiàn)良好。與機(jī)器相比,人類可能有其弱點(diǎn),但是他們?cè)谑纠龑W(xué)習(xí)比率(示例是他們所接受的培訓(xùn)示例的數(shù)量)方面的巨大優(yōu)勢(shì)才使我們真正變得聰明。
極限學(xué)習(xí)機(jī)的概念非常簡單-如此簡單,以至于有人會(huì)稱其為愚蠢的。偉大的計(jì)算機(jī)科學(xué)家和深度學(xué)習(xí)先驅(qū)Yann LeCun宣稱,"隨機(jī)連接第一層幾乎是您可以做的最愚蠢的事情",在此論點(diǎn)之后,他列舉了更多的開發(fā)方法來非線性地變換向量的維數(shù),例如作為SVM中使用的內(nèi)核方法,通過使用反向傳播進(jìn)行定位進(jìn)一步得到了加強(qiáng)。
LeCun說,從本質(zhì)上講,ELM本質(zhì)上是一個(gè)SVM,具有更差的轉(zhuǎn)換內(nèi)核。使用SVM可以更好地建模ELM能夠解決的有限范圍的問題。唯一的反駁是使用"隨機(jī)內(nèi)核"而不是專用內(nèi)核的計(jì)算效率,因?yàn)镾VM是眾所周知的高功率模型。ELM可能帶來的性能降低是否值得,這是另一個(gè)討論。
> One way to compare ELMs and SVMs.
然而,無論是否像ELM一樣,根據(jù)經(jīng)驗(yàn),在簡單的神經(jīng)網(wǎng)絡(luò)中使用隨機(jī)投影或過濾器以及其他模型都已證明在MNIST等各種(現(xiàn)在被認(rèn)為是"簡單")標(biāo)準(zhǔn)訓(xùn)練任務(wù)中表現(xiàn)出色。盡管這些性能不是一流的,但經(jīng)過如此嚴(yán)格審查并且其概念幾乎被認(rèn)為是荒唐可笑的體系結(jié)構(gòu),可以通過最新的神經(jīng)網(wǎng)絡(luò)在排行榜上獨(dú)占edge頭–此外,它具有更輕量級(jí)的體系結(jié)構(gòu)和較小的計(jì)算量–至少是令人感興趣的。
為什么使用固定的隨機(jī)連接有效?
這是一百萬美元的問題:很明顯,如果ELM的性能與普通的反向傳播神經(jīng)網(wǎng)絡(luò)一樣好(甚至更好),那么ELM中具有隨機(jī)連接的某些功能就可以正常工作。雖然它的數(shù)學(xué)是不直觀的,但原始的《極限學(xué)習(xí)機(jī)器》論文的作者光斌煌,舉例說明了這個(gè)概念(針對(duì)語言,簡潔性和深度學(xué)習(xí)的相似性進(jìn)行了編輯):
您要用石頭填滿一個(gè)湖,直到用石頭而不是水填滿一個(gè)水平表面,然后您才能看到空湖的底部,這是一條曲線(代表數(shù)據(jù)的函數(shù))。工程師仔細(xì)計(jì)算了湖泊的大小,填滿湖泊的石頭的大小,以及在優(yōu)化任務(wù)中起作用的眾多其他小因素。(優(yōu)化適合該功能的許多參數(shù)。)
> A bad but acceptable job of filling stones into the lake.
另一方面,農(nóng)村農(nóng)民炸毀附近的山,開始扔掉或推下掉進(jìn)湖里的巖石。當(dāng)農(nóng)村農(nóng)民撿起一塊石頭(隱藏層節(jié)點(diǎn))時(shí),他不需要知道湖的大小或石頭的大小,他只是隨意地扔石頭并將石頭散布開來。如果某個(gè)區(qū)域的巖石開始堆積在地表上方,則農(nóng)夫會(huì)用錘子將其砸碎(β參數(shù)-各種規(guī)則化處理),以平整地表。
盡管工程師仍在計(jì)算巖石的高度和體積以及湖泊的形狀,但農(nóng)夫已經(jīng)填滿了湖泊。對(duì)于農(nóng)夫來說,扔多少塊石頭都沒關(guān)系:他可以更快地完成工作。
盡管這種類比在不同場(chǎng)景的直接應(yīng)用中存在一些問題,但這是對(duì)ELM的本質(zhì)以及隨機(jī)性在模型中扮演的角色的直觀解釋。ELM的本質(zhì)在于,天真并不總是一件壞事:簡單的解決方案可能能夠更好地解決不太復(fù)雜的問題。
關(guān)鍵點(diǎn)
- 極限學(xué)習(xí)機(jī)使用固定的隨機(jī)第一層和可訓(xùn)練的第二層。這本質(zhì)上是隨機(jī)投影,然后是多元回歸。
- ·支持者說,ELM能夠在簡單的場(chǎng)景(如MNIST)中以非常少的示例很快地學(xué)習(xí),其優(yōu)點(diǎn)是易于編程,并且無需選擇諸如體系結(jié)構(gòu),優(yōu)化器和損耗之類的參數(shù)。另一方面,反對(duì)者認(rèn)為,SVM在這些情況下會(huì)更好,ELM不適合解決更復(fù)雜的問題,并且它只是對(duì)一個(gè)非常古老的想法進(jìn)行了重新命名。
- ELM通常在復(fù)雜任務(wù)上表現(xiàn)不佳,但事實(shí)證明它可以在較簡單的任務(wù)上表現(xiàn)良好,這是探索更多輕量級(jí)體系結(jié)構(gòu),非反向傳播模型擬合和隨機(jī)投影世界的一個(gè)很好的理由。至少,極限學(xué)習(xí)機(jī)(或您想在其下打上這個(gè)名字的任何名稱)是每個(gè)深度學(xué)習(xí)愛好者都應(yīng)該知道的有趣的想法。
您對(duì)ELM有何看法?