自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度學(xué)習(xí)應(yīng)該使用復(fù)數(shù)嗎?

移動(dòng)開發(fā) 機(jī)器學(xué)習(xí)
深度學(xué)習(xí)只能使用實(shí)數(shù)嗎?本文簡要介紹了近期一些將復(fù)數(shù)應(yīng)用于深度學(xué)習(xí)的若干研究,并指出使用復(fù)數(shù)可以實(shí)現(xiàn)更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模,以及 GAN 訓(xùn)練中更好的穩(wěn)定性。

曼德布洛特復(fù)數(shù)集合:https://en.wikipedia.org/wiki/Mandelbrot_set

深度學(xué)習(xí)只能使用實(shí)數(shù),大家不覺得奇怪嗎?或許,深度學(xué)習(xí)使用復(fù)數(shù)才是更加奇怪的事情吧(注意:復(fù)數(shù)是有虛部的)。一個(gè)有價(jià)值的論點(diǎn)是:大腦在計(jì)算的時(shí)候不太可能使用復(fù)數(shù)。當(dāng)然你也可以提出這樣的論點(diǎn):大腦也不用矩陣運(yùn)算或者鏈?zhǔn)椒▌t微分啊。此外,人工神經(jīng)網(wǎng)絡(luò)(ANN)具有實(shí)際神經(jīng)元的模型。長期以來,我們用實(shí)分析代替了生物合理性(biological plausibility)。

然而,為什么我們要止步于實(shí)分析呢?我們已經(jīng)用了這么久線性代數(shù)和微分方程,那我們也可以將這一切都推倒,用復(fù)分析建立新的一套?;蛟S更加奇妙的復(fù)分析會(huì)賦予我們更強(qiáng)大的方法。畢竟它對(duì)量子力學(xué)奏效,那么它也有可能在深度學(xué)習(xí)領(lǐng)域發(fā)揮作用。此外,深度學(xué)習(xí)和量子力學(xué)都與信息處理有關(guān),二者可能是同一件事情。

由于論據(jù)的原因,我們暫且不考慮生物合理性。這是一個(gè)很古老的觀點(diǎn),可以追溯到 1957 年 Frank Rosenblatt 第一次提出人工神經(jīng)網(wǎng)絡(luò)的時(shí)候。那么問題來了,復(fù)數(shù)可以提供哪些實(shí)數(shù)不能提供的東西呢?

在過去幾年里,曾經(jīng)出現(xiàn)過一些探索在深度學(xué)習(xí)中使用復(fù)數(shù)的文章。奇怪的是,它們中的大部分都沒有被同行評(píng)議的期刊接受。因?yàn)樯疃葘W(xué)習(xí)的正統(tǒng)觀念在該領(lǐng)域已經(jīng)很流行了。但是,我們還是要評(píng)述一些有趣的論文。

DeepMind 的論文《Associative Long Short-Term Memory》(Ivo Danihelka, Greg Wayne, Benigno Uria, Nal Kalchbrenner, Alex Graves)探討了使用復(fù)數(shù)值形成聯(lián)想記憶神經(jīng)網(wǎng)絡(luò)。該系統(tǒng)被用來增強(qiáng) LSTM 的記憶。論文的結(jié)論是使用復(fù)數(shù)的網(wǎng)絡(luò)可獲取更大的記憶容量。根據(jù)數(shù)學(xué)原理,與僅僅使用實(shí)數(shù)的情況相比,使用復(fù)數(shù)需要的矩陣更小。如下圖所示,使用復(fù)數(shù)的神經(jīng)網(wǎng)絡(luò)在內(nèi)存開銷上與傳統(tǒng) LSTM 有顯著區(qū)別。

區(qū)別

Yoshua Bengio 及其在蒙特利爾的團(tuán)隊(duì)探索了另一種使用復(fù)數(shù)的方式。研究者在《Unitary Evolution Recurrent Neural Networks》(Martin Arjovsky, Amar Shah, Yoshua Bengio)一文中探討了酉矩陣。他們認(rèn)為,如果矩陣的特征值接近 1 的話,消失的梯度或許會(huì)帶來實(shí)際的好處。該研究使用復(fù)數(shù)作為 RNN 網(wǎng)絡(luò)的權(quán)重。結(jié)論如下:

實(shí)證表明我們的 uRNN 能夠更好地通過長序列傳遞梯度信息,并且不會(huì)遇到像 LSTM 一樣多的飽和隱藏狀態(tài)(saturating hidden states)。

他們做了多次實(shí)驗(yàn)對(duì)使用復(fù)數(shù)的網(wǎng)絡(luò)與傳統(tǒng) RNN 的性能進(jìn)行了量化比較:

量化比較

使用復(fù)數(shù)的系統(tǒng)明顯擁有更魯棒、更穩(wěn)定的性能。

Bengio 團(tuán)隊(duì)和 MIT 合作的一篇論文《Gated Orthogonal Recurrent Units: On Learning to Forget》(Li Jing, Caglar Gulcehre, John Peurifoy, Yichen Shen, Max Tegmark, Marin Soljačić, Yoshua Bengio)提出了使用門控機(jī)制的方法。這篇論文探討了長期依賴能夠更好地被捕獲以及形成一個(gè)更加魯棒的遺忘機(jī)制的可能性。下圖展示了其他基于 RNN 的系統(tǒng)在復(fù)制任務(wù)中的失??;

RNN系統(tǒng)

FAIR 和 EPFL 的一個(gè)團(tuán)隊(duì)出了一篇類似的論文《Kronecker Recurrent Units》(Cijo Jose, Moustpaha Cisse, Francois Fleuret),他們?cè)谡撐睦镆舱宫F(xiàn)了在復(fù)制任務(wù)中使用酉矩陣的可行性。他們展示了一種能夠大幅減少所需參數(shù)的矩陣分解方法。文中描述了他們使用復(fù)數(shù)的動(dòng)機(jī)。

由于實(shí)空間的行列式是連續(xù)函數(shù),所以實(shí)空間的酉集是不連貫的。因而,使用標(biāo)準(zhǔn)的連續(xù)優(yōu)化程序不能在實(shí)值網(wǎng)絡(luò)上跨越全酉集。相反,酉集在復(fù)空間中是連接在一起的,因?yàn)樗男辛惺绞菑?fù)空間中單位圓上的點(diǎn),所以使用復(fù)數(shù)就不會(huì)出現(xiàn)這個(gè)問題。

這篇論文的精華之一就是下面這則富有建設(shè)性的思想:

狀態(tài)應(yīng)當(dāng)保持高維度,以使用高容量的網(wǎng)絡(luò)將輸入編碼成內(nèi)部狀態(tài)、提取預(yù)測值。但 recurrent dynamic 可使用低容量模型實(shí)現(xiàn)。

目前,這些方法已經(jīng)探索了在 RNN 上對(duì)復(fù)數(shù)值的使用。MILA(蒙特利爾學(xué)習(xí)算法研究所)最近的一篇論文《Deep Complex Networks》(Chiheb Trabelsi 等人)進(jìn)一步探索了這些方法在卷積神經(jīng)網(wǎng)絡(luò)上的使用。論文作者在計(jì)算機(jī)視覺任務(wù)上測試了他們的網(wǎng)絡(luò),結(jié)果很有競爭力。

最后,我們必須說一下復(fù)數(shù)在 GAN 中的使用。畢竟 GAN 可以說是最熱的話題了。論文《Numerics of GANs》(Lars Mescheder, Sebastian Nowozin, Andreas Geiger)探討了 GAN 中棘手的收斂性能。他們研究了帶有復(fù)數(shù)值的雅克比矩陣的特點(diǎn),并使用它創(chuàng)建解決 GAN 均衡問題的最先進(jìn)方法。

在去年的一篇博文中,我介紹了全息原理和深度學(xué)習(xí)的關(guān)系。博文中的方法探索了張量網(wǎng)絡(luò)和深度學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)之間的相似性。量子力學(xué)可以被認(rèn)為是使用了一種更加通用的概率形式。對(duì)復(fù)數(shù)的使用則提供了常規(guī)概率無法提供的額外能力。具體來說就是疊加和干擾的能力。為了實(shí)現(xiàn)全息術(shù),在處理過程中使用復(fù)數(shù)會(huì)比較好。

在機(jī)器和深度學(xué)習(xí)空間中進(jìn)行的大多數(shù)數(shù)學(xué)分析傾向于使用貝葉斯思想作為參數(shù)。事實(shí)上,大多數(shù)從業(yè)者都認(rèn)為它是貝葉斯的,但實(shí)際上來自與統(tǒng)計(jì)學(xué)機(jī)制(除去名字,這里沒有統(tǒng)計(jì)學(xué)的那些繁文縟節(jié))。

但如果量子力學(xué)是廣義的概率,那如果我們使用 QM 啟發(fā)的方法作為替代會(huì)如何呢?一些論文試圖研究這一方向,結(jié)果值得一看。在去年的一篇論文《Quantum Clustering and Gaussian Mixtures》中,作者探索了無監(jiān)督均值聚類的使用情況。報(bào)告是這樣說的:

因此,我們觀察到了量子類干擾現(xiàn)象并不在高斯混合模型中出現(xiàn)。我們展示了量子方法在所有方面上都優(yōu)于高斯混合方法。

兩者的對(duì)比如圖:

對(duì)比圖

噪聲發(fā)生了什么?

為什么在有了 20 實(shí)際的量子概率理論后還要拘泥于 18 世紀(jì)的貝葉斯理論呢?

本文提及的研究論文證明了:在深度學(xué)習(xí)架構(gòu)中使用復(fù)數(shù)確實(shí)會(huì)帶來「實(shí)實(shí)在在」的優(yōu)勢。研究表明:使用復(fù)數(shù)能夠帶來更魯棒的層間梯度信息傳播、更高的記憶容量、更準(zhǔn)確的遺忘行為、大幅降低的網(wǎng)絡(luò)規(guī)模,以及訓(xùn)練 GAN 時(shí)更好的穩(wěn)定性。這些優(yōu)點(diǎn)可不能被簡單地忽略。如果我們接受了目前深度學(xué)習(xí)的主流觀點(diǎn)--任何一層的微分都是公平的,那么或許我們應(yīng)該在存儲(chǔ)很多變體的網(wǎng)絡(luò)中使用復(fù)分析。

或許復(fù)數(shù)沒有被經(jīng)常使用的原因是研究者對(duì)它不夠熟悉。在優(yōu)化研究社區(qū)中,數(shù)學(xué)傳統(tǒng)并沒有涉及到復(fù)數(shù)。然而物理學(xué)家卻一直在使用復(fù)數(shù)。那些虛部在量子力學(xué)中始終是存在的。這并不奇怪,這就是現(xiàn)實(shí)。我們?nèi)匀徊惶斫鉃楹芜@些深度學(xué)習(xí)系統(tǒng)會(huì)如此有用。所以探索其他的表示可能會(huì)帶來出乎意料的突破。

在不久的將來,這個(gè)局面可能會(huì)變化。最先進(jìn)的結(jié)構(gòu)可能會(huì)普遍使用復(fù)數(shù),那時(shí)候不使用復(fù)數(shù)反倒變得奇怪了。

原文鏈接:https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8

責(zé)任編輯:張子龍 來源: 機(jī)器之心
相關(guān)推薦

2017-10-09 14:51:15

深度學(xué)習(xí)復(fù)數(shù)實(shí)數(shù)

2020-04-16 11:19:55

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)層

2019-05-24 10:30:38

2017-08-03 11:00:20

2012-12-26 09:51:52

C++開發(fā)者C++ CX

2018-09-18 10:55:24

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2017-04-05 19:04:09

2023-01-09 08:00:00

遷移學(xué)習(xí)機(jī)器學(xué)習(xí)數(shù)據(jù)集

2021-12-09 07:33:45

深度學(xué)習(xí)算法

2021-03-30 11:29:02

人工智能深度學(xué)習(xí)

2010-07-07 09:10:58

Linux

2022-01-10 13:01:32

指針Struct內(nèi)存

2017-12-22 10:48:00

AI深度學(xué)習(xí)遷移學(xué)習(xí)

2021-03-08 11:28:59

人工智能深度學(xué)習(xí)Python

2017-09-18 10:48:06

深度學(xué)習(xí)零基礎(chǔ)入門

2017-10-09 19:12:52

AI深度學(xué)習(xí)局限性

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2017-09-09 06:04:22

深度學(xué)習(xí)人物圖像神經(jīng)網(wǎng)絡(luò)

2020-06-17 10:35:16

機(jī)器學(xué)習(xí)AI人工智能

2023-08-29 15:32:57

深度學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)