自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從貝葉斯角度,看深度學(xué)習(xí)的屬性和改進方法

開發(fā) 開發(fā)工具
深度學(xué)習(xí)是一種高效的非線性高維數(shù)據(jù)處理方法,它可以更自然地解釋為一種工程或算法,而本論文希望從貝葉斯的角度將深度學(xué)習(xí)看作是一種廣義線性模型的堆疊而提供一些新的研究視角和應(yīng)用方向。

深度學(xué)習(xí)是一種高效的非線性高維數(shù)據(jù)處理方法,它可以更自然地解釋為一種工程或算法,而本論文希望從貝葉斯的角度將深度學(xué)習(xí)看作是一種廣義線性模型的堆疊而提供一些新的研究視角和應(yīng)用方向。論文首先論文首先從將單變量半仿射函數(shù)疊加構(gòu)建高維映射的方法解釋深度學(xué)習(xí),然后從深度概率模型、貝葉斯預(yù)測器到算法問題進一步探討其特性。機器之心對本論文的部分內(nèi)容進行了編譯介紹。論文地址:https://arxiv.org/abs/1706.00473。

從貝葉斯角度,看深度學(xué)習(xí)的屬性和改進方法

深度學(xué)習(xí)是一種為非線性高維數(shù)據(jù)進行降維和預(yù)測的機器學(xué)習(xí)方法。而從貝葉斯概率視角描述深度學(xué)習(xí)會產(chǎn)生很多優(yōu)勢,即具體從統(tǒng)計的解釋和屬性,從對優(yōu)化和超參數(shù)調(diào)整更有效的算法,以及預(yù)測性能的解釋這幾個方面進一步闡述。同時,傳統(tǒng)的高維統(tǒng)計技術(shù):主成分分析法(PCA)、偏最小二乘法(PLS)、降秩回歸(RRR)、投影尋蹤回歸(PPR)等方法將在淺層學(xué)習(xí)器(shallow learner)那一部分展示。這些傳統(tǒng)降維方法的深度學(xué)習(xí)形式可以利用多層數(shù)據(jù)降維而令性能達到一個較大提升。隨機梯度下降(SGD)通過訓(xùn)練、優(yōu)化和 Dropout(DO)能選擇模型和變量。貝葉斯正則化(Bayesian regularization)是尋找***網(wǎng)絡(luò)和提供***偏差-方差權(quán)衡框架以實現(xiàn)良好樣本性能的核心。我們還討論了高維中構(gòu)建良好的貝葉斯預(yù)測因子。為了證明我們的方法,我們對 Airbnb ***國際預(yù)訂的樣本進行了分析。***,我們討論了該研究未來的方向。

1. 引言

深度學(xué)習(xí)(DL)是一種使用分層隱含變量的機器學(xué)習(xí)方法。深度學(xué)習(xí)可以看作為一個概率模型,其中條件均值指定為廣義線性模型的堆疊(sGLM)。

深度學(xué)習(xí)是一個非線性高維數(shù)據(jù)降維的方案,其理論基礎(chǔ)來源于 Kolmogorov 將多元反應(yīng)曲面(multivariate response surfaces)表征為單變量半仿射函數(shù)的疊加。深度學(xué)習(xí)自然上更是一種算法而不是概率模型,因此我們希望通過提供一個深度學(xué)習(xí)范式的貝葉斯視角來促進一些方面的理解與研究,如更快的隨機算法、優(yōu)化的調(diào)參方法和可解釋性模型等方面。

從經(jīng)驗上來說,深度學(xué)習(xí)的改進主要來自三個部分:

  • 新的激活函數(shù),比如使用 ReLU 替代歷來使用的 Sigmoid 函數(shù)
  • 架構(gòu)的深度和采用 dropout 作為變量選擇技術(shù)
  • 常規(guī)訓(xùn)練和評價模型的計算效率由于圖形處理單元(GPU)和張量處理單元(TPU)的使用而大大加速

1.1 深度學(xué)習(xí)

機器學(xué)習(xí)在給定一個高維輸入 X 的情況下訓(xùn)練一個得到輸出 Y 的預(yù)測器。因此,一個學(xué)習(xí)器就是一種輸入和輸出之間的映射。其中輸出 Y = F (X),而輸入空間 X 是一種高維空間,即我們可以表示為:

輸出 Y 可以為回歸問題中的連續(xù)值或分類問題中的離散值,當(dāng)然也可以是兩者混合。例如在分類問題中,我們需要學(xué)習(xí)一個映射 F : X → Y,其中 Y ∈ {1,...,K} 指向不同的類別。因此預(yù)測器就可以定義為:

為了構(gòu)建一個多元函數(shù) F (X),我們需要一步步構(gòu)建模塊。首先我們令 f1 到 fl 為單變量激活函數(shù),所以一個半仿射(semi-affine)激活規(guī)則就由下方程給出:

給定 L 層,疊加(復(fù)合)預(yù)測就可以定義為:

因此,給定一定層級數(shù)量 L,我們的深度預(yù)測器就成為了復(fù)合映射:

簡而言之,一個高維映射 F 可以通過單變量半仿射函數(shù)的疊加來建模。類似于經(jīng)典的基礎(chǔ)分解(basis decomposition),該深度方法使用單變量激活函數(shù)分解高維輸入矩陣 X。為了選擇隱藏單元(也稱神經(jīng)元)的數(shù)量 Nl,在每一層我們都會使用 dropout。偏置向量是必不可少的,例如我們使用不帶常數(shù)項的 b 的函數(shù) f (x) = sin(x) 甚至都不能逼近擬合像 cos(x) 那樣的函數(shù),而一個偏置項(即 sin(x + π/2) = cos(x))就很容易解決這樣的問題。

現(xiàn)在定義 Z (l) 指代第 l 層神經(jīng)網(wǎng)絡(luò),所以輸入向量 X 就可以表示為 Z(0)。最終的輸出是 Y,其可以是數(shù)值型(numeric)或分類型(categorical)。因此,深度預(yù)測規(guī)則就可以表達為:

其中,圖 1 展示了深度神經(jīng)網(wǎng)絡(luò)常用的架構(gòu),即前饋網(wǎng)絡(luò)、自編碼器、卷積網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)、長短期記憶和神經(jīng)圖靈機。一旦系統(tǒng)訓(xùn)練得出了一個高階非零權(quán)重矩陣,其中就暗含了一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

深度學(xué)習(xí)最常見的建模架構(gòu)

圖 1:深度學(xué)習(xí)最常見的建模架構(gòu)

2. 深度概率學(xué)習(xí)

從概率上來說,輸出 Y 能看作是概率模型生成的隨機變量,預(yù)測器中參數(shù)分別為權(quán)重 w 和參數(shù) b。

 

現(xiàn)在定義負對數(shù)似然 L 為:

L2 范數(shù)是傳統(tǒng)的最小二乘法,而交叉熵函數(shù)提供了多類 logistic 分類的等價形式。

 

正則項 λφ(W, b) 可以從概率上解釋為參數(shù)的負對數(shù)先驗分布:

深度預(yù)測器是經(jīng)正則化的***后驗估計(MAP)量,其中

訓(xùn)練需要找到高度非線性函數(shù)的***解:

其中對數(shù)后驗函數(shù)通過訓(xùn)練數(shù)據(jù)進行優(yōu)化,即:

 

 

 

深度學(xué)習(xí)的主要梯度特性在為復(fù)雜架構(gòu)和大型數(shù)據(jù)集上使用張量方法計算是十分節(jié)約計算資源的。TensorFlow 和 TPU 為多種神經(jīng)網(wǎng)絡(luò)架構(gòu)提供了***秀的框架。從統(tǒng)計學(xué)的角度來看,我們要注意后驗概率是高度多模態(tài)的,而提供良好的超參數(shù)調(diào)節(jié)(hyper-parameter tuning)可能成本非常大。顯然,應(yīng)用***秀的隨機貝葉斯 MCMC 算法以提供更高效的方法是一個成果豐富的領(lǐng)域。對于淺層架構(gòu),我們提出了可變向方法的乘數(shù)器(ADMM)作為優(yōu)化問題非常有效的解決方案。

 

2.1 對于模型和變量選擇的 Dropout

Dropout 是一種模型選擇技術(shù),其旨在避免在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,Dropout 的基本做法是在給定概率 p 的情況下隨機移除輸入數(shù)據(jù) X 的維度。因此,探討一下其如何影響潛在損失函數(shù)和***化問題是有啟發(fā)性的。

2.2 淺層學(xué)習(xí)器

幾乎所有的淺層數(shù)據(jù)降維技術(shù)都可以視為由低維輔助變量 Z 和合成函數(shù)指定的預(yù)測規(guī)則所組成:

因此該高維數(shù)據(jù)降維問題就是尋找 Z 變量并正確地估計層級函數(shù) (f1 , f 2 )。在這些層級中,我們希望不忽視預(yù)測輸出 Y 的信息情況下發(fā)現(xiàn)低維 Z-結(jié)構(gòu)。

2.3 堆疊的自編碼器

自編碼器是一種非常重要的數(shù)據(jù)降維方法。而自編碼器是一個深度學(xué)習(xí)架構(gòu),其旨在復(fù)制 X、令 X=Y,再通過 bottleneck 結(jié)構(gòu)達到降維效果。這意味著我們選擇一個模型。該模型旨在濃縮必要的信息以重新創(chuàng)造 X。

 

3. 尋找好的貝葉斯預(yù)測器

貝葉斯方法通過很多方式解決優(yōu)良預(yù)測性能這一問題。其目標(biāo)是找到一個良好的均方誤差(MSE)預(yù)測:

樹型核函數(shù)和隨機森林核函數(shù)

圖 2:樹型核函數(shù)和隨機森林核函數(shù)

圖 3:50 維度的球體(50-dimensional ball)和蒙特卡羅抽樣結(jié)果的二維圖像

Y ~ U(Bp) 的邊緣分布直方圖,其中 p 為不同的維度數(shù)量

圖 4:Y ∼ U(Bp) 的邊緣分布直方圖,其中 p 為不同的維度數(shù)量。

由帶有 ReLU 激活函數(shù)的三個神經(jīng)元所定義的超平面

圖 5:由帶有 ReLU 激活函數(shù)的三個神經(jīng)元所定義的超平面。

由樹型架構(gòu)(頂行)和深度學(xué)習(xí)架構(gòu)(底行)對三個不同數(shù)據(jù)集做所得的空間劃分結(jié)果

圖 6:由樹型架構(gòu)(頂行)和深度學(xué)習(xí)架構(gòu)(底行)對三個不同數(shù)據(jù)集做所得的空間劃分結(jié)果

4. 算法問題

4.1 隨機梯度下降

隨機梯度下降(SGD)是用于極小化損失函數(shù) f(W,b)(即***化似然函數(shù))的默認標(biāo)準(zhǔn)方法,可用于找到深度學(xué)習(xí)的權(quán)重和偏置。SGD 在第 k 次迭代更新時只是簡單地通過減去梯度∇f (W k, b k ) 的估計值來極小化損失函數(shù)。該梯度可以通過被應(yīng)用于半仿射函數(shù)的疊加上的鏈?zhǔn)揭?guī)則來獲取。其近似梯度可以通過下面的計算來估計:

其中 Ek ⊂ {1,...,T } 且 |Ek | 是 Ek 中元素的數(shù)量。

當(dāng) |Ek | > 1 時,該算法被稱為 batch SGD 或就是 SGD。一般而言,子集 E 是通過在 {1,...,T } 中循環(huán)選取的連續(xù)元素,Ek+1 = [Ek mod T ]+1。方向 gk 是使用一個鏈?zhǔn)揭?guī)則(即反向傳播)計算的,提供了 ∇f (W k· , b k ) 的一個無偏置的估計量。具體來說,我們有:

在每次迭代,SGD 會更新解

4.2 學(xué)習(xí)淺層預(yù)測器

傳統(tǒng)的因子模型(factor model)才用 K 個隱藏因子 {F1 , F2 ,..., Fk } 的線性組合:

其中因子 Fk 和權(quán)重 Bik 能通過及解以下方程而得出:

其中 l 等于 1 或 2,即可用 L1 范數(shù)或 L2 范數(shù)?,F(xiàn)在我們最小化重構(gòu)誤差(即精度)并加上正則化罰項以控制其他樣本預(yù)測的方差-偏差均衡?,F(xiàn)有很多算法可以高效地解決這類問題,比如說如果采用 L2 范數(shù)和高效的激活函數(shù)就能將模型表征為神經(jīng)網(wǎng)絡(luò)模型。

5. 應(yīng)用:預(yù)測 Airbnb 預(yù)訂

為了闡釋這種深度學(xué)習(xí)范式,我們使用了一個由 Airbnb 提供給 Kaggle 比賽的數(shù)據(jù)集來進行我們的實驗分析。實驗?zāi)繕?biāo)是構(gòu)建一個預(yù)測模型,使之能夠預(yù)測一個新用戶將會在哪個國家進行他或她的***預(yù)訂。

深度學(xué)習(xí)模型的預(yù)測準(zhǔn)確度

圖 11:深度學(xué)習(xí)模型的預(yù)測準(zhǔn)確度。

圖 11中(a) 給出了當(dāng)僅使用預(yù)測的目的地時的預(yù)測準(zhǔn)確度;(b) 給出了當(dāng)預(yù)測國家是被預(yù)測列表中的前兩位時,正確預(yù)測所占的正確比例;(c) 給出了當(dāng)預(yù)測國家是被預(yù)測列表中的前三位時,正確預(yù)測所占的正確比例

由 XGBoost 模型識別出的 15 個最重要的特征

圖 12:由 XGBoost 模型識別出的 15 個最重要的特征

6. 討論

深度學(xué)習(xí)可被視為高維非線性數(shù)據(jù)降維方案。而基于深度學(xué)習(xí)的貝葉斯概率模型是一種疊加的廣義線性模型(GLM)。因此,其成功地闡明了使用 SGD 訓(xùn)練深度架構(gòu),但同時 SGD 又是一種一階梯度方法,所以尋找到的后驗?zāi)J饺匀皇呛芨呔S度的空間。通過采用預(yù)測性的方法(其中正則化起到了很大的作用),深度學(xué)習(xí)取得了成功。

下面展示了許多貝葉斯深度學(xué)習(xí)以后可能會應(yīng)用的領(lǐng)域:

  • 通過將深度學(xué)習(xí)概率性地看作有 GLM 疊加的模型,我們打開了許多統(tǒng)計模型的思路,包括指數(shù)簇模型(exponential family model)和異方差誤差(heteroscedastic errors)等。
  • 貝葉斯層級模型和深度學(xué)習(xí)有很多相似的優(yōu)勢。貝葉斯層級模型包括額外的隨機層,因此也提供額外的可解釋性和靈活性。
  • 另一個途徑是組合近端算法(combining proximal algorithms)和 MCMC。
  • 通過鏈?zhǔn)椒▌t(即反向傳播算法)可以很容易獲得梯度信息,如今有很好的隨機方法擬合現(xiàn)存的神經(jīng)網(wǎng)絡(luò),如 MCMC、HMC、近端方法和 ADMM,它們都能大大減少深度學(xué)習(xí)的訓(xùn)練時間。
  • 超參數(shù)調(diào)節(jié)
  • 相比于傳統(tǒng)貝葉斯非參數(shù)方法,在貝葉斯非參數(shù)方法中使用超平面應(yīng)該產(chǎn)生良好的預(yù)測器。
  • 深度學(xué)習(xí)在計算機軟件有很好的應(yīng)用,其可以用于貝葉斯計算(純 MCMC 模型計算太慢)。
  • 用于調(diào)整超參數(shù)和***化有更好的貝葉斯算法。Langevin diffusion MCMC 、proximal MCMC 和哈密頓蒙特卡羅方法(HMC)可像 Hessian 信息那樣用導(dǎo)數(shù)表示。

我們不會搜索整個價值矩陣而希望得到均方誤差,但我們可以對這些參數(shù)進一步添加正則項罰項,并將其整合到算法中。MCMC 方法在過去 30 年中有很大的發(fā)展,在給定高性能計算下,我們現(xiàn)在可以在大數(shù)據(jù)集上實現(xiàn)高維后驗推斷,貝葉斯推斷現(xiàn)在也有同樣的優(yōu)勢。此外,我們認為深度學(xué)習(xí)模型在很多應(yīng)用場景下有很大的潛力。例如在金融中,深度學(xué)習(xí)是一種非線性因子模型,每一層捕捉不同的時間尺度效應(yīng)(time scale effects),時空數(shù)據(jù)(spatio-temporal data)也可以視為在空間—時間上的圖像,深度學(xué)習(xí)就提供了一種用于恢復(fù)非線性復(fù)雜關(guān)系的模式匹配技術(shù)。

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-05-21 14:50:37

算法深度學(xué)習(xí)人工智能

2012-09-24 10:13:35

貝葉斯

2022-05-06 12:13:55

模型AI

2017-08-07 13:02:32

全棧必備貝葉斯

2021-07-23 11:48:16

深度學(xué)習(xí)醫(yī)療人工智能

2023-01-31 15:49:51

機器學(xué)習(xí)函數(shù)評分函數(shù)

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2017-07-24 10:36:37

Python機器學(xué)習(xí)樸素貝葉斯

2021-08-30 11:53:36

機器學(xué)習(xí)人工智能計算機

2017-03-21 09:17:37

2022-10-30 14:54:58

測試數(shù)據(jù)貝葉斯推理

2022-09-28 08:00:00

Python機器學(xué)習(xí)算法

2024-11-11 15:02:16

2024-02-19 00:00:00

模型BDL深度學(xué)習(xí)

2013-05-08 09:05:48

狐貍貝葉斯大數(shù)據(jù)

2021-05-06 09:05:11

深度學(xué)習(xí)

2019-04-28 16:10:50

設(shè)計Redux前端

2017-03-29 14:50:18

2016-08-30 00:14:09

大數(shù)據(jù)貝葉斯
點贊
收藏

51CTO技術(shù)棧公眾號