自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="vliiu"></blockquote>

<blockquote id="vliiu"><p id="vliiu"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

打破「反向傳播」壟斷，「正向自動微分」也能計算梯度，且訓(xùn)練時間減少一半

作者：我在思考中 2022-03-18 12:08:10

人工智能新聞

近日，牛津與微軟等機構(gòu)的多位學(xué)者聯(lián)合提出一種名為「正向梯度」（forward gradient）的自動微分模式，可以完全拋棄反向傳播進行梯度計算。實驗證明，在一些問題中，正向梯度的計算時間是反向傳播的二分之一。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

反向傳播和基于梯度的優(yōu)化是近年來機器學(xué)習(xí)（ML）取得重大突破的核心技術(shù)。

人們普遍認(rèn)為，機器學(xué)習(xí)之所以能夠快速發(fā)展，是因為研究者們使用了第三方框架（如PyTorch、TensorFlow）來解析ML代碼。這些框架不僅具有自動微分（AD）功能，還為本地代碼提供了基礎(chǔ)的計算功能。而ML所依賴的這些軟件框架都是圍繞 AD 的反向模式所構(gòu)建的。這主要是因為在ML中，當(dāng)輸入的梯度為海量時，可以通過反向模式的單次評估進行精確有效的評估。

自動微分算法分為正向模式和反向模式。但正向模式的特點是只需要對一個函數(shù)進行一次正向評估（即沒有用到任何反向傳播），計算成本明顯降低。為此，來自劍橋與微軟等機構(gòu)的研究者們探索這種模式，展示了僅使用正向自動微分也能在一系列機器學(xué)習(xí)框架上實現(xiàn)穩(wěn)定的梯度下降。

論文地址：https://arxiv.org/pdf/2202.08587v1.pdf他們認(rèn)為，正向梯度有利于改變經(jīng)典機器學(xué)習(xí)訓(xùn)練管道的計算復(fù)雜性，減少訓(xùn)練的時間和精力成本，影響機器學(xué)習(xí)的硬件設(shè)計，甚至對大腦中反向傳播的生物學(xué)合理性產(chǎn)生影響。

1 自動微分的兩種模式

首先，我們來簡要回顧一下自動微分的兩種基本模式。

正向模式

給定一個函數(shù) f: θ∈R n，v∈R n，正向模式的AD會計算 f(θ) 和雅可比向量乘積Jf (θ) v，其中Jf (θ) ∈R m×n是f在θ處評估的所有偏導(dǎo)數(shù)的雅可比矩陣，v是擾動向量。對于 f : R n → R 的情況，在雅可比向量乘積對應(yīng)的方向?qū)?shù)用 ?f(θ)- v表示，即在θ處的梯度?f對方向向量v的映射，代表沿著該方向的變化率。值得注意的是，正向模式在一次正向運行中同時評估了函數(shù) f 及其雅可比向量乘積 Jf v。此外，獲得 Jf v 不需要計算雅可比向量Jf，這一特點被稱為無矩陣計算。

反向模式

給定一個函數(shù) f : R n → R m，數(shù)值 θ∈R n，v∈R m，AD反向模式會計算f(θ)和雅可比向量乘積v |Jf (θ)，其中Jf∈R m×n是f在θ處求值的所有偏導(dǎo)數(shù)的雅可比矩陣，v∈R m是一個鄰接的矢量。對于f : R n → R和v = 1的情況，反向模式計算梯度，即f對所有n個輸入的偏導(dǎo)數(shù)?f(θ)=h ?f ?θ1,. . . , ?f ?θn i| 。請注意，v |Jf 是在一次前向-后向評估中進行計算的，而不需要計算雅可比Jf 。

運行時間成本

兩種AD模式的運行時間以運行正在微分的函數(shù) f 所需時間的恒定倍數(shù)為界。反向模式的成本比正向模式高，因為它涉及到數(shù)據(jù)流的反轉(zhuǎn)，而且需要保留正向過程中所有操作結(jié)果的記錄，因為在接下來的反向過程中需要這些記錄來評估導(dǎo)數(shù)。內(nèi)存和計算成本特征最終取決于AD系統(tǒng)實現(xiàn)的功能，如利用稀疏性。成本可以通過假設(shè)基本操作的計算復(fù)雜性來分析，如存儲、加法、乘法和非線性操作。將評估原始函數(shù) f 所需的時間表示設(shè)為 runtime(f)，我們可以將正向和反向模式所需的時間分別表示為 Rf×runtime(f) 和 Rb×runtime(f)。在實踐中，Rf 通常在1到3之間，Rb通常在5到10之間，不過這些結(jié)果都與程序高度相關(guān)。

2 方法

正向梯度

定義1

給定一個函數(shù) f : R n → R，他們將「正向梯度」 g : R n → R n 定義為：

其中，θ∈R n 是評估梯度的關(guān)鍵點，v∈R n 是一個擾動向量，被視為一個多元隨機變量v～p(v)，這樣 v 的標(biāo)量分量 vi 是獨立的，對所有 i 都有零均值和單位方差，?f(θ)-v∈R 是 f 在在 v 方向上 θ 點的方向?qū)?shù)。

簡要地談一下這個定義的由來。

如前所述，正向模式直接給我們提供了方向?qū)?shù)?f(θ) - v = P i ?f ?θi vi，無需計算?f。將 f 正向評估 n 次，方向向量取為標(biāo)準(zhǔn)基（獨熱碼）向量ei∈R n，i=1 ... n，其中ei表示在第i個坐標(biāo)上為1、其他地方為0的向量，這時，只用正向模式就可以計算?f。

這樣就可以分別評估f對每個輸入?f ?θi的敏感性，把所有結(jié)果合并后就可以得到梯度?f。為了獲得比反向傳播更優(yōu)的運行時間優(yōu)勢，我們需要在每個優(yōu)化迭代中運行一次正向模式。在一次正向運行中，我們可以將方向v理解為敏感度加權(quán)和中的權(quán)重向量，即P i ?f ?θi vi，盡管這沒辦法區(qū)分每個θi在最終總數(shù)中的貢獻。因此，我們使用權(quán)重向量v將總體敏感度歸因于每個單獨的參數(shù)θi，與每個參數(shù)θi的權(quán)重vi成正比（例如，權(quán)重小的參數(shù)在總敏感度中的貢獻小，權(quán)重大的參數(shù)貢獻大）。

總之，每次評估正向梯度時，我們只需做以下工作：

對一個隨機擾動向量v～p(v)進行采樣，其大小與f的第一個參數(shù)相同。
通過AD正向模式運行f函數(shù)，在一次正向運行中同時評估f(θ)和?f(θ)-v，在此過程中無需計算?f。得到的方向?qū)?shù)（?f(θ)-v）是一個標(biāo)量，并且由AD精確計算（不是近似值）。
將標(biāo)量方向?qū)?shù)?f(θ)-v與矢量v相乘，得到g(θ)，即正向梯度。

圖 1 顯示了 Beale函數(shù)的幾個正向梯度的評估結(jié)果。我們可以看到擾動vk（橙色）如何在k∈[1，5]的情況下轉(zhuǎn)化為正向梯度（?f-vk）vk（藍(lán)色），在受到指向限制時偶爾也會指向正確的梯度（紅色）。綠色箭頭表示通過平均正向梯度來評估蒙特卡洛梯度，即1 K PK k=1(?f - vk)vk≈E[(?f - v)v]。

正向梯度下降

他們構(gòu)建了一個正向梯度下降（FGD）算法，用正向梯度g代替標(biāo)準(zhǔn)梯度下降中的梯度?f（算法1）。

在實踐中，他們使用小型隨機版本，其中 ft 在每次迭代中都會發(fā)生變化，因為它會被訓(xùn)練中使用的每一小批數(shù)據(jù)影響。研究者注意到，算法 1 中的方向?qū)?shù)dt可以為正負(fù)數(shù)。如果為負(fù)數(shù)，正向梯度gt的方向會發(fā)生逆轉(zhuǎn)，指向預(yù)料中的真實梯度。圖1顯示的兩個vk樣本，證明了這種行為。

在本文中，他們將范圍限制在FGD上，單純研究了這一基礎(chǔ)算法，并將其與標(biāo)準(zhǔn)反向傳播進行比較，不考慮動量或自適應(yīng)學(xué)習(xí)率等其他各種干擾因素。筆者認(rèn)為，正向梯度算法是可以應(yīng)用到其他基于梯度算法的優(yōu)化算法系列中的。

3 實驗

研究者在PyTorch中執(zhí)行正向AD來進行實驗。他們發(fā)現(xiàn)，正向梯度與反向傳播這兩種方法在內(nèi)存上沒有實際差異（每個實驗的差異都小于0.1%）。

邏輯回歸

圖 3 給出了多叉邏輯回歸在MNIST數(shù)字分類上的幾次運行結(jié)果。我們觀察到，相比基本運行時間，正向梯度和反向傳播的運行時間成本分別為 Rf=2.435 和 Rb=4.389，這與人們對典型AD系統(tǒng)的預(yù)期相符。

Rf/Rb=0.555和Tf/Tb=0.553的比率表明，在運行時間和損失性能方面，正向梯度大約比反向傳播快兩倍。

在簡單的模型中，這些比率是一致的，因為這兩種技術(shù)在空間行為的迭代損失上幾乎相同，這意味著運行時收益幾乎直接反映在每個時間空間的損失上。

多層神經(jīng)網(wǎng)絡(luò)

圖4顯示了用多層神經(jīng)網(wǎng)絡(luò)在不同學(xué)習(xí)率下進行MNIST分類的兩個實驗。他們使用了三個架構(gòu)大小分別為1024、1024、10的全連接層。在這個模型架構(gòu)中，他們觀察到正向梯度和反向傳播相對于基礎(chǔ)運行時間的運行成本為Rf=2.468和Rb=4.165，相對測量 Rf/Rb 平均為0.592，與邏輯回歸的情況大致相同。

有趣的是，在第二個實驗中（學(xué)習(xí)率為2×10-4），我們可以看到正向梯度在每個迭代損失圖中都實現(xiàn)了快速的下降。作者認(rèn)為，這種行為是由于常規(guī)SGD（反向傳播）和正向SGD算法的隨機性不同所導(dǎo)致的，因此他們推測：正向梯度引入的干擾可能有利于探索損失平面。

我們可以從時間曲線圖看到，正向模式減少了運行時間。我們看到，損失性能指標(biāo)Tf/Tb值為0.211，這表明在驗證實驗損失的過程中，正向梯度的速度是反向傳播的四倍以上。

卷積神經(jīng)網(wǎng)絡(luò)

圖 5 展示了一個卷積神經(jīng)網(wǎng)絡(luò)對同一MNIST分類任務(wù)的正向梯度和反向傳播的比較。在這個架構(gòu)中，他們觀察到，相對于基本運行時間，正向AD的性能最好，其中正向模式的Rf=1.434，代表了在基本運行時間之上的開銷只有 43%。Rb=2.211 的反向傳播非常接近反向 AD 系統(tǒng)中所期待的理想情況。Rf/Rb=0.649 代表了正向AD運行時間相對于反向傳播的一個顯著優(yōu)勢。在損失空間，他們得到一個比率 Tf /Tb=0.514，這表明在驗證損失的實驗中，正向梯度的速度比反向傳播的速度要快兩倍。

可擴展性

前面的幾個結(jié)果表明：

不用反向傳播也可以在一個典型的ML訓(xùn)練管道中進行訓(xùn)練，并且以一種競爭計算的方式來實現(xiàn)；
在相同參數(shù)（學(xué)習(xí)率和學(xué)習(xí)率衰減）的情況下，正向AD比反向傳播所消耗的時間要少很多。

相對于基礎(chǔ)運行時的成本，我們看到，對于大部分實驗，反向傳播在Rb∈[4,5]內(nèi)，正向梯度在Rf∈[3,4]內(nèi)。我們還觀察到，正向梯度算法在整個范圍內(nèi)對運行都是有利的。Rf/Rb比率在10層以內(nèi)保持在0.6以下，在100層時略高于0.8。重要的是，這兩種方法在內(nèi)存消耗上幾乎沒有差別。

4 結(jié)論

總的來說，這篇工作的幾點貢獻主要如下：

他們將「正向梯度」（forward gradient）定義為：一個無偏差的、基于正向自動微分且毫不涉及到反向傳播的梯度估算器。
他們在PyTorch中從零開始，實現(xiàn)了正向模式的自動微分系統(tǒng)，且完全不依賴PyTorch中已有的反向傳播。
他們把正向梯度模式應(yīng)用在各類隨機梯度下降（SGD）優(yōu)化中，最后的結(jié)果充分證明了：一個典型的現(xiàn)代機器學(xué)習(xí)訓(xùn)練管道可以只使用自動微分正向傳播來構(gòu)建。
他們比較了正向梯度和反向傳播的運行時間和損失消耗等等，證明了在一些情況下，正向梯度算法的速度比反向傳播快兩倍。

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

微分計算模式

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sup id="t1a33"><rt id="t1a33"></rt></sup>

<sub id="t1a33"><i id="t1a33"></i></sub>

<p id="t1a33"><li id="t1a33"><pre id="t1a33"></pre></li></p>

<blockquote id="t1a33"><rt id="t1a33"></rt></blockquote>