自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

聽說(shuō)你了解深度學(xué)習(xí)最常用的學(xué)習(xí)算法:Adam優(yōu)化算法?

移動(dòng)開發(fā) 深度學(xué)習(xí) 算法
Adam 優(yōu)化算法是隨機(jī)梯度下降算法的擴(kuò)展式,近來(lái)其廣泛用于深度學(xué)習(xí)應(yīng)用中,尤其是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等任務(wù)。

深度學(xué)習(xí)常常需要大量的時(shí)間和機(jī)算資源進(jìn)行訓(xùn)練,這也是困擾深度學(xué)習(xí)算法開發(fā)的重大原因。雖然我們可以采用分布式并行訓(xùn)練加速模型的學(xué)習(xí),但所需的計(jì)算資源并沒(méi)有絲毫減少。而唯有需要資源更少、令模型收斂更快的***化算法,才能從根本上加速機(jī)器的學(xué)習(xí)速度和效果,Adam 算法正為此而生!

Adam 優(yōu)化算法是隨機(jī)梯度下降算法的擴(kuò)展式,近來(lái)其廣泛用于深度學(xué)習(xí)應(yīng)用中,尤其是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等任務(wù)。本文分為兩部分,前一部分簡(jiǎn)要介紹了 Adam 優(yōu)化算法的特性和其在深度學(xué)習(xí)中的應(yīng)用,后一部分從 Adam 優(yōu)化算法的原論文出發(fā),詳細(xì)解釋和推導(dǎo)了它的算法過(guò)程和更新規(guī)則。我們希望讀者在讀完兩部分后能了解掌握以下幾點(diǎn):

  • Adam 算法是什么,它為優(yōu)化深度學(xué)習(xí)模型帶來(lái)了哪些優(yōu)勢(shì)。
  • Adam 算法的原理機(jī)制是怎么樣的,它與相關(guān)的 AdaGrad 和 RMSProp 方法有什么區(qū)別。
  • Adam 算法應(yīng)該如何調(diào)參,它常用的配置參數(shù)是怎么樣的。
  • Adam 的實(shí)現(xiàn)優(yōu)化的過(guò)程和權(quán)重更新規(guī)則
  • Adam 的初始化偏差修正的推導(dǎo)
  • Adam 的擴(kuò)展形式:AdaMax

什么是 Adam 優(yōu)化算法?

Adam 是一種可以替代傳統(tǒng)隨機(jī)梯度下降過(guò)程的一階優(yōu)化算法,它能基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重。Adam 最開始是由 OpenAI 的 Diederik Kingma 和多倫多大學(xué)的 Jimmy Ba 在提交到 2015 年 ICLR 論文(Adam: A Method for Stochastic Optimization)中提出的。本文前后兩部分都基于該論文的論述和解釋。

首先該算法名為「Adam」,其并不是首字母縮寫,也不是人名。它的名稱來(lái)源于適應(yīng)性矩估計(jì)(adaptive moment estimation)。在介紹這個(gè)算法時(shí),原論文列舉了將 Adam 優(yōu)化算法應(yīng)用在非凸優(yōu)化問(wèn)題中所獲得的優(yōu)勢(shì):

  • 直截了當(dāng)?shù)貙?shí)現(xiàn)
  • 高效的計(jì)算
  • 所需內(nèi)存少
  • 梯度對(duì)角縮放的不變性(第二部分將給予證明)
  • 適合解決含大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題
  • 適用于非穩(wěn)態(tài)(non-stationary)目標(biāo)
  • 適用于解決包含很高噪聲或稀疏梯度的問(wèn)題
  • 超參數(shù)可以很直觀地解釋,并且基本上只需極少量的調(diào)參

Adam 優(yōu)化算法的基本機(jī)制

Adam 算法和傳統(tǒng)的隨機(jī)梯度下降不同。隨機(jī)梯度下降保持單一的學(xué)習(xí)率(即 alpha)更新所有的權(quán)重,學(xué)習(xí)率在訓(xùn)練過(guò)程中并不會(huì)改變。而 Adam 通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率。

Adam 算法的提出者描述其為兩種隨機(jī)梯度下降擴(kuò)展式的優(yōu)點(diǎn)集合,即:

  • 適應(yīng)性梯度算法(AdaGrad)為每一個(gè)參數(shù)保留一個(gè)學(xué)習(xí)率以提升在稀疏梯度(即自然語(yǔ)言和計(jì)算機(jī)視覺(jué)問(wèn)題)上的性能。
  • 均方根傳播(RMSProp)基于權(quán)重梯度最近量級(jí)的均值為每一個(gè)參數(shù)適應(yīng)性地保留學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線問(wèn)題上有很有優(yōu)秀的性能。

Adam 算法同時(shí)獲得了 AdaGrad 和 RMSProp 算法的優(yōu)點(diǎn)。Adam 不僅如 RMSProp 算法那樣基于一階矩均值計(jì)算適應(yīng)性參數(shù)學(xué)習(xí)率,它同時(shí)還充分利用了梯度的二階矩均值(即有偏方差/uncentered variance)。具體來(lái)說(shuō),算法計(jì)算了梯度的指數(shù)移動(dòng)均值(exponential moving average),超參數(shù) beta1 和 beta2 控制了這些移動(dòng)均值的衰減率。

移動(dòng)均值的初始值和 beta1、beta2 值接近于 1(推薦值),因此矩估計(jì)的偏差接近于 0。該偏差通過(guò)首先計(jì)算帶偏差的估計(jì)而后計(jì)算偏差修正后的估計(jì)而得到提升。如果對(duì)具體的實(shí)現(xiàn)細(xì)節(jié)和推導(dǎo)過(guò)程感興趣,可以繼續(xù)閱讀該第二部分和原論文。

Adam 算法的高效性

Adam 在深度學(xué)習(xí)領(lǐng)域內(nèi)是十分流行的算法,因?yàn)樗芎芸斓貙?shí)現(xiàn)優(yōu)良的結(jié)果。經(jīng)驗(yàn)性結(jié)果證明 Adam 算法在實(shí)踐中性能優(yōu)異,相對(duì)于其他種類的隨機(jī)優(yōu)化算法具有很大的優(yōu)勢(shì)。

在原論文中,作者經(jīng)驗(yàn)性地證明了 Adam 算法的收斂性符合理論性的分析。Adam 算法可以在 MNIST 手寫字符識(shí)別和 IMDB 情感分析數(shù)據(jù)集上應(yīng)用優(yōu)化 logistic 回歸算法,也可以在 MNIST 數(shù)據(jù)集上應(yīng)用于多層感知機(jī)算法和在 CIFAR-10 圖像識(shí)別數(shù)據(jù)集上應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)。他們總結(jié)道:「在使用大型模型和數(shù)據(jù)集的情況下,我們證明了 Adam 優(yōu)化算法在解決局部深度學(xué)習(xí)問(wèn)題上的高效性?!?/p>

Adam 優(yōu)化算法和其他優(yōu)化算法在多層感知機(jī)模型中的對(duì)比

事實(shí)上,Insofar、RMSprop、Adadelta 和 Adam 算法都是比較類似的優(yōu)化算法,他們都在類似的情景下都可以執(zhí)行地非常好。但是 Adam 算法的偏差修正令其在梯度變得稀疏時(shí)要比 RMSprop 算法更快速和優(yōu)秀。Insofar 和 Adam 優(yōu)化算法基本是***的全局選擇。同樣在 CS231n 課程中,Adam 算法也推薦作為默認(rèn)的優(yōu)化算法。

雖然 Adam 算法在實(shí)踐中要比 RMSProp 更加優(yōu)秀,但同時(shí)我們也可以嘗試 SGD+Nesterov 動(dòng)量來(lái)作為 Adam 的替代。即我們通常推薦在深度學(xué)習(xí)模型中使用 Adam 算法或 SGD+Nesterov 動(dòng)量法。

Adam 的參數(shù)配置

  • alpha:同樣也稱為學(xué)習(xí)率或步長(zhǎng)因子,它控制了權(quán)重的更新比率(如 0.001)。較大的值(如 0.3)在學(xué)習(xí)率更新前會(huì)有更快的初始學(xué)習(xí),而較小的值(如 1.0E-5)會(huì)令訓(xùn)練收斂到更好的性能。
  • beta1:一階矩估計(jì)的指數(shù)衰減率(如 0.9)。
  • beta2:二階矩估計(jì)的指數(shù)衰減率(如 0.999)。該超參數(shù)在稀疏梯度(如在 NLP 或計(jì)算機(jī)視覺(jué)任務(wù)中)中應(yīng)該設(shè)置為接近 1 的數(shù)。
  • epsilon:該參數(shù)是非常小的數(shù),其為了防止在實(shí)現(xiàn)中除以零(如 10E-8)。

另外,學(xué)習(xí)率衰減同樣可以應(yīng)用到 Adam 中。原論文使用衰減率 alpha = alpha/sqrt(t) 在 logistic 回歸每個(gè) epoch(t) 中都得到更新。

Adam 論文建議的參數(shù)設(shè)定:

測(cè)試機(jī)器學(xué)習(xí)問(wèn)題比較好的默認(rèn)參數(shù)設(shè)定為:alpha=0.001、beta1=0.9、beta2=0.999 和 epsilon=10E−8。

我們也可以看到流行的深度學(xué)習(xí)庫(kù)都采用了該論文推薦的參數(shù)作為默認(rèn)設(shè)定。

  • TensorFlow:learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08.
  • Keras:lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0.
  • Blocks:learning_rate=0.002, beta1=0.9, beta2=0.999, epsilon=1e-08, decay_factor=1.
  • Lasagne:learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08
  • Caffe:learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08
  • MxNet:learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8
  • Torch:learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8

在***部分中,我們討論了 Adam 優(yōu)化算法在深度學(xué)習(xí)中的基本特性和原理:

  • Adam 是一種在深度學(xué)習(xí)模型中用來(lái)替代隨機(jī)梯度下降的優(yōu)化算法。
  • Adam 結(jié)合了 AdaGrad 和 RMSProp 算法***的性能,它還是能提供解決稀疏梯度和噪聲問(wèn)題的優(yōu)化方法。
  • Adam 的調(diào)參相對(duì)簡(jiǎn)單,默認(rèn)參數(shù)就可以處理絕大部分的問(wèn)題。

而接下來(lái)的第二部分我們可以從原論文出發(fā)具體展開 Adam 算法的過(guò)程和更新規(guī)則等。

論文:Adam: A Method for Stochastic Optimization

我們提出了 Adam 算法,即一種對(duì)隨機(jī)目標(biāo)函數(shù)執(zhí)行一階梯度優(yōu)化的算法,該算法基于適應(yīng)性低階矩估計(jì)。Adam 算法很容易實(shí)現(xiàn),并且有很高的計(jì)算效率和較低的內(nèi)存需求。Adam 算法梯度的對(duì)角縮放(diagonal rescaling)具有不變性,因此很適合求解帶有大規(guī)模數(shù)據(jù)或參數(shù)的問(wèn)題。該算法同樣適用于解決大噪聲和稀疏梯度的非穩(wěn)態(tài)(non-stationary)問(wèn)題。超參數(shù)可以很直觀地解釋,并只需要少量調(diào)整。本論文還討論了 Adam 算法與其它一些相類似的算法。我們分析了 Adam 算法的理論收斂性,并提供了收斂率的區(qū)間,我們證明收斂速度在在線凸優(yōu)化框架下達(dá)到了***。經(jīng)驗(yàn)結(jié)果也展示了 Adam 算法在實(shí)踐上比得上其他隨機(jī)優(yōu)化方法。***,我們討論了 AdaMax,即一種基于無(wú)窮范數(shù)(infinity norm)的 Adam 變體。

如上算法所述,在確定了參數(shù)α、β1、β2 和隨機(jī)目標(biāo)函數(shù) f(θ) 之后,我們需要初始化參數(shù)向量、一階矩向量、二階矩向量和時(shí)間步。然后當(dāng)參數(shù)θ沒(méi)有收斂時(shí),循環(huán)迭代地更新各個(gè)部分。即時(shí)間步 t 加 1、更新目標(biāo)函數(shù)在該時(shí)間步上對(duì)參數(shù)θ所求的梯度、更新偏差的一階矩估計(jì)和二階原始矩估計(jì),再計(jì)算偏差修正的一階矩估計(jì)和偏差修正的二階矩估計(jì),然后再用以上計(jì)算出來(lái)的值更新模型的參數(shù)θ。

2. 算法

上圖偽代碼為展現(xiàn)了 Adam 算法的基本步驟。假定 f(θ) 為噪聲目標(biāo)函數(shù):即關(guān)于參數(shù)θ可微的隨機(jī)標(biāo)量函數(shù)。我們對(duì)怎樣減少該函數(shù)的期望值比較感興趣,即對(duì)于不同參數(shù)θ,f 的期望值 E[f(θ)]。其中 f1(θ), ..., , fT (θ) 表示在隨后時(shí)間步 1, ..., T 上的隨機(jī)函數(shù)值。這里的隨機(jī)性來(lái)源于隨機(jī)子樣本(小批量)上的評(píng)估和固有的函數(shù)噪聲。而表示 ft(θ) 關(guān)于θ的梯度,即在實(shí)踐步驟 t 下 ft 對(duì)θ的偏導(dǎo)數(shù)向量。

該算法更新梯度的指數(shù)移動(dòng)均值(mt)和平方梯度(vt),而參數(shù) β1、β2 ∈ [0, 1) 控制了這些移動(dòng)均值(moving average)指數(shù)衰減率。移動(dòng)均值本身使用梯度的一階矩(均值)和二階原始矩(有偏方差)進(jìn)行估計(jì)。然而因?yàn)檫@些移動(dòng)均值初始化為 0 向量,所以矩估計(jì)值會(huì)偏差向 0,特別是在初始時(shí)間步中和衰減率非常小(即β接近于 1)的情況下是這樣的。但好消息是,初始化偏差很容易抵消,因此我們可以得到偏差修正(bias-corrected)的估計(jì) mt hat 和 vt hat。

注意算法的效率可以通過(guò)改變計(jì)算順序而得到提升,例如將偽代碼***三行循環(huán)語(yǔ)句替代為以下兩個(gè):

2.1 Adam 的更新規(guī)則

Adam 算法更新規(guī)則的一個(gè)重要特征就是它會(huì)很謹(jǐn)慎地選擇步長(zhǎng)的大小。假定ε=0,則在時(shí)間步 t 和參數(shù)空間上的有效下降步長(zhǎng)為有效下降步長(zhǎng)有兩個(gè)上確界:即在情況下,有效步長(zhǎng)的上確界滿足和其他情況下滿足 |∆t| ≤ α。***種情況只有在極其稀疏的情況下才會(huì)發(fā)生:即梯度除了當(dāng)前時(shí)間步不為零外其他都為零。而在不那么稀疏的情況下,有效步長(zhǎng)將會(huì)變得更小。當(dāng)

時(shí),我們有,因此可以得出上確界 |∆t| < α。在更通用的場(chǎng)景中,因?yàn)?nbsp;|E[g]/ p E[g^2]| ≤ 1,我們有。每一個(gè)時(shí)間步的有效步長(zhǎng)在參數(shù)空間中的量級(jí)近似受限于步長(zhǎng)因子α,即。這個(gè)可以理解為在當(dāng)前參數(shù)值下確定一個(gè)置信域,因此其要優(yōu)于沒(méi)有提供足夠信息的當(dāng)前梯度估計(jì)。這正可以令其相對(duì)簡(jiǎn)單地提前知道α正確的范圍。

對(duì)于許多機(jī)器學(xué)習(xí)模型來(lái)說(shuō),我們知道好的***狀態(tài)是在參數(shù)空間內(nèi)的集合域上有極高的概率。這并不罕見,例如我們可以在參數(shù)上有一個(gè)先驗(yàn)分布。因?yàn)?alpha;確定了參數(shù)空間內(nèi)有效步長(zhǎng)的量級(jí)(即上確界),我們常常可以推斷出α的正確量級(jí),而***解也可以從θ0 開始通過(guò)一定量的迭代而達(dá)到。我們可以將稱之為信噪比(signal-to-noise ratio/SNR)。如果 SNR 值較小,那么有效步長(zhǎng)∆t 將接近于 0,目標(biāo)函數(shù)也將收斂到極值。這是非常令人滿意的屬性,因?yàn)樵叫〉?nbsp;SNR 就意味著算法對(duì)方向是否符合真實(shí)梯度方向存在著越大的不確定性。例如,SNR 值在***解附近趨向于 0,因此也會(huì)在參數(shù)空間有更小的有效步長(zhǎng):即一種自動(dòng)退火(automatic annealing)的形式。有效步長(zhǎng)∆t 對(duì)于梯度縮放來(lái)說(shuō)仍然是不變量,我們?nèi)绻靡蜃?nbsp;c 重縮放(rescaling)梯度 g,即相當(dāng)于用因子 c 重縮放和用因子 c^2 縮放,而在計(jì)算信噪比時(shí)縮放因子會(huì)得到抵消:

3 初始化偏差修正

正如本論文第二部分算法所述,Adam 利用了初始化偏差修正項(xiàng)。本部分將由二階矩估計(jì)推導(dǎo)出這一偏差修正項(xiàng),一階矩估計(jì)的推導(dǎo)完全是相似的。首先我們可以求得隨機(jī)目標(biāo)函數(shù) f 的梯度,然后我們希望能使用平方梯度(squared gradient)的指數(shù)移動(dòng)均值和衰減率β2 來(lái)估計(jì)它的二階原始矩(有偏方差)。令 g1, ..., gT 為時(shí)間步序列上的梯度,其中每個(gè)梯度都服從一個(gè)潛在的梯度分布 gt ∼ p(gt)?,F(xiàn)在我們初始化指數(shù)移動(dòng)均值 v0=0(零向量),而指數(shù)移動(dòng)均值在時(shí)間步 t 的更新可表示為:其中 gt^2 表示 Hadamard 積 gt⊙gt,即對(duì)應(yīng)元素之間的乘積。同樣我們可以將其改寫為在前面所有時(shí)間步上只包含梯度和衰減率的函數(shù),即消去 v:

我們希望知道時(shí)間步 t 上指數(shù)移動(dòng)均值的期望值 E[vt] 如何與真實(shí)的二階矩相關(guān)聯(lián),所以我們可以對(duì)這兩個(gè)量之間的偏差進(jìn)行修正。下面我們同時(shí)對(duì)表達(dá)式(1)的左邊和右邊去期望,即如下所示:

如果真實(shí)二階矩 E[g 2 i ] 是靜態(tài)的(stationary),那么ζ = 0。否則 ζ 可以保留一個(gè)很小的值,這是因?yàn)槲覀儜?yīng)該選擇指數(shù)衰減率 β1 以令指數(shù)移動(dòng)均值分配很小的權(quán)重給梯度。所以初始化均值為零向量就造成了只留下了 (1 − βt^2 ) 項(xiàng)。我們因此在算法 1 中除以了ζ項(xiàng)以修正初始化偏差。

在稀疏矩陣中,為了獲得一個(gè)可靠的二階矩估計(jì),我們需要選擇一個(gè)很小的 β2 而在許多梯度上取均值。然而正好是這種小β2 值的情況導(dǎo)致了初始化偏差修正的缺乏,因此也就令初始化步長(zhǎng)過(guò)大。

4. 收斂性分析

本論文使用了 Zinkevich 2003 年提出的在線學(xué)習(xí)框架分析了 Adam 算法的收斂性。

5. 相關(guān)研究工作

與 Adam 算法有直接聯(lián)系的優(yōu)化方法是 RMSProp (Tieleman & Hinton, 2012; Graves, 2013) 和 AdaGrad (Duchi et al., 2011)。

6 試驗(yàn)

圖 1:在 MNIST 圖片集和有 1 萬(wàn)條詞袋(BoW)特征向量的 IMDB 電影評(píng)論數(shù)據(jù)集上訓(xùn)練帶有負(fù)對(duì)數(shù)似然函數(shù)的 Logistic 回歸。

圖 2:在 MNIST 圖片數(shù)據(jù)集上訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)。(a)圖是使用了 dropout 隨機(jī)正則化的神經(jīng)網(wǎng)絡(luò)。(b)圖是使用確定性損失函數(shù)的神經(jīng)網(wǎng)絡(luò)。

圖 3:卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練損失。左圖表示前三個(gè) epoch 的訓(xùn)練損失,右圖表示所有 45 個(gè) epoch 上的訓(xùn)練損失。

圖 4:在變分自編碼器(VAE)中帶偏差修正項(xiàng)(紅色)和沒(méi)有偏差修正項(xiàng)(綠色)的損失對(duì)比。

7 擴(kuò)展

7.1 ADAMAX

在 Adam 中,單個(gè)權(quán)重的更新規(guī)則是將其梯度與當(dāng)前和過(guò)去梯度的 L^2 范數(shù)(標(biāo)量)成反比例縮放。而我們可以將基于 L^2 范數(shù)的更新規(guī)則泛化到基于 L^p 范數(shù)的更新規(guī)則中。雖然這樣的變體會(huì)因?yàn)?nbsp;p 的值較大而在數(shù)值上變得不穩(wěn)定,但是在特例中,我們令 p → ∞會(huì)得出一個(gè)極其穩(wěn)定和簡(jiǎn)單的算法(見算法 2)?,F(xiàn)在我們將推導(dǎo)這個(gè)算法,在使用 L^p 范數(shù)情況下,時(shí)間 t 下的步長(zhǎng)和 vt^(1/p) 成反比例變化。

注意這里的衰減項(xiàng)等價(jià)地為 β2^p,而不是 β2?,F(xiàn)在令 p → ∞,并定義

然后有:

該表達(dá)式就對(duì)應(yīng)相當(dāng)于極其簡(jiǎn)單的迭代公式:

其中初始值 u0 = 0。注意這里十分便利,在該情況下我們不需要修正初始化偏差。同樣 AdaMax 參數(shù)更新的量級(jí)要比 Adam 更簡(jiǎn)單,即|∆t| ≤ α。

責(zé)任編輯:張子龍 來(lái)源: 機(jī)器之心
相關(guān)推薦

2016-11-28 09:24:08

Python內(nèi)存技巧

2022-09-04 19:38:11

機(jī)器學(xué)習(xí)算法

2021-04-16 11:31:24

人工智能深度學(xué)習(xí)

2017-10-30 13:34:22

深度學(xué)習(xí)KerasAPI

2023-05-17 12:33:11

AI人工智能

2023-12-19 16:01:40

深度學(xué)習(xí)人工智能目標(biāo)檢測(cè)

2017-08-25 14:05:01

機(jī)器學(xué)習(xí)算法模型

2021-12-09 07:33:45

深度學(xué)習(xí)算法

2019-08-20 09:02:09

深度學(xué)習(xí)優(yōu)化算法梯度

2019-08-29 19:44:17

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2021-03-05 15:03:36

算法強(qiáng)化學(xué)習(xí)技術(shù)

2022-03-09 09:56:14

深度學(xué)習(xí)算法人工智能

2020-09-21 05:58:40

深度學(xué)習(xí)算法目標(biāo)檢測(cè)

2017-10-09 19:12:52

AI深度學(xué)習(xí)局限性

2017-07-11 10:19:24

淺層模型機(jī)器學(xué)習(xí)優(yōu)化算法

2025-04-24 09:16:00

2017-01-24 11:51:14

騰訊云深度學(xué)習(xí)

2023-05-11 07:43:36

機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法

2021-03-23 15:35:36

Adam優(yōu)化語(yǔ)言

2024-03-14 13:46:41

深度學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)