自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度學(xué)習(xí)中的學(xué)習(xí)率調(diào)度:循環(huán)學(xué)習(xí)率、SGDR、1cycle 等方法介紹及實(shí)踐策略研究

人工智能 深度學(xué)習(xí)
深度學(xué)習(xí)實(shí)踐者都知道,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),正確設(shè)置學(xué)習(xí)率是使模型達(dá)到良好性能的關(guān)鍵因素之一。學(xué)習(xí)率通常會(huì)在訓(xùn)練過程中根據(jù)某種調(diào)度策略進(jìn)行動(dòng)態(tài)調(diào)整。調(diào)度策略的選擇對(duì)訓(xùn)練質(zhì)量也有很大影響。

深度學(xué)習(xí)實(shí)踐者都知道,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),正確設(shè)置學(xué)習(xí)率是使模型達(dá)到良好性能的關(guān)鍵因素之一。學(xué)習(xí)率通常會(huì)在訓(xùn)練過程中根據(jù)某種調(diào)度策略進(jìn)行動(dòng)態(tài)調(diào)整。調(diào)度策略的選擇對(duì)訓(xùn)練質(zhì)量也有很大影響。

大多數(shù)實(shí)踐者采用一些廣泛使用的學(xué)習(xí)率調(diào)度策略,例如階梯式衰減或余弦退火。這些調(diào)度策略中的許多是為特定的基準(zhǔn)任務(wù)量身定制的,經(jīng)過多年的研究,已被證明可以最大限度地提高測試精度。然而這些策略往往無法推廣到其他實(shí)驗(yàn)設(shè)置,這引出了一個(gè)重要的問題:訓(xùn)練神經(jīng)網(wǎng)絡(luò)最一致和最有效的學(xué)習(xí)率調(diào)度策略是什么?

在本文中,我們將研究各種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率調(diào)度策略。這些研究發(fā)現(xiàn)了許多既高效又易于使用的學(xué)習(xí)率策略,例如循環(huán)學(xué)習(xí)率或三角形學(xué)習(xí)率調(diào)度。通過研究這些方法,我們將得出幾個(gè)實(shí)用的結(jié)論,提供一些可以立即應(yīng)用于改善神經(jīng)網(wǎng)絡(luò)訓(xùn)練的簡單技巧。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練與學(xué)習(xí)率

在監(jiān)督學(xué)習(xí)環(huán)境中,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是生成一個(gè)模型,在給定輸入數(shù)據(jù)的情況下,能夠準(zhǔn)確預(yù)測與該數(shù)據(jù)相關(guān)的真實(shí)標(biāo)簽。一個(gè)典型的例子是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),根據(jù)大量標(biāo)記的貓和狗的圖像數(shù)據(jù)集,正確預(yù)測一張圖像中是否包含貓或狗。

上圖所示的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本組成部分如下:

  • 神經(jīng)網(wǎng)絡(luò): 接受一些數(shù)據(jù)作為輸入,并根據(jù)其內(nèi)部參數(shù)/權(quán)重對(duì)這些數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以產(chǎn)生輸出。
  • 數(shù)據(jù)集: 大量的輸入-輸出數(shù)據(jù)對(duì)的樣本(例如,圖像及其相應(yīng)的分類標(biāo)簽)。
  • 優(yōu)化器: 用于更新神經(jīng)網(wǎng)絡(luò)的內(nèi)部參數(shù),使其預(yù)測更加準(zhǔn)確。 
  • 超參數(shù): 由深度學(xué)習(xí)實(shí)踐者設(shè)置的外部參數(shù),用于控制訓(xùn)練過程的相關(guān)細(xì)節(jié)。

通常神經(jīng)網(wǎng)絡(luò)在開始訓(xùn)練時(shí),其所有參數(shù)都是隨機(jī)初始化的。為了學(xué)習(xí)更有意義的參數(shù),神經(jīng)網(wǎng)絡(luò)會(huì)接受來自數(shù)據(jù)集的數(shù)據(jù)樣本。對(duì)于每個(gè)樣本,神經(jīng)網(wǎng)絡(luò)嘗試預(yù)測正確的輸出,然后優(yōu)化器更新神經(jīng)網(wǎng)絡(luò)的參數(shù)以改進(jìn)這個(gè)預(yù)測。

這個(gè)過程通過更新神經(jīng)網(wǎng)絡(luò)的參數(shù),使其能夠更好地匹配數(shù)據(jù)集中已知的輸出,這被稱為訓(xùn)練。這個(gè)過程重復(fù)進(jìn)行,通常直到神經(jīng)網(wǎng)絡(luò)多次遍歷整個(gè)數(shù)據(jù)集,每次遍歷被稱為一個(gè)訓(xùn)練周期(epoch)。

盡管這個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的描述并不全面,但它應(yīng)該提供足夠的直觀理解來完成本文的閱讀。下面我們繼續(xù)

什么是超參數(shù)?

模型參數(shù)在訓(xùn)練過程中由優(yōu)化器更新。相比之下,超參數(shù)是 "額外的" 參數(shù),我們(深度學(xué)習(xí)實(shí)踐者)可以控制。但是,我們實(shí)際上可以用超參數(shù)控制什么?一個(gè)常見的超參數(shù),就是學(xué)習(xí)率。

什么是學(xué)習(xí)率? 簡單地說,每次優(yōu)化器更新神經(jīng)網(wǎng)絡(luò)的參數(shù)時(shí),學(xué)習(xí)率控制這個(gè)更新的大小。我們應(yīng)該大幅更新參數(shù)、小幅更新參數(shù),還是介于兩者之間? 我們通過設(shè)置學(xué)習(xí)率來做出這個(gè)選擇。

選擇一個(gè)好的學(xué)習(xí)率。 設(shè)置學(xué)習(xí)率是訓(xùn)練神經(jīng)網(wǎng)絡(luò)最重要的方面之一。如果我們選擇的值太大,訓(xùn)練就會(huì)發(fā)散。另一方面,如果學(xué)習(xí)率太小,可能會(huì)導(dǎo)致性能不佳和訓(xùn)練緩慢。我們必須選擇一個(gè)足夠大的學(xué)習(xí)率,以提供對(duì)訓(xùn)練過程的正則化效果并快速收斂,同時(shí)不能太大以致于訓(xùn)練過程變得不穩(wěn)定。

選擇好的超參數(shù)  

像學(xué)習(xí)率這樣的超參數(shù)通常使用一種簡單的方法網(wǎng)格搜索來選擇?;舅悸肥?

  1. 為每個(gè)超參數(shù)定義一個(gè)潛在值的范圍
  2. 在這個(gè)范圍內(nèi)選擇一組離散的值進(jìn)行測試
  3. 測試所有可能的超參數(shù)值組合
  4. 基于驗(yàn)證集的性能選擇最佳超參數(shù)設(shè)置

網(wǎng)格搜索是尋找最佳超參數(shù)的簡單而窮盡的搜索方法。下圖是一個(gè)在潛在學(xué)習(xí)率值上進(jìn)行網(wǎng)格搜索的示例。

通過遵循類似的方法并測試所有可能的超參數(shù)值組合,可以將類似的方法應(yīng)用于多個(gè)超參數(shù)。

網(wǎng)格搜索在計(jì)算上是低效的,因?yàn)樗枰獮槊總€(gè)超參數(shù)設(shè)置重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)。為了避免這種成本,許多深度學(xué)習(xí)實(shí)踐者采用 "猜測和檢查" 的方法,在合理的范圍內(nèi)嘗試幾個(gè)超參數(shù),看看什么有效。已經(jīng)提出了選擇最佳超參數(shù)的其他方法[5],但由于其簡單性,網(wǎng)格搜索或猜測和檢查過程被廣泛使用。

學(xué)習(xí)率調(diào)度

在選擇了學(xué)習(xí)率之后,我們通常不應(yīng)在整個(gè)訓(xùn)練過程中保持同一個(gè)學(xué)習(xí)率。相反,我們應(yīng)該 (i) 選擇一個(gè)初始學(xué)習(xí)率,然后 (ii) 在整個(gè)訓(xùn)練過程中逐漸衰減這個(gè)學(xué)習(xí)率[1]。執(zhí)行這種衰減的函數(shù)被稱為學(xué)習(xí)率調(diào)度。

人們提出了許多不同的學(xué)習(xí)率調(diào)度策略;例如,階梯式衰減(即在訓(xùn)練期間將學(xué)習(xí)率衰減 10 倍幾次)或余弦退火;見下圖。在本文中,我們將探討一些最近提出的表現(xiàn)特別好的調(diào)度策略。

自適應(yīng)優(yōu)化技術(shù)。 基于隨機(jī)梯度下降(SGD)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練選擇了一個(gè)全局學(xué)習(xí)率,用于更新所有模型參數(shù)。除了 SGD 之外,還提出了自適應(yīng)優(yōu)化技術(shù)(例如,RMSProp 或 Adam [6]),它們使用訓(xùn)練統(tǒng)計(jì)數(shù)據(jù)來動(dòng)態(tài)調(diào)整用于每個(gè)模型參數(shù)的學(xué)習(xí)率。本文中概述的大部分結(jié)果同時(shí)適用于自適應(yīng)優(yōu)化器和 SGD 風(fēng)格的優(yōu)化器。

相關(guān)論文

在這一節(jié)中,我們將看到一些學(xué)習(xí)率調(diào)度策略的例子。這些策略包括循環(huán)學(xué)習(xí)率或三角形學(xué)習(xí)率,以及不同的學(xué)習(xí)率衰減方案。最佳學(xué)習(xí)率策略高度依賴于領(lǐng)域和實(shí)驗(yàn)設(shè)置,但我們也將看到通過研究許多不同學(xué)習(xí)率策略的實(shí)證結(jié)果,可以得出幾個(gè)高層次的結(jié)論。

用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的循環(huán)學(xué)習(xí)率[1]

https://arxiv.org/abs/1506.01186

[1]中的作者提出了一種處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練中學(xué)習(xí)率的新方法:根據(jù)平滑的調(diào)度,在最小值和最大值之間循環(huán)變化學(xué)習(xí)率。在這項(xiàng)工作之前,大多數(shù)實(shí)踐者采用了一種流行的策略,即 (i) 將學(xué)習(xí)率設(shè)置為一個(gè)初始較大的值,然后 (ii) 隨著訓(xùn)練的進(jìn)行逐漸衰減學(xué)習(xí)率。

在[1]中拋棄了這個(gè)經(jīng)驗(yàn)法則,轉(zhuǎn)而采用循環(huán)策略。以這種方式循環(huán)學(xué)習(xí)率有點(diǎn)違反直覺 —— 在訓(xùn)練過程中增加學(xué)習(xí)率會(huì)損害模型性能。盡管在學(xué)習(xí)率增加時(shí)暫時(shí)降低了網(wǎng)絡(luò)性能,但正如我們將在[1]中看到的,循環(huán)學(xué)習(xí)率調(diào)度實(shí)際上在整個(gè)訓(xùn)練過程中提供了很多優(yōu)于其他方法的好處。

循環(huán)學(xué)習(xí)率引入了三個(gè)新的超參數(shù):步長、最小學(xué)習(xí)率和最大學(xué)習(xí)率。產(chǎn)生的調(diào)度是 "三角形" 的,這意味著學(xué)習(xí)率在相鄰的周期中交替增加和減少;步長可以設(shè)置在 2-10 個(gè)訓(xùn)練周期之間,而學(xué)習(xí)率的范圍通常通過學(xué)習(xí)率范圍測試來確定(見[1]中的第 3.3 節(jié))。

增加學(xué)習(xí)率會(huì)暫時(shí)降低模型性能。但是一旦學(xué)習(xí)率再次衰減,模型的性能就會(huì)恢復(fù)并提高??紤]到這一點(diǎn),在[1]的實(shí)驗(yàn)結(jié)果中看到,用循環(huán)學(xué)習(xí)率訓(xùn)練的模型在性能上呈現(xiàn)出周期性模式。每個(gè)周期結(jié)束時(shí)(即當(dāng)學(xué)習(xí)率衰減回最小值時(shí)),模型性能達(dá)到峰值,而在周期的中間階段(即當(dāng)學(xué)習(xí)率增加時(shí)),模型性能則變得較差;見下圖。

[1]中的結(jié)果表明,循環(huán)學(xué)習(xí)率在訓(xùn)練過程中有利于模型性能。與其他學(xué)習(xí)率策略相比,使用循環(huán)學(xué)習(xí)率訓(xùn)練的模型更快地達(dá)到更高的性能水平;換句話說,使用循環(huán)學(xué)習(xí)率訓(xùn)練的模型在任何時(shí)間點(diǎn)的性能都非常好!

在 ImageNet 上進(jìn)行的更大規(guī)模實(shí)驗(yàn)中,循環(huán)學(xué)習(xí)率仍然提供了好處,盡管不那么明顯。

SGDR: 帶有熱重啟的隨機(jī)梯度下降[2]

https://arxiv.org/abs/1608.03983

[2]中的作者提出了一種簡單的學(xué)習(xí)率重啟技術(shù),稱為帶有重啟的隨機(jī)梯度下降(SGDR),其中學(xué)習(xí)率定期重置為其原始值并按計(jì)劃減小。這種技術(shù)采用以下步驟:

  1. 根據(jù)某個(gè)固定的調(diào)度衰減學(xué)習(xí)率  
  2. 在衰減調(diào)度結(jié)束后將學(xué)習(xí)率重置為其原始值
  3. 返回步驟 #1(即再次衰減學(xué)習(xí)率)

下面是遵循這一策略的不同調(diào)度的描述。

我們可以注意到上面調(diào)度的一些特點(diǎn)。首先,在[2]中總是使用余弦衰減調(diào)度(圖的 y 軸是對(duì)數(shù)刻度)。此外,隨著訓(xùn)練的進(jìn)行,每個(gè)衰減調(diào)度的長度可能會(huì)增加。具體來說,[2]中的作者將第一個(gè)衰減周期的長度定義為 T_0,然后在每個(gè)連續(xù)的衰減周期中將這個(gè)長度乘以 T_mult;見下圖的描述。

為了遵循[1]的術(shù)語,SGDR 的步長可能在每個(gè)周期后增加。但與[1]不同的是,SGDR 不是三角形的(即每個(gè)周期只是衰減學(xué)習(xí)率)。

在 CIFAR10/100 上的實(shí)驗(yàn)中可以看到,與階梯式衰減調(diào)度相比,SGDR 學(xué)習(xí)率調(diào)度可以更快地獲得良好的模型性能 —— SGDR 具有良好的任意時(shí)間性能。每個(gè)衰減周期后得到的模型表現(xiàn)良好,并在連續(xù)的衰減周期中繼續(xù)變得更好。

在這些初步結(jié)果之外,研究通過在每個(gè)衰減周期結(jié)束時(shí)獲取 "快照" 而形成的模型集成。具體來說可以在SGDR 調(diào)度中的每個(gè)衰減周期后保存模型狀態(tài)的副本。然后在訓(xùn)練完成后,在推理時(shí)平均每個(gè)模型的預(yù)測,形成一個(gè)模型集成。

通過以這種方式形成模型集成,可以在 CIFAR10 上顯著降低測試錯(cuò)誤率;見下圖。

此外,SGDR 的快照似乎提供了一組具有不同預(yù)測的模型。以這種方式形成集成實(shí)際上優(yōu)于將獨(dú)立的、完全訓(xùn)練的模型加入集成的常規(guī)方法。

超融合:使用大學(xué)習(xí)率非??焖俚赜?xùn)練神經(jīng)網(wǎng)絡(luò)[3]

https://arxiv.org/abs/1708.07120

[3]中的作者研究了一種有趣的訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,可以將訓(xùn)練速度提高一個(gè)數(shù)量級(jí)。基本方法(最初在[8]中概述)是執(zhí)行單個(gè)三角形學(xué)習(xí)率周期,其中最大學(xué)習(xí)率較大,然后在訓(xùn)練結(jié)束時(shí)允許學(xué)習(xí)率衰減到該周期的最小值以下;見下圖的說明。

此外動(dòng)量以與學(xué)習(xí)率相反的方向循環(huán)(通常在[0.85, 0.95]的范圍內(nèi))。這種聯(lián)合循環(huán)學(xué)習(xí)率和動(dòng)量的方法被稱為 "1cycle"。[3]中的作者表明,它可以用來實(shí)現(xiàn) "超融合"(即非常快速地收斂到高性能解)。

例如在 CIFAR10 上的實(shí)驗(yàn)中看到,與基線學(xué)習(xí)率策略相比,1cycle 可以用少 8 倍的訓(xùn)練迭代次數(shù)實(shí)現(xiàn)更好的性能。使用不同的 1cycle 步長可以進(jìn)一步加速訓(xùn)練,盡管準(zhǔn)確率水平取決于步長。

可以在一些不同的架構(gòu)和數(shù)據(jù)集上觀察到類似的結(jié)果。其中 1cycle 再次在令人驚訝的少量訓(xùn)練周期中產(chǎn)生良好的性能。

目前還不清楚超融合是否可以在大量的實(shí)驗(yàn)設(shè)置中實(shí)現(xiàn),因?yàn)閇3]中提供的實(shí)驗(yàn)在規(guī)模和種類上都有些有限。盡管如此,我們可能都會(huì)同意,超融合現(xiàn)象非常有趣。事實(shí)上,這個(gè)結(jié)果是如此有趣,以至于它甚至被 fast.ai 社區(qū)推廣和深入研究。

REX:重新審視帶有改進(jìn)調(diào)度的預(yù)算訓(xùn)練[4]

https://arxiv.org/abs/2107.04197

在[4]中,作者考慮了在不同預(yù)算制度(即小、中、大訓(xùn)練周期數(shù))下正確調(diào)度學(xué)習(xí)率的問題。你可能會(huì)想:為什么要考慮這種設(shè)置?通常情況下,最佳訓(xùn)練周期數(shù)并不是事先知道的。但我們可能正在使用一個(gè)固定的資金預(yù)算,這會(huì)限制可以執(zhí)行的訓(xùn)練周期數(shù)。

為了找到最佳的預(yù)算不可知學(xué)習(xí)率調(diào)度,我們必須首先定義將要考慮的可能學(xué)習(xí)率調(diào)度的空間。在[4]中,通過將學(xué)習(xí)率調(diào)度分解為兩個(gè)組成部分來實(shí)現(xiàn)這一點(diǎn):

  1. 輪廓: 在整個(gè)訓(xùn)練過程中學(xué)習(xí)率變化所依據(jù)的函數(shù)。
  2. 采樣率: 根據(jù)所選輪廓更新學(xué)習(xí)率的頻率。

這樣的分解可以用來描述幾乎所有固定結(jié)構(gòu)的學(xué)習(xí)率調(diào)度。下面描述了不同輪廓和采樣率組合。采樣率越高,調(diào)度越接近基礎(chǔ)輪廓。

[4]中的作者考慮了具有不同采樣率和三種函數(shù)輪廓的學(xué)習(xí)率調(diào)度:指數(shù)(即產(chǎn)生階梯式調(diào)度)、線性和 REX(即[4]中定義的新穎輪廓)。

作者在 CIFAR10 上訓(xùn)練 Resnet20/38,采用不同的采樣率和輪廓組合。在這些實(shí)驗(yàn)中可以看到階梯式衰減調(diào)度(即具有低采樣率的指數(shù)輪廓)只有在低采樣率和許多訓(xùn)練周期的情況下才表現(xiàn)良好。每次迭代采樣的 REX 調(diào)度在所有不同的周期設(shè)置中都表現(xiàn)良好。

之前的工作表明,線性衰減調(diào)度最適合低預(yù)算訓(xùn)練設(shè)置(即用更少的周期進(jìn)行訓(xùn)練)[9]。在[4]中,我們可以看到 REX 實(shí)際上是一個(gè)更好的選擇,因?yàn)樗苊饬嗽谟?xùn)練的早期過早地衰減學(xué)習(xí)率。

[4]中的作者還考慮了各種流行的學(xué)習(xí)率調(diào)度,如下圖所示。

在各種領(lǐng)域和訓(xùn)練周期預(yù)算下測試了這些調(diào)度。當(dāng)在所有實(shí)驗(yàn)中匯總性能時(shí),我們得到如下所示的結(jié)果。

REX 在不同的預(yù)算制度和實(shí)驗(yàn)領(lǐng)域中實(shí)現(xiàn)了令人震驚的一致性能。沒有其他學(xué)習(xí)率調(diào)度在實(shí)驗(yàn)中接近相同比例的前 1/3 名次,這表明 REX 是一個(gè)良好的領(lǐng)域/預(yù)算不可知的學(xué)習(xí)率調(diào)度。

除了 REX 的一致性之外,這些結(jié)果還告訴我們一些更普遍的東西:常用的學(xué)習(xí)率策略在不同的實(shí)驗(yàn)設(shè)置中泛化能力不好。每個(gè)調(diào)度(即使是 REX,盡管程度較小)只在少數(shù)情況下表現(xiàn)最好,這表明為任何特定設(shè)置選擇適當(dāng)?shù)膶W(xué)習(xí)率策略非常重要。 

總結(jié)

正確處理學(xué)習(xí)率可以說是訓(xùn)練神經(jīng)網(wǎng)絡(luò)最重要的方面。在本文中,我們了解了幾種用于訓(xùn)練深度網(wǎng)絡(luò)的實(shí)用學(xué)習(xí)率調(diào)度策略。研究這一系列工作提供了簡單易懂、易于實(shí)施且高效的結(jié)論。其中一些基本結(jié)論如下。

選擇一個(gè)好的學(xué)習(xí)率。 正確設(shè)置學(xué)習(xí)率是訓(xùn)練高性能神經(jīng)網(wǎng)絡(luò)最重要的方面之一。選擇不當(dāng)?shù)某跏紝W(xué)習(xí)率或使用錯(cuò)誤的學(xué)習(xí)率調(diào)度會(huì)顯著惡化模型性能。

"默認(rèn)"調(diào)度并非總是最好的。 許多實(shí)驗(yàn)設(shè)置都有一個(gè) "默認(rèn)" 學(xué)習(xí)率調(diào)度,我們傾向于在沒有太多思考的情況下采用;例如,用于圖像分類的 CNN 訓(xùn)練的階梯式衰減調(diào)度。但我們也應(yīng)該意識(shí)到,隨著實(shí)驗(yàn)設(shè)置的改變,這些調(diào)度的性能可能會(huì)急劇惡化;例如,對(duì)于預(yù)算設(shè)置,基于 REX 的調(diào)度明顯優(yōu)于階梯式衰減。我們應(yīng)該始終關(guān)注我們選擇的學(xué)習(xí)率調(diào)度,以真正最大化我們模型的性能。

循環(huán)調(diào)度非常棒。 循環(huán)或三角形學(xué)習(xí)率調(diào)度(例如,如[2]或[3]中所示)非常有用,因?yàn)?

  • 它們通常達(dá)到或超過最先進(jìn)的性能
  • 它們具有良好的任意時(shí)間性能

使用循環(huán)學(xué)習(xí)率策略,模型在每個(gè)衰減周期結(jié)束時(shí)達(dá)到最佳性能。我們可以簡單地繼續(xù)訓(xùn)練任意數(shù)量的周期,直到我們對(duì)網(wǎng)絡(luò)的性能感到滿意。最佳訓(xùn)練量不需要事先知道,這在實(shí)踐中通常很有用。

有很多東西值得探索。 盡管學(xué)習(xí)率策略已經(jīng)被廣泛研究,但似乎仍有更多的東西有待發(fā)現(xiàn)。例如,我們已經(jīng)看到,采用替代衰減輪廓有利于預(yù)算設(shè)置[4],循環(huán)策略甚至可以在某些情況下用于實(shí)現(xiàn)超融合[3]。但是問題也隨之而來:還能發(fā)現(xiàn)什么? 似乎有一些非常有趣的策略(例如,分形學(xué)習(xí)率[7])尚未被探索。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2018-03-15 15:40:39

廣告點(diǎn)擊率PaddlePaddlTensorflow

2018-03-26 20:28:24

深度學(xué)習(xí)

2024-09-29 16:11:53

2010-04-09 14:57:29

學(xué)習(xí)Oracle

2017-07-06 13:18:37

深度學(xué)習(xí)應(yīng)用問題及趨勢(shì)

2018-05-10 07:45:26

深度學(xué)習(xí)機(jī)器學(xué)習(xí)GitHub

2022-01-17 17:01:23

深度學(xué)習(xí)圖像人工智能

2021-11-12 15:16:32

深度學(xué)習(xí)數(shù)據(jù)合成人工智能

2018-05-09 14:28:09

GitHub框架深度學(xué)習(xí)

2021-03-08 11:28:59

人工智能深度學(xué)習(xí)Python

2021-01-06 13:50:19

人工智能深度學(xué)習(xí)人臉識(shí)別

2024-10-08 08:19:19

2023-08-23 12:38:10

2019-06-25 10:09:42

Web攻擊機(jī)器學(xué)習(xí)網(wǎng)絡(luò)攻擊

2023-05-11 07:43:36

機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法

2021-11-27 05:03:09

框架深度學(xué)習(xí)

2018-05-22 10:30:37

深度學(xué)習(xí)蘑菇街移動(dòng)端

2022-11-01 08:00:00

2021-01-08 18:25:02

Pythonfor 循環(huán)編程語言

2023-08-07 11:41:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)