自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

選擇哪個(gè)Batchsize對(duì)模型效果最好?

發(fā)布于 2025-1-15 12:56
瀏覽
0收藏

總結(jié)

在項(xiàng)目中,如果你沒(méi)有任何參考,那么選擇2次方(即64、128、256、512、1024等)可以會(huì)更加直接和易于管理,然后對(duì)上限來(lái)說(shuō),batchsize大小最好<=數(shù)據(jù)集樣本數(shù)*0.1。

梯度下降算法

在更新模型參數(shù)時(shí),我們一般會(huì)用到梯度下降算法。這個(gè)時(shí)候,我們就會(huì)有一個(gè)問(wèn)題,每次拿多少訓(xùn)練樣本進(jìn)行更新參數(shù)呢?這個(gè)時(shí)候有兩個(gè)極端情況,資源夠,那我們把所有數(shù)據(jù)都丟進(jìn)去,我們稱(chēng)之為批量梯度下降法(Batch Gradient Descent,BGD)。另外一個(gè)極端,我們每次都是拿一個(gè)數(shù)據(jù)去訓(xùn)練,此時(shí)我們稱(chēng)之為隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)。

批量梯度下降法(BGD)的好處是穩(wěn)定下降,loss下降得也快,但容易到極小值,而隨機(jī)梯度下降法(SGD)的梯度上引入了隨機(jī)噪聲,因此在非凸優(yōu)化問(wèn)題中,其相比批量梯度下 降更容易逃離局部最小值。

選擇哪個(gè)Batchsize對(duì)模型效果最好?-AI.x社區(qū)

如果拿不同的批量來(lái)訓(xùn)練模型來(lái)做圖像識(shí)別問(wèn)題,實(shí)驗(yàn)結(jié)果如圖所示,橫軸是批量大小,縱軸是正確率。結(jié)果是可能出乎一部分人的意料:批量大小越大,驗(yàn)證集準(zhǔn)確率越差。 這個(gè)是優(yōu)化的問(wèn)題,大的批量大小優(yōu)化可能會(huì)有問(wèn)題,小的批量大小優(yōu)化的結(jié)果反而是比較好的。

選擇哪個(gè)Batchsize對(duì)模型效果最好?-AI.x社區(qū)

有噪聲反而可能是好事

有可能存在的解釋是,批量梯度下降法因?yàn)檠刂粋€(gè)損失函數(shù),所以比較容易出現(xiàn)局部極小值或者鞍點(diǎn)。而小批量梯度下降法每次都是挑一次批量計(jì)算損失,所以每一次更新參數(shù)的時(shí)候所使用的損失函數(shù)是有差異的。

選擇哪個(gè)Batchsize對(duì)模型效果最好?-AI.x社區(qū)

選擇哪個(gè)Batchsize對(duì)模型效果最好?-AI.x社區(qū)

在論文 “On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima”中,作者在不同數(shù)據(jù)集上訓(xùn)練了六個(gè)網(wǎng)絡(luò)(包括全連接網(wǎng)絡(luò)、不同的卷積神經(jīng)網(wǎng)絡(luò)),在很多不同的 情況都觀察到一樣的結(jié)果。

在小的批量,一個(gè)批量里面有256筆樣本。在大的批量中,批量大小等于數(shù)據(jù)集樣本數(shù)乘0.1,大的批量跟小的批量的訓(xùn)練準(zhǔn)確率(accuracy)差不多。 但就算是在訓(xùn)練的時(shí)候結(jié)果差不多,測(cè)試的時(shí)候,大的批量比小的批量差,代表過(guò)擬合。

本文轉(zhuǎn)載自 ??沐白AI筆記??,作者: 楊沐白

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦