Few-shot Learning(1)—機器學(xué)習(xí)中的任務(wù)優(yōu)化空間
今天深度學(xué)習(xí)之所以成功,大量的數(shù)據(jù)是不可缺少的必要條件。我們訓(xùn)練的模型都是吃過見過后才有現(xiàn)在這樣良好的表現(xiàn)。不過實際情況要收集到足夠多的數(shù)據(jù)并非易事,今天我們就這個問題來學(xué)習(xí) Few-shot Learning。
上面的公式是用于估測模型,通常我們輸入一個公式 x 給函數(shù) h,這個函數(shù) h 是模型學(xué)習(xí)到的。然后這個 L 表示預(yù)測值和真實值之間的差值,對這個差值在整個數(shù)據(jù)樣本上求積分來評估這個函數(shù) h 的擬合程度。
可以利用上面公式來找讓 R(h) 最小時,所對應(yīng)的函數(shù) h,實際是無法遍歷所有的模型和參數(shù),所以需要函數(shù)集進行限制,從而縮小模型在整個空間搜索范圍。這里 H 表示我們定義一個函數(shù)集,也就是在整個空間內(nèi)劃分出一定空間,模型搜索問題將僅限定在這個空間內(nèi)進行。函數(shù)集 H 可以是 VGG、ResNet 等,函數(shù)集越復(fù)雜也就是函數(shù)表達(dá)能力越強,在整個空間所占范圍也就是越大,淺藍(lán)色圈就越大,同時搜索時間也會更長。其實對于樣本的概率分布也是未知的,我們收集的樣本只是數(shù)據(jù)的一部分。
那么現(xiàn)在就是將搜索最優(yōu)函數(shù)限定在 H 空間進行搜索了。之前我們已經(jīng)知道了數(shù)據(jù)的概率p(x,y) 分布也是未知的。我們只能以一定數(shù)量的樣本來估計總體分布情況,當(dāng)然這樣做也是存在誤差的。
因為對于整個數(shù)據(jù)集概率分布是未知的,所以用 I 樣本代表著整體數(shù)據(jù)集。然后使用這些數(shù)據(jù)來訓(xùn)練出一個模型。
然后在這樣的數(shù)據(jù)集上在限定空間內(nèi)搜索出一個最優(yōu)函數(shù)用綠色塊表示搜索到模型在整個搜索空間的位置。
接下里就從黃色 start 開始在搜索空間進行搜索到在 I 樣本的數(shù)據(jù)集上得到函數(shù) h 下標(biāo) l 整個函數(shù)。那么橘黃色虛線表示真實模型和我們估計的模型之間差距表示為
其實這里誤差分別來源于近似誤差(approximation error)和估計誤差(estimation error)
第一步我們選擇一個函數(shù)集,那么什么是函數(shù)集呢,例如 VGG、ResNet 或者 DenseNet 這些都可以看成一個函數(shù)集 H,那么在整個算法中我們能夠控制的是 I 和 H。所以我們可以通過增加 H 復(fù)雜性也就是擴大 H 空間以及增加 I,不過通常情況下實際我們能夠收集到 I 都會很小。
- 所以今天出現(xiàn)了過擬合的最直接的方式就是增加數(shù)量,也就是加大 I (數(shù)據(jù))
- 也就是為 H 添加一些約束空間,縮小搜索空間(模型)
- 還有就是合理給出一個初始值(算法)