自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

終于有人將機器學習中的重點做成了動畫 原創(chuàng)

發(fā)布于 2024-8-13 10:41
瀏覽
0收藏

[SVM]手書動畫 ??

除了SVM,傳統(tǒng)機器學習中還有很多其它分類、回歸和聚類算法,例如邏輯回歸,決策樹,隨機森林等集成學習方法;這里統(tǒng)稱為模型,這些模型基本上可以通過明確的數(shù)學公式定義輸入數(shù)據(jù)與輸出結果之間的關系。

終于有人將機器學習中的重點做成了動畫 -AI.x社區(qū)

在深度學習興起之前,支持向量機(SVM)在機器學習領域占據(jù)主導地位。

這個動畫比較了線性SVM和RBF SVM。

[1] 給定:

xi: 六個訓練向量(藍色行 ??)

yi: 標簽

使用xi和yi,我們學習得到ai和b(紅色邊框):

ai: 每個訓練向量i的系數(shù)。

,定義了決策邊界

,被忽略

b: 偏置(決策邊界應該移動多少)

x'j: 兩個測試向量(黃色列 ??)

(為了簡化手工計算,訓練和測試向量沒有進行歸一化。)

~ 線性SVM ~

?? 核矩陣 (K)[2]-[3]

[2] 測試向量1

計算測試向量 ?? 與每個訓練向量 ?? 的點積

點積近似兩個向量之間的"余弦相似度"

輸出: K的第1列

[3] 測試向量2

類似于 [2]

輸出: K的第2列

?? 決策邊界 [4]-[6]

[4] 無符號系數(shù) → 有符號權重

將每個系數(shù)與相應的標簽相乘

第2個訓練向量不是支持向量,因為它的系數(shù)為0。

[5] 加權組合

將權重和偏置與K相乘

輸出: 到?jīng)Q策邊界的"有符號"距離

...

X'1: (2)*13+0+(1)*12+(-1)*15+(1)*19+(-1)*27+(2) = 17

X'2: (2)*2+0+(1)*3+(-1)*4+(1)*8+(-1)*8+(2) = 5

...

[6] 分類

取符號

...

X'1: 17 > 0 →  正 +

X'2: 5 > 0 →  正 +

...

~ RBF SVM ~

給定:

ai: 學習得到的系數(shù)

b: 學習得到的偏置

?? 核矩陣 (K)

[7]-[15]

測試向量 (X'1) ?? L2距離 ?? [7]-[9]

[7] 平方差

... i=1: (1-2)^2=1,  (2-4)^2=4,(1-3)^2=4 ...

[8] 求和

[9] 平方根

[10] 負縮放

乘以-1: 注意L2是一個距離度量。取負將距離轉換為相似度。

乘以gamma γ: 目的是控制每個訓練樣本的影響力。小的gamma意味著每個訓練樣本對決策邊界的拉力較小,resulting in更平滑的決策邊界。

結果是"負縮放的L2"

[11] 求指數(shù)

以e為底,"負縮放的L2"為指數(shù)

使用提供的表格查找e^的值

輸出: K的第1列

測試向量2 (X'2) ?? L2距離 ?? [12]-[14]

[12] 平方差

[13] 求和

[14] 平方根

[15] 負縮放

[16] 求指數(shù)

輸出: K的第2列

?? 決策邊界 [17]-[19]

[17] 無符號系數(shù) → 有符號權重

[18] 加權組合

...

X'1: (20)*0.7+(-10)*0.8+(10)*0.9+(-10)*0.7+0+(-10)*0.9+(-1) = -2

X'2: (20)*0.9+(-10)*0.7+(10)*0.8+(-10)*0.8+0+(-10)*0.9+(-1) = 1

...

[19] 分類

...

X'1: -2 < 0 →  -

X'2: 1 > 0 →  +

...



[反向傳播] 手書動畫??

有了模型,接下就需要通過優(yōu)化算法求模型中的參數(shù),也就是數(shù)學公式中的未知量。

終于有人將機器學習中的重點做成了動畫 -AI.x社區(qū)

[1] 前向傳播

? 給定一個三層的多層感知器,輸入向量為X,預測結果為Y^{Pred} = [0.5, 0.5, 0],真實標簽為Y^{Target} = [0, 1, 0]。

[2] 反向傳播

? 添加單元格以存放我們的計算結果(梯度信息)。

[3] 第三層 - Softmax(藍色)

? 使用化簡后的公式直接計算 ?L / ?z3:Y^{Pred} - Y^{Target} = [0.5, -0.5, 0]。

? 這個化簡后的公式得益于Softmax和交叉熵損失的聯(lián)合使用。

[4] 第三層 - 權重(橙色)和偏置(黑色)

? 通過將 ?L / ?z3 和 [ a2 | 1 ] 相乘,計算 ?L / ?W3 和 ?L / ?b3。

[5] 第二層 - 激活(綠色)

? 通過將 ?L / ?z3 和 W3 相乘,計算 ?L / ?a2。

[6] 第二層 - ReLU(藍色)

? 通過將 ?L / ?a2 乘以1(對正值)或0(對負值),計算 ?L / ?z2。

[7] 第二層 - 權重(橙色)和偏置(黑色)

? 通過將 ?L / ?z2 和 [ a1 | 1 ] 相乘,計算 ?L / ?W2 和 ?L / ?b2。

[8] 第一層 - 激活(綠色)

? 通過將 ?L / ?z2 和 W2 相乘,計算 ?L / ?a1。

[9] 第一層 - ReLU(藍色)

? 通過將 ?L / ?a1 乘以1(對正值)或0(對負值),計算 ?L / ?z1。

[10] 第一層 - 權重(橙色)和偏置(黑色)

? 通過將 ?L / ?z1 和 [ x | 1 ] 相乘,計算 ?L / ?W1 和 ?L / ?b1。

[11] 梯度下降

? 更新權重和偏置(通常在這里應用學習率)。

?? 矩陣乘法是關鍵:正如在前向傳播中一樣,反向傳播也主要是矩陣乘法。你完全可以像我在這個練習中演示的那樣手動計算,盡管速度慢且不太完美。這就是為什么GPU高效矩陣乘法能力在深度學習中扮演重要角色的原因,這也是為什么NVIDIA的估值現(xiàn)在接近1萬億美元的原因。

?? 梯度爆炸:我們可以看到即使在這個簡單的三層網(wǎng)絡中,隨著反向傳播的進行,梯度正在變大。這促使我們使用諸如ResNet中跳躍連接(skip connections)的方法來處理梯度爆炸(或消失)問題。


[Multiple Layer Perceptron(MLP)]手書動畫??

MLP更準確地說應該屬于神經(jīng)網(wǎng)絡范疇,作為一種分類、回歸模型,在很多地方都能看到它的身影,例如,目標檢測,Transformer等。

通過隱藏層和激活函數(shù)的使用,它能夠模擬任意復雜函數(shù),與傳統(tǒng)機器學習相比,它大大減小對經(jīng)驗的依賴。

終于有人將機器學習中的重點做成了動畫 -AI.x社區(qū)

步驟說明

給定一個代碼模板(左側),實現(xiàn)如圖所示的多層感知器(右側)。

第一個線性層。

輸入特征大小為3。輸出特征大小為4。我們可以看到權重矩陣的大小是4×3。此外,還有一個額外的列用于偏置(bias = T)。激活函數(shù)是ReLU。我們可以看到ReLU對第一個特征的影響(-1 -> 0)。

第二個線性層。

輸入特征大小為4,與前一層的輸出特征大小相同。輸出特征大小為2。我們可以看到權重矩陣的大小是2×4。但是,沒有額外的列用于偏置(bias = F)。激活函數(shù)是ReLU。

最后的線性層。

輸入特征大小為2,與前一層的輸出特征大小相同。輸出特征大小為5。我們可以看到權重矩陣的大小是5×2。此外,有一個額外的列用于偏置(bias = T)。激活函數(shù)是Sigmoid。我們可以看到Sigmoid的效果,它是一個將原始分數(shù)(3, 0, -2, 5, -5)非線性映射到0到1之間的概率值的函數(shù)。

[MLP vs KAN]手書動畫??

Transformer中MLP占據(jù)了很大一部分參數(shù),為了提升Transformer計算效率,有人提出了KAN和MoE來作為MLP的一種替代。

終于有人將機器學習中的重點做成了動畫 -AI.x社區(qū)


本文轉載自公眾號人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/x-mlK_S_HIRquAxr8uNVXQ??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦