自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣

發(fā)布于 2024-12-5 12:30
瀏覽
0收藏

1.向量與矩陣

上個(gè)章節(jié)的神經(jīng)網(wǎng)絡(luò)是為了解Transformer或者M(jìn)amba做好鋪墊,在和后輩交流過(guò)程中發(fā)現(xiàn)有個(gè)障礙,那就是向量和矩陣。其實(shí)向量和矩陣的表達(dá)方式不是所有人都很習(xí)慣。在繼續(xù)下面的章節(jié)之前小編認(rèn)為有必要將向量、矩陣和神經(jīng)網(wǎng)絡(luò)做下補(bǔ)充解釋。

向量是具有方向和大小的量,用箭頭表示。向量具有下面的性質(zhì):

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)

有好事者翻出來(lái)內(nèi)積的幾何含義,其實(shí)就是兩個(gè)向量的長(zhǎng)度乘以它們的夾角,那么上面代數(shù)的表達(dá)方式和下面的帶有cosθ的表達(dá)式一樣么。是一樣的,推導(dǎo)過(guò)程略過(guò)一千字。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)

下圖則為矩陣運(yùn)算,請(qǐng)讀者快速溫習(xí)一下。m*n和n*p的矩陣相乘之后一定是m*p維度的。


優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)



2.神經(jīng)網(wǎng)絡(luò)的矩陣表示

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)

先來(lái)看一個(gè)例子,上圖一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),這套變量的標(biāo)識(shí)方式小編比較認(rèn)可,上標(biāo)l代表第幾層,下面代表某一層的第幾個(gè)神經(jīng)元。w的兩個(gè)下標(biāo)mn分別代表第m個(gè)輸出節(jié)點(diǎn)和第n個(gè)下游節(jié)點(diǎn)的權(quán)重。一般用z代表沒(méi)有經(jīng)過(guò)激活函數(shù)的數(shù)值,而a(ctivation)代表經(jīng)過(guò)激活函數(shù)的輸出。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)

上圖是層1到層2的計(jì)算公式,可以將這樣的運(yùn)算直接轉(zhuǎn)化為矩陣表示。矩陣表達(dá)方式十分簡(jiǎn)潔清爽,而下圖中的w矩陣就是傳說(shuō)中的參數(shù),這些矩陣通過(guò)樣本訓(xùn)練而得到。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡(luò)與矩陣-AI.x社區(qū)

于是到了這里,基本上從較為抽象的角度,將基于神經(jīng)網(wǎng)絡(luò)的大模型做了簡(jiǎn)單的抽象。大模型其實(shí)就是多層級(jí)深度的神經(jīng)網(wǎng)絡(luò),通過(guò)不斷地累加參數(shù),不斷地優(yōu)化結(jié)構(gòu),不斷地調(diào)整樣本,讓神經(jīng)網(wǎng)絡(luò)的信息編碼和激活更加的合理和高效。從另一個(gè)側(cè)面來(lái)看深度學(xué)習(xí),其實(shí)也是一種復(fù)雜的概率轉(zhuǎn)移矩陣。

3.損失函數(shù)

為了評(píng)估每個(gè)訓(xùn)練之后,真實(shí)值和預(yù)測(cè)值之間的差異,需要一個(gè)函數(shù)來(lái)評(píng)估差異化。這個(gè)函數(shù)有很多種稱呼,比如“誤差函數(shù)”、“損失函數(shù)”、“代價(jià)函數(shù)”等。代價(jià)函數(shù)是深度學(xué)習(xí)的重要組成部分,因?yàn)樗峁┝松窠?jīng)網(wǎng)絡(luò)在給定任務(wù)上執(zhí)行情況的衡量標(biāo)準(zhǔn)。訓(xùn)練深度學(xué)習(xí)模型的最終目標(biāo)是最小化損失函數(shù),這意味著模型能夠做出更準(zhǔn)確的預(yù)測(cè)并更好地泛化到新數(shù)據(jù)。

例如在回歸問(wèn)題中采用的MSE來(lái)評(píng)估代價(jià)函數(shù)。

假定在某個(gè)批次的數(shù)據(jù)輸入,得到預(yù)測(cè)數(shù)據(jù)

[7.6, 8.0, 6.8, 8.9, 7.2, 8.3, 7.0, 8.8, 7.0, 7.6]。

而真實(shí)的數(shù)據(jù)為

[7.8, 8.2, 6.5, 9.1, 7.0, 8.5, 6.9, 8.7, 7.2, 7.8]。

兩者其實(shí)相當(dāng)?shù)慕咏?/p>

采用MSE(Mean squared error loss)的評(píng)估模式,MSE=(1/n)*Σ(yi - ?i)^2。yi為正確值,?i為預(yù)測(cè)值,cost = (1/20) * Σ(yi - ?i)^2 = 0.045

損失函數(shù)一方面指導(dǎo)訓(xùn)練過(guò)程,用于計(jì)算預(yù)測(cè)輸出與真實(shí)輸出之間的誤差。神經(jīng)網(wǎng)絡(luò)使用該誤差信號(hào)來(lái)調(diào)整其權(quán)重和偏差,以減少損失。這個(gè)過(guò)程稱為反向傳播,它允許神經(jīng)網(wǎng)絡(luò)從錯(cuò)誤中學(xué)習(xí)并在未來(lái)做出更好的預(yù)測(cè)。另一方面它有助于避免過(guò)度擬合,當(dāng)模型的過(guò)度擬合則無(wú)法泛化到新數(shù)據(jù)。通過(guò)選擇合適的損失函數(shù),可以防止過(guò)度擬合并確保模型能夠很好地泛化到未見(jiàn)過(guò)的數(shù)據(jù)。最后損失函數(shù)的選擇會(huì)對(duì)模型的性能產(chǎn)生重大影響。通過(guò)使用相同損失函數(shù)比較不同模型的性能,可以確定哪個(gè)模型對(duì)于給定任務(wù)最有效。深度學(xué)習(xí)的不同類型任務(wù)則采用不同的損失(評(píng)估)函數(shù)。下面展示的這些代價(jià)函數(shù)將會(huì)在LLM背后的基礎(chǔ)模型專欄中展開(kāi)詳細(xì)的講解。

  • 回歸問(wèn)題一般為均方誤差(MSE)、平均絕對(duì)誤差(MAE)損失、Huber loss和Log-cosh loss。
  • 二元分類問(wèn)題一般為Binary cross-entropy loss二元交叉熵?fù)p失、Hinge loss、Focal loss和Dice loss。
  • 多類分類問(wèn)題則為分類交叉熵?fù)p失、稀疏分類交叉熵?fù)p失、Kullback-Leibler (KL)散度損失和Sparsemax loss。
  • 自動(dòng)編碼器問(wèn)題:均方誤差(MSE)損失、二元交叉熵?fù)p失和Perceptual loss感知損失。
  • 生成對(duì)抗網(wǎng)絡(luò)損失則一般采用Adversarial loss、L1 or L2 loss、Wasserstein loss和Least squares loss。
  • 物體檢測(cè)問(wèn)題對(duì)應(yīng)的有Intersection over Union (IoU) loss、Focal loss、Smooth L1 loss、GIoU loss。
  • Embedding問(wèn)題則采用Triplet loss、Contrastive loss、Center loss和Angular loss。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦