自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！

人工智能訓(xùn)練營(yíng)

發(fā)布于 2024-12-23 09:14

瀏覽

0收藏

什么是梯度下降？

梯度下降是一種用于優(yōu)化目標(biāo)函數(shù)的迭代算法。

什么是目標(biāo)函數(shù)？

就是損失函數(shù)，損失函數(shù)（Loss Function）是在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中廣泛使用的一個(gè)概念。它主要用于衡量模型的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的差異程度。簡(jiǎn)單來(lái)說(shuō)，損失函數(shù)的值越小，說(shuō)明模型的預(yù)測(cè)越準(zhǔn)確。

例如，在一個(gè)回歸問(wèn)題（比如預(yù)測(cè)房?jī)r(jià)）中，常用的損失函數(shù)是均方誤差（MSE）。假設(shè)真實(shí)房?jī)r(jià)是y ，模型預(yù)測(cè)的房?jī)r(jià)是y^，均方誤差損失函數(shù)可以表示為：

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

這里n是樣本數(shù)量。該函數(shù)通過(guò)計(jì)算每個(gè)樣本預(yù)測(cè)值和真實(shí)值差的平方的平均值，來(lái)衡量整體的誤差。我們的目標(biāo)就是使得誤差降到最低，使預(yù)測(cè)值無(wú)限接近真實(shí)值，所以我們使用梯度下降來(lái)做到這一步。

梯度下降如何優(yōu)化損失函數(shù)？

舉個(gè)例子來(lái)說(shuō)明這一步，假設(shè)我們需要擬合一條直線，這條直線的橫坐標(biāo)是體重，縱坐標(biāo)是身高，如下所示（綠色的點(diǎn)是數(shù)據(jù)點(diǎn)，綠色的線是我們要擬合的線）：

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

這條直線的方程是y=w*x+b，三個(gè)數(shù)據(jù)坐標(biāo)點(diǎn)的分別是(0.5,0.8),(2.5,2),(3,3)。我們先求出損失函數(shù)，這個(gè)損失函數(shù)才是我們要優(yōu)化的參數(shù)。我們使用MSE作為損失函數(shù)。

得到損失函數(shù)Loss=((0.8-w*0.5-b)平方+(2-w*2.5-b)平方+(3-w*3-b)平方)/3。

我們可以看到損失函數(shù)Loss就是關(guān)于w和b兩個(gè)參數(shù)的函數(shù)。我們將Loss函數(shù)的圖像畫(huà)出來(lái)如下圖所示：

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

上面的圖片中x軸是w，y軸是b，z軸是Loss。我們要找的就是Loss處于最低點(diǎn)處的w和b的值。

那我們?cè)趺凑夷兀?/p>

就要使用梯度下降。梯度就是導(dǎo)數(shù)，就是參數(shù)在某一點(diǎn)的變化率，在曲線上可以反映為某一點(diǎn)的切線。對(duì)于多元函數(shù)來(lái)說(shuō)，梯度就是一個(gè)向量，它包含了函數(shù)對(duì)各個(gè)向量的偏導(dǎo)數(shù)，這個(gè)梯度的向量指向函數(shù)值增長(zhǎng)最快的方向。我們知道導(dǎo)數(shù)為0時(shí)，函數(shù)處于極值點(diǎn)。所以我們沿著梯度下降就可以最快的到達(dá)損失函數(shù)極小值點(diǎn)。

梯度下降的做法就是損失函數(shù)分別對(duì)參數(shù)求導(dǎo)，比如說(shuō)當(dāng)w為固定值時(shí)，損失函數(shù)Loss對(duì)b的函數(shù)圖像如下所示，圖片中的斜率時(shí)Loss對(duì)b的導(dǎo)數(shù)，也就是b的梯度：

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

當(dāng)b=0時(shí)，Loss很大，梯度(斜率)很大。

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

當(dāng)b=0.8時(shí)，Loss趨近最小值，梯度(斜率)很小。

由此我們可以看到，當(dāng)斜率也就是梯度很大的時(shí)候，b可以增大一點(diǎn)步長(zhǎng)，以便于快速到達(dá)極值點(diǎn)；當(dāng)斜率也就是梯度很小的時(shí)候說(shuō)明很快逼近最小值，b可以減小一點(diǎn)步長(zhǎng)；所以b可以這樣更新：

b=b-（Loss對(duì)b的梯度）*學(xué)習(xí)率

梯度大的時(shí)候b就可以邁大一步，梯度小的時(shí)候b就可以邁小一步，這里學(xué)習(xí)率一般設(shè)置比較小，避免邁的步子太大直接跳過(guò)極小值點(diǎn)。

所以梯度下降的步驟一般如下所示：

1. 對(duì)損失函數(shù)中每個(gè)參數(shù)求導(dǎo)，也就是求梯度

2. 對(duì)參數(shù)隨機(jī)賦值

3. 將參數(shù)值帶入梯度

4. 計(jì)算步長(zhǎng)

5. 更新參數(shù)

6. 回到步驟3重新計(jì)算，直到步長(zhǎng)（（Loss對(duì)b的梯度）*學(xué)習(xí)率）小于設(shè)置閾值。

怎么樣？看上去很晦澀的東西是不是也沒(méi)那么難懂？是不是對(duì)梯度下降非常了解了？！

什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！-AI.x社區(qū)

本文轉(zhuǎn)載自 ??人工智能訓(xùn)練營(yíng)??，作者：小A學(xué)習(xí)

標(biāo)簽

神經(jīng)網(wǎng)絡(luò)

學(xué)習(xí)率

已于2024-12-23 09:17:53修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)反向傳播

mb61e52f0ac174a ? 2205瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的通用訓(xùn)練流程

AI探索時(shí)代 ? 2401瀏覽 ? 0回復(fù)
你知道神經(jīng)網(wǎng)絡(luò)是怎么運(yùn)作的嗎？神經(jīng)網(wǎng)絡(luò)內(nèi)部原理解析

AI探索時(shí)代 ? 2274瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)與2024諾貝爾物理獎(jiǎng)

魯班模錘1 ? 1955瀏覽 ? 0回復(fù)
最小化的遞歸神經(jīng)網(wǎng)絡(luò)RNN為Transformer提供了快速高效的替代方案

51CTO內(nèi)容精選 ? 2041瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：神經(jīng)網(wǎng)絡(luò)與矩陣

魯班模錘1 ? 1945瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

人工智能訓(xùn)練營(yíng) ? 1644瀏覽 ? 0回復(fù)
大模型之神經(jīng)網(wǎng)絡(luò)特征提取綜述

AI探索時(shí)代 ? 2030瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)框架——PyTorch和架構(gòu)Transformer的區(qū)別和聯(lián)系

AI探索時(shí)代 ? 2482瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)是怎么學(xué)習(xí)的？

AI探索時(shí)代 ? 1656瀏覽 ? 0回復(fù)
關(guān)于神經(jīng)網(wǎng)絡(luò)的輸入格式——數(shù)據(jù)集的處理，關(guān)于神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)說(shuō)明

AI探索時(shí)代 ? 1842瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)之損失函數(shù)與優(yōu)化函數(shù)——梯度下降

AI探索時(shí)代 ? 1873瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了反向傳播詳解

人工智能訓(xùn)練營(yíng) ? 1872瀏覽 ? 0回復(fù)
再談什么是神經(jīng)網(wǎng)絡(luò)，透過(guò)現(xiàn)象看本質(zhì)

AI探索時(shí)代 ? 1501瀏覽 ? 0回復(fù)
怎么實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)的組成結(jié)構(gòu)

AI探索時(shí)代 ? 1560瀏覽 ? 0回復(fù)
不同神經(jīng)網(wǎng)絡(luò)之間的區(qū)別，僅僅只是網(wǎng)絡(luò)結(jié)構(gòu)的不同，明白了這個(gè)你才能知道應(yīng)該怎么學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

AI探索時(shí)代 ? 1590瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的每一層都是干嘛的？這才是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的核心

AI探索時(shí)代 ? 1456瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)RNN各層詳解及實(shí)例展示

人工智能訓(xùn)練營(yíng) ? 1633瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)：反向傳播如何更新網(wǎng)絡(luò)參數(shù)

人工智能訓(xùn)練營(yíng) ? 291瀏覽 ? 0回復(fù)

人工智能訓(xùn)練營(yíng)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

什么是神經(jīng)網(wǎng)絡(luò)：反向傳播如何更新網(wǎng)絡(luò)參數(shù) 5天前發(fā)布
解鎖Transformer核心！手把手帶你看懂自注意力機(jī)制：三個(gè)輸入一步步算到底 2025-04-15 00:01:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

下一篇：什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

社區(qū)精華內(nèi)容

目錄