自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從方向?qū)?shù)到梯度:深度學習中的關鍵數(shù)學概念詳解

人工智能 深度學習
函數(shù)在不同方向上的變化特性分析在諸多領域具有重要意義,典型應用如神經(jīng)網(wǎng)絡中利用梯度更新權重的訓練過程。本文將系統(tǒng)探討方向?qū)?shù)與梯度的理論基礎。
  • 方向?qū)?shù)作為標量量,表征了函數(shù)在特定方向上的變化率。其數(shù)學表示為 ??f(x) 或 D?f(x)。
  • 對于標量函數(shù) f(x): R? → R,其梯度由函數(shù)的偏導數(shù)構成向量場。梯度向量指向函數(shù)值增長最快的方向,其模長等于該方向的方向?qū)?shù)。
  • 方向?qū)?shù)的計算可通過兩種方法實現(xiàn):其一是引入函數(shù) g(s) = f(x + su),方向?qū)?shù)即為 g′(0);其二是利用方向?qū)?shù)等于梯度與方向向量點積的性質(zhì):??f(x) = ?f(x)u。

引論

函數(shù)在不同方向上的變化特性分析在諸多領域具有重要意義,典型應用如神經(jīng)網(wǎng)絡中利用梯度更新權重的訓練過程。本文將系統(tǒng)探討方向?qū)?shù)與梯度的理論基礎,并通過如下等式闡述二者的內(nèi)在聯(lián)系:

本文的理解需要讀者具備點積、導數(shù)、萊布尼茨與拉格朗日記號、偏導數(shù)以及鏈式法則等基礎數(shù)學知識。

方向?qū)?shù)與梯度的基本定義

首先考察單變量函數(shù)的導數(shù)定義:

(此處采用萊布尼茨記號 df/dx 表示導數(shù),這是拉格朗日記號 f′(x) 的等價表示。)單變量函數(shù) f(x) 的導數(shù)表征了函數(shù)的斜率,定義為函數(shù)值的增量與自變量無窮小增量的比值。它描述了在給定點處當參數(shù)發(fā)生無窮小變化時函數(shù)值的變化率,從而反映了函數(shù)在該點的增減性質(zhì)和變化劇烈程度。

梯度的數(shù)學表述

梯度是導數(shù)概念在標量值函數(shù) f(x): R? → R(多輸入單輸出映射)上的推廣,其定義為:

梯度作為標量值函數(shù)的重要特征量,是由所有偏導數(shù)組成的向量(通常表示為列向量)。

從本質(zhì)上看,梯度是所有偏導數(shù)的有序集合。(向量在此作為空間點坐標的有序數(shù)組,具有大小和方向兩個基本特征。)算子符號 ?(希臘字母 nabla,讀作"del")可視為作用于函數(shù)的微分算子。梯度向量的每個分量表示函數(shù)對應變量的偏導數(shù):δf/δx? 表征了函數(shù)關于 x? 的變化率,此時將其他變量(x?, ...x?)視為常數(shù)。梯度的一個核心性質(zhì)是其指向函數(shù)值增長最快的方向,這一性質(zhì)的嚴格證明將在第6節(jié)中給出。

方向?qū)?shù)的理論基礎

方向?qū)?shù)通常表示為 ??f(x) 或 D?f(x),本文采用前者。其嚴格數(shù)學定義如下:

在此定義中,u 表示單位向量,其模長恒為1。向量的模長定義為各分量平方和的平方根,數(shù)學上用雙豎線表示(某些文獻中采用單豎線):

其中 a ∈ R?。方向?qū)?shù)的定義形式與單變量導數(shù)具有顯著的相似性。(本文使用變量 s 而非 h,以突出其與單變量情況的區(qū)別。)方向?qū)?shù)的關鍵特征在于其輸入形式 x + su 構成了一個直線方程。這表示從向量 x 出發(fā),沿 u 方向移動 s 個單位長度。該表達式實質(zhì)上研究了函數(shù)在 u 方向上的無窮小變化特性。方向?qū)?shù)量化了函數(shù)在給定點沿特定方向發(fā)生無窮小位移時的變化率。這一概念通過記號 ??f(x) 得到精確表達,其中 u 作為下標標識方向特征。

圖1:二維空間中的函數(shù)輸入點(紅點)與其沿方向向量(綠線su)的變化示意。方向?qū)?shù)表征了當沿 u 方向發(fā)生無窮小位移(s → 0)時函數(shù)值的瞬時變化率。

為深入理解這一概念,上圖所示的幾何展示了一個二維函數(shù),平面上的紅點代表特定輸入點,其函數(shù)值由藍點標識。對比單變量函數(shù)僅能沿自變量方向變化的情況,多變量函數(shù)的輸入可在各個方向發(fā)生變化。例如可以在 x? 方向移動一個單位,同時在 x? 方向移動兩個單位。要準確描述函數(shù)值的變化特性,首先需要明確運動方向。圖中綠色向量即表示這一方向。該向量實質(zhì)上是 su,其中標量 s 確定了移動距離,可理解為對方向向量 u 的尺度調(diào)節(jié)。

這種構造使得方向?qū)?shù)的概念自然地擴展了單變量導數(shù)的思想。它描述了函數(shù)在指定方向上的瞬時變化率。當綠色向量趨于無窮小時(s → 0),其對應了函數(shù)在該點處沿特定方向的切線。這條切線的斜率即為方向?qū)?shù)的幾何意義。

這一數(shù)學概念可通過一個實際的類比來理解:設想在起伏不平的山地地形(函數(shù))上進行導航。方向?qū)?shù)相當于在特定位置沿給定方向探測地形的變化程度,這對于確定安全的運動路徑具有重要意義。

梯度與方向?qū)?shù)的關聯(lián)性

梯度與方向?qū)?shù)雖然表征了函數(shù)的不同性質(zhì),但二者存在密切的內(nèi)在聯(lián)系。梯度作為向量量,指示了函數(shù)值增長最快的方向;而方向?qū)?shù)作為標量量,量化了函數(shù)在特定方向上的變化率。當所選方向與最速上升方向重合時,方向?qū)?shù)的值等于梯度的模長,方向?qū)?shù)可表示為梯度與方向向量的內(nèi)積。下表系統(tǒng)總結了二者的主要特征及關聯(lián)。

梯度與方向?qū)?shù)的特征對比

方向?qū)?shù)的計算理論

下面我們將嚴格證明如下核心等式:

為確保論證的嚴密性,我們將分步進行推導。

極限定義與導數(shù)的基本原理

方向?qū)?shù)的本質(zhì)是函數(shù)在特定點沿給定方向的無窮小變化率。這一概念已在等式2中通過極限形式得到嚴格定義。從幾何觀點看,這一極限過程可理解為在函數(shù)曲面上選取兩個點(如圖1所示),通過使其中一點逐漸接近感興趣點來確定變化率。對于多變量函數(shù),這種極限過程僅在點的運動嚴格限制在由 su 確定的直線上時才具有明確意義。

這一概念可以通過另一個數(shù)學視角來理解:由于 xu 為固定向量,參數(shù) s 成為唯一的自由變量。表達式 x + su 實質(zhì)上定義了一條參數(shù)化直線,而函數(shù) f 則將該直線上的每一點映射到對應的函數(shù)值。下圖提供了這一概念的直觀展示,其中展示了原圖的局部放大區(qū)域。圖中標注了直線 su 上的若干離散點及其對應的函數(shù)值。這種構造實質(zhì)上定義了一個關于參數(shù) s 的單變量函數(shù)。根據(jù)導數(shù)的基本定義,該函數(shù)在各點的導數(shù)表征了相應位置的變化率。在 s = 0 處的導數(shù)恰好對應于原函數(shù)在給定方向上的方向?qū)?shù)。

圖2:參數(shù)化直線 x + su 上的點(綠點)與其函數(shù)值 f(x + su) (橙點)之間的映射關系。這一構造定義了參數(shù) s 的函數(shù) g(s)=f(x + su)。帶有黑色邊框的橙色點表示 g(s) 在 s=0 處的導數(shù),即函數(shù) f 在點 x 沿方向向量 u 的方向?qū)?shù)。

第一部分:g′(0) = ??f(x) 的證明

基于上述分析,我們引入輔助函數(shù) g(s) 將方向?qū)?shù)的計算轉(zhuǎn)化為單變量函數(shù)的導數(shù)問題:

我們的目標是證明該輔助函數(shù)在 s=0 處的導數(shù)等于方向?qū)?shù),即:

按照單變量函數(shù)導數(shù)的定義,對函數(shù) g 關于參數(shù) s 求導:

在 s=0 處取值:

將 g 的定義式 g(s) = f(x + su) 代入。這里需要注意符號的精確含義:g 是關于參數(shù) s 的函數(shù)。表達式 g(h) 表示將參數(shù)值取為 h,即 g(s = h)。因此可以在函數(shù)定義中用 h 替換 s,得到:g(s=h) = f(x + hu)。g(0) = f(x + 0u) = f(x)也是類似的,將其代入得到:

這一表達式與方向?qū)?shù)的定義形式完全一致,僅變量符號由 s 改為 h。由于極限運算與變量符號的選擇無關,我們可以將變量重命名為 s:

這樣完成了預期結論的證明:

第二部分:??f(x) = ?f(x)u 的證明

在完成了第一部分的證明后,現(xiàn)在轉(zhuǎn)向第二個關鍵等式的證明,即方向?qū)?shù)等于梯度與方向向量的內(nèi)積:??f(x) = ?f(x)u。這一等式揭示了方向?qū)?shù)與梯度之間的本質(zhì)聯(lián)系。我們將繼續(xù)利用前面引入的輔助函數(shù) g(s),目標是證明:

證明過程如下:

這個證明過程中的每個步驟都具有深刻的數(shù)學意義:

  1. 第1行應用了鏈式法則,這是復合函數(shù)求導的基本工具。
  2. 第2行利用了一個關鍵觀察:x + su 關于 s 的導數(shù)恒等于方向向量 u。但外部導數(shù)必須保持符號形式,因為函數(shù) f 的具體形式未知。
  3. 第4行將參數(shù) s 取值為0,這對應于我們感興趣的特定點。
  4. 第5行計算了 s = 0 時的表達式值。這里需要特別注意一個常見的符號錯誤:d(x)/f(x) 的寫法不準確。
  5. 第6行進行了關鍵的修正:由于 f 的輸入是向量,其導數(shù)應當用梯度符號表示。
  6. 最后在第7行,應用了上節(jié)中證明的結論 g′(0) = ??f(x),完成了證明。

梯度的最速上升性質(zhì)

前文中提到了兩個重要結論:

  1. 梯度指向函數(shù)值增長最快的方向
  2. 當方向與最速上升方向重合時,方向?qū)?shù)等于梯度的模長

下面我們將從數(shù)學角度嚴格證明這兩個性質(zhì)。

方向?qū)?shù)表征了函數(shù)在給定方向上的變化率。這個變化率在最陡峭的方向上達到最大值。使方向?qū)?shù)取得最大值的方向向量 u 即為最速上升方向。下面我們將證明這個方向恰好與梯度方向重合。

根據(jù)前面的證明,我們知道 ??f(x) = ?f(x)u。此式表明方向?qū)?shù)等于梯度與方向向量的內(nèi)積。根據(jù)內(nèi)積的基本定義:

其中 a, b ∈ R?,θ 表示向量 a 與 b 之間的夾角,雙豎線表示向量的模長。由于 u 是單位向量,其模長為1,因此:

現(xiàn)在的問題轉(zhuǎn)化為:何時這個表達式取得最大值?由于余弦函數(shù)的值域為[-1,1],該表達式在余弦值等于1時達到最大:

這一條件僅在 ?f(x) 與 u 的夾角為0時成立,即兩個向量指向相同方向。這證明了最速上升方向與梯度方向的一致性。同時在這種情況下方向?qū)?shù)確實等于梯度的模長,這是由于夾角余弦達到最大值1所致。

因此梯度指向最速上升方向這一性質(zhì)是內(nèi)積性質(zhì)與優(yōu)化理論的自然結果:當且僅當兩個向量方向一致時,它們的內(nèi)積(標準化后)達到最大值。

理論應用實例

為加深對前述理論的理解,下面通過兩個具體算例進行說明。

實例分析:??f(x) = ?f(x)u

考慮函數(shù) f(x) = x?2 + x?2 在點(4,5)處的特性。我們需要解決兩個問題:

  1. 確定在該點處最速上升的方向
  2. 計算該方向上的變化率

解析過程:  根據(jù)前述理論,最速上升方向由梯度確定。首先計算函數(shù)的梯度:

在點(4,5)處,最速上升方向由向量[8, 10]?給出(此處上標t表示轉(zhuǎn)置,由于排版原因?qū)⒘邢蛄繉懽餍邢蛄浚T摲较蛏系淖兓实扔谔荻鹊哪iL:

該實例直觀地展示了梯度的方向特性和大小意義。

實例分析:g′(0) = ??f(x)

這個實例源自參考文獻[1]第24頁的示例2.3。考慮函數(shù):

要求在點 x = [1, 0] 處沿方向 u = [?1, ?1] 的方向?qū)?shù)。(原文中使用符號s表示方向向量,這里統(tǒng)一記為 u)。

解析過程:  這個問題可以通過計算梯度后與方向向量做內(nèi)積來解決。但為了展示輔助函數(shù)方法的應用,構造函數(shù):

由于原函數(shù)形式為 f(x = x?x?),可得:

將點 x 和方向 u 的坐標代入:

接下來計算 g 在 s=0 處的導數(shù):

因此函數(shù) f(x) = x?x? 在點 x = [1, 0] 處沿方向 u = [?1, ?1] 的方向?qū)?shù)為-1。

此例展示了如何通過構造輔助函數(shù)來計算方向?qū)?shù),驗證了理論分析的實用性。

理論要點總結

通過對方向?qū)?shù)與梯度的系統(tǒng)分析,可以得到以下核心結論:

  1. 方向?qū)?shù)作為標量量,度量了函數(shù)在特定方向上的變化率,其數(shù)學表示為 ??f(x)。這一概念將單變量導數(shù)推廣到了多維空間。
  2. 梯度作為向量量,是由函數(shù)各個偏導數(shù)構成的向量場。其兩個基本性質(zhì)是:
  • 指向函數(shù)值增長最快的方向
  • 其模長等于最速上升方向上的方向?qū)?shù)
  1. 方向?qū)?shù)的計算可通過兩種等價途徑實現(xiàn):
  • 構造輔助函數(shù) g(s) = f(x + su),方向?qū)?shù)等于 g′(0)
  • 計算梯度與方向向量的內(nèi)積:??f(x) = ?f(x)u

這些理論成果在實際應用中具有重要意義,為函數(shù)局部性質(zhì)的分析提供了有力工具。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2014-06-19 14:14:35

機器學習

2020-09-16 10:09:58

深度學習DNN計算

2017-04-24 08:35:09

深度學習神經(jīng)網(wǎng)絡合成梯度

2024-08-09 09:09:14

深度學習神經(jīng)元網(wǎng)絡

2017-03-22 12:25:29

機器學習梯度下降法

2019-11-04 14:28:55

機器學習大數(shù)據(jù)數(shù)據(jù)挖掘

2010-09-29 13:52:33

PostgreSQL

2021-01-03 14:43:43

深度學習人工智能視頻

2021-05-06 09:05:11

深度學習

2019-08-19 09:31:47

數(shù)據(jù)機器學習統(tǒng)計學習

2020-10-13 14:38:50

機器學習數(shù)據(jù)

2017-03-27 16:35:23

2021-03-01 11:39:34

機器學習深度學習人工智能

2020-04-10 15:05:09

深度學習人工智能蒸餾

2017-01-12 16:13:28

自然語言深度學習系統(tǒng)

2017-03-21 11:02:59

基礎深度學習備忘錄

2024-11-11 08:00:00

PyTorch深度學習

2017-05-02 14:45:11

深度學習機器學習人工神經(jīng)網(wǎng)絡

2018-11-21 09:22:54

策略梯度算法機器學習強化學習

2018-07-20 14:58:16

深度學習梯度下降損失函數(shù)
點贊
收藏

51CTO技術棧公眾號