自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

作者：python小白社區(qū) 2019-11-27 09:47:49

開發(fā) 后端機(jī)器學(xué)習(xí) 算法

梯度下降是神經(jīng)網(wǎng)絡(luò)中流行的優(yōu)化算法之一。一般來說，我們想要找到最小化誤差函數(shù)的權(quán)重和偏差。梯度下降算法迭代地更新參數(shù)，以使整體網(wǎng)絡(luò)的誤差最小化。

概述

梯度下降是神經(jīng)網(wǎng)絡(luò)中流行的優(yōu)化算法之一。一般來說，我們想要找到最小化誤差函數(shù)的權(quán)重和偏差。梯度下降算法迭代地更新參數(shù)，以使整體網(wǎng)絡(luò)的誤差最小化。

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù)，即無約束優(yōu)化問題時(shí)，梯度下降(Gradient Descent)是最常采用的方法之一，另一種常用的方法是最小二乘法。在求解損失函數(shù)的最小值時(shí)，可以通過梯度下降法來一步步的迭代求解，得到最小化的損失函數(shù)和模型參數(shù)值。反過來，如果我們需要求解損失函數(shù)的最大值，這時(shí)就需要用梯度上升法來迭代了。在機(jī)器學(xué)習(xí)中，基于基本的梯度下降法發(fā)展了兩種梯度下降方法，分別為隨機(jī)梯度下降法和批量梯度下降法。

該算法在損失函數(shù)的梯度上迭代地更新權(quán)重參數(shù)，直至達(dá)到最小值。換句話說，我們沿著損失函數(shù)的斜坡方向下坡，直至到達(dá)山谷?；舅枷氪笾氯鐖D3.8所示。如果偏導(dǎo)數(shù)為負(fù)，則權(quán)重增加(圖的左側(cè)部分)，如果偏導(dǎo)數(shù)為正，則權(quán)重減小(圖中右半部分) 42 。學(xué)習(xí)速率參數(shù)決定了達(dá)到最小值所需步數(shù)的大小。

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

圖3.8　隨機(jī)梯度最小化的基本思想

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

誤差曲面

尋找全局最佳方案的同時(shí)避免局部極小值是一件很有挑戰(zhàn)的事情。這是因?yàn)檎`差曲面有很多的峰和谷，如圖3.9所示。誤差曲面在一些方向上可能是高度彎曲的，但在其他方向是平坦的。這使得優(yōu)化過程非常復(fù)雜。為了避免網(wǎng)絡(luò)陷入局部極小值的境地，通常要指定一個(gè)沖量(momentum)參數(shù)。

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

圖3.9　典型優(yōu)化問題的復(fù)雜誤差曲面

我很早就發(fā)現(xiàn)，使用梯度下降的反向傳播通常收斂得非常緩慢，或者根本不收斂。在編寫第一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí)，我使用了反向傳播算法，該網(wǎng)絡(luò)包含一個(gè)很小的數(shù)據(jù)集。網(wǎng)絡(luò)用了3天多的時(shí)間才收斂到一個(gè)解決方案。幸虧我采取一些措施加快了處理過程。

說明雖然反向傳播相關(guān)的學(xué)習(xí)速率相對較慢，但作為前饋算法，其在預(yù)測或者分類階段是相當(dāng)快速的。

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

隨機(jī)梯度下降

傳統(tǒng)的梯度下降算法使用整個(gè)數(shù)據(jù)集來計(jì)算每次迭代的梯度。對于大型數(shù)據(jù)集，這會導(dǎo)致冗余計(jì)算，因?yàn)樵诿總€(gè)參數(shù)更新之前，非常相似的樣本的梯度會被重新計(jì)算。隨機(jī)梯度下降(SGD)是真實(shí)梯度的近似值。在每次迭代中，它隨機(jī)選擇一個(gè)樣本來更新參數(shù)，并在該樣本的相關(guān)梯度上移動。因此，它遵循一條曲折的通往極小值的梯度路徑。在某種程度上，由于其缺乏冗余，它往往能比傳統(tǒng)梯度下降更快地收斂到解決方案。

說明隨機(jī)梯度下降的一個(gè)非常好的理論特性是，如果損失函數(shù)是凸的 43 ，那么保證能找到全局最小值。

代碼實(shí)踐

理論已經(jīng)足夠多了，接下來敲一敲實(shí)在的代碼吧。

一維問題

假設(shè)我們需要求解的目標(biāo)函數(shù)是：

()=2+1f(x)=x2+1

酷極了！5分鐘用Python理解人工智能優(yōu)化算法

顯然一眼就知道它的最小值是 =0x=0 處，但是這里我們需要用梯度下降法的 Python 代碼來實(shí)現(xiàn)。

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
""" 
一維問題的梯度下降法示例 
""" 
 
 
def func_1d(x): 
 """ 
 目標(biāo)函數(shù) 
 :param x: 自變量，標(biāo)量 
 :return: 因變量，標(biāo)量 
 """ 
 return x ** 2 + 1 
 
 
def grad_1d(x): 
 """ 
 目標(biāo)函數(shù)的梯度 
 :param x: 自變量，標(biāo)量 
 :return: 因變量，標(biāo)量 
 """ 
 return x * 2 
 
 
def gradient_descent_1d(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=10000): 
 """ 
 一維問題的梯度下降法 
 :param grad: 目標(biāo)函數(shù)的梯度 
 :param cur_x: 當(dāng)前 x 值，通過參數(shù)可以提供初始值 
 :param learning_rate: 學(xué)習(xí)率，也相當(dāng)于設(shè)置的步長 
 :param precision: 設(shè)置收斂精度 
 :param max_iters: 最大迭代次數(shù) 
 :return: 局部最小值 x* 
 """ 
 for i in range(max_iters): 
 grad_cur = grad(cur_x) 
 if abs(grad_cur) < precision: 
 break # 當(dāng)梯度趨近為 0 時(shí)，視為收斂 
 cur_x = cur_x - grad_cur * learning_rate 
 print("第", i, "次迭代：x 值為 ", cur_x) 
 
 print("局部最小值 x =", cur_x) 
 return cur_x 
 
 
if __name__ == '__main__': 
 gradient_descent_1d(grad_1d, cur_x=10, learning_rate=0.2, precision=0.000001, max_iters=10000)

就是這么酷吧!用Python理解剃度下降!

責(zé)任編輯：華軒來源：今日頭條

算法人工智能 Python

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<thead id="f9c8t"></thead>}