自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

如果你的PyTorch優(yōu)化器效果欠佳，試試這四種深度學(xué)習(xí)中的高級(jí)優(yōu)化技術(shù)吧

作者：佚名 2024-10-16 15:20:46

人工智能深度學(xué)習(xí)

在深度學(xué)習(xí)領(lǐng)域，優(yōu)化器的選擇對(duì)模型性能至關(guān)重要。雖然PyTorch中的標(biāo)準(zhǔn)優(yōu)化器如SGD、Adam和AdamW被廣泛應(yīng)用，但它們并非在所有情況下都是最優(yōu)選擇。

在深度學(xué)習(xí)領(lǐng)域，優(yōu)化器的選擇對(duì)模型性能至關(guān)重要。雖然PyTorch中的標(biāo)準(zhǔn)優(yōu)化器如SGD、Adam和AdamW被廣泛應(yīng)用，但它們并非在所有情況下都是最優(yōu)選擇。本文將介紹四種高級(jí)優(yōu)化技術(shù)，這些技術(shù)在某些任務(wù)中可能優(yōu)于傳統(tǒng)方法，特別是在面對(duì)復(fù)雜優(yōu)化問題時(shí)。

我們將探討以下算法：

序列最小二乘規(guī)劃（SLSQP）
粒子群優(yōu)化（PSO）
協(xié)方差矩陣自適應(yīng)進(jìn)化策略（CMA-ES）
模擬退火（SA）

這些方法的主要優(yōu)勢包括：

無梯度優(yōu)化：適用于非可微操作，如采樣、取整和組合優(yōu)化。
僅需前向傳播：通常比傳統(tǒng)方法更快，且內(nèi)存效率更高。
全局優(yōu)化能力：有助于避免局部最優(yōu)解。

需要注意的是，這些方法最適合優(yōu)化參數(shù)數(shù)量較少（通常少于100-1000個(gè)）的情況。它們特別適用于優(yōu)化關(guān)鍵參數(shù)、每層特定參數(shù)或超參數(shù)。

實(shí)驗(yàn)準(zhǔn)備

在開始實(shí)驗(yàn)之前，我們需要設(shè)置環(huán)境并定義一些輔助函數(shù)。以下是必要的導(dǎo)入和函數(shù)定義：

from functools import partial
 from collections import defaultdict
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import torch.nn.functional as F
 import numpy as np
 import scipy.optimize as opt
 import matplotlib.pyplot as plt
 
 # 設(shè)置隨機(jī)種子以確保結(jié)果可復(fù)現(xiàn)
 torch.manual_seed(42)
 np.random.seed(42)  
 
 # 輔助函數(shù)：在PyTorch模型和NumPy向量之間轉(zhuǎn)換權(quán)重
 def set_model_weights_from_vector(model, numpy_vector):
     weight_vector = torch.tensor(numpy_vector, dtype=torch.float64)
     model[0].weight.data = weight_vector[0:4].reshape(2, 2)
     model[2].weight.data = weight_vector[4:8].reshape(2, 2)
     model[2].bias.data = weight_vector[8:10]
     return model
 
 def get_vector_from_model_weights(model):
     return torch.cat([
         model[0].weight.data.view(-1),
         model[2].weight.data.view(-1),
         model[2].bias.data]
    ).detach().numpy()
 
 # 用于跟蹤和更新?lián)p失的函數(shù)
 def update_tracker(loss_tracker, optimizer_name, loss_val):
     loss_tracker[optimizer_name].append(loss_val)
     if len(loss_tracker[optimizer_name]) > 1:
         min_loss = min(loss_tracker[optimizer_name][-2], loss_val)
         loss_tracker[optimizer_name][-1] = min_loss
     return loss_tracker

這些函數(shù)將用于在不同的優(yōu)化算法之間轉(zhuǎn)換模型權(quán)重，并跟蹤優(yōu)化過程中的損失。

接下來定義目標(biāo)函數(shù)和PyTorch優(yōu)化循環(huán)：

def objective(x, model, input, target, loss_tracker, optimizer_name):
     model = set_model_weights_from_vector(model, x)
     loss_val = F.mse_loss(model(input), target).item()
     loss_tracker = update_tracker(loss_tracker, optimizer_name, loss_val)  
     return loss_val
 
 def pytorch_optimize(x, model, input, target, maxiter, loss_tracker, optimizer_name="Adam"):
     set_model_weights_from_vector(model, x)
     optimizer = optim.Adam(model.parameters(), lr=1.)
 
     # 訓(xùn)練循環(huán)
     for iteration in range(maxiter):  
         loss = F.mse_loss(model(input), target)
         optimizer.zero_grad()  
         loss.backward()        
         optimizer.step()
         loss_tracker = update_tracker(loss_tracker, optimizer_name, loss.item())  
     final_x = get_vector_from_model_weights(model)
     return final_x, loss.item()

最后設(shè)置實(shí)驗(yàn)所需的通用變量：

model = nn.Sequential(nn.Linear(2, 2, bias=False), nn.ReLU(), nn.Linear(2, 2, bias=True)).double()
 input_tensor = torch.randn(32, 2).double()  # 隨機(jī)輸入張量
 input_tensor[:, 1] *= 1e3  # 增加一個(gè)變量的敏感度
 target = input_tensor.clone() # 目標(biāo)是輸入本身（恒等函數(shù)）
 num_params = 10
 maxiter = 100
 x0 = 0.1 * np.random.randn(num_params)
 loss_tracker = defaultdict(list)

這些設(shè)置為我們的實(shí)驗(yàn)創(chuàng)建了一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)模型、定義了輸入、目標(biāo)和初始參數(shù)。

在下一部分中，我們將開始實(shí)現(xiàn)和比較不同的優(yōu)化技術(shù)。

優(yōu)化技術(shù)比較

1、PyTorch中的Adam優(yōu)化器

作為基準(zhǔn)，我們首先使用PyTorch的Adam優(yōu)化器。Adam是一種自適應(yīng)學(xué)習(xí)率優(yōu)化算法，在深度學(xué)習(xí)中廣泛使用。

optimizer_name = "PyTorch Adam"
 result = pytorch_optimize(x0, model, input_tensor, target, maxiter, loss_tracker, optimizer_name)
 print(f'Adam優(yōu)化器最終損失: {result[1]}')

運(yùn)行此代碼后，我們得到以下結(jié)果：

Adam優(yōu)化器最終損失: 91.85612831226527

考慮到初始損失值約為300,000，這個(gè)結(jié)果在100次優(yōu)化步驟后已經(jīng)有了顯著改善。

2、序列最小二乘規(guī)劃 (SLSQP)

序列最小二乘規(guī)劃（SLSQP）是一種強(qiáng)大的優(yōu)化算法，特別適用于具有連續(xù)參數(shù)的問題。它通過在每一步構(gòu)建二次近似來逼近最優(yōu)解。

optimizer_name = "slsqp"
 args = (model, input_tensor, target, loss_tracker, optimizer_name)
 result = opt.minimize(objective, x0, method=optimizer_name, args=args, options={"maxiter": maxiter, "disp": False, "eps": 0.001})
 print(f"SLSQP優(yōu)化器最終損失: {result.fun}")

運(yùn)行SLSQP算法，我們獲得以下結(jié)果：

SLSQP優(yōu)化器最終損失: 3.097042282788268

SLSQP的性能明顯優(yōu)于Adam，這表明在某些情況下，非傳統(tǒng)優(yōu)化方法可能更有效。

3、粒子群優(yōu)化 (PSO)

粒子群優(yōu)化（PSO）是一種基于群體智能的優(yōu)化算法，其靈感來自于鳥群和魚群的社會(huì)行為。PSO在非連續(xù)和非光滑的問題上表現(xiàn)尤為出色。

from pyswarm import pso
 
 lb = -np.ones(num_params)
 ub = np.ones(num_params)
 optimizer_name = 'pso'
 args = (model, input_tensor, target, loss_tracker, optimizer_name)
 result_pso = pso(objective, lb, ub, maxiter=maxiter, args=args)
 print(f"PSO優(yōu)化器最終損失: {result_pso[1]}")

PSO的優(yōu)化結(jié)果如下：

PSO優(yōu)化器最終損失: 1.0195048385714032

PSO的表現(xiàn)進(jìn)一步超越了SLSQP，這凸顯了在復(fù)雜優(yōu)化問題中探索多種算法的重要性。

4、協(xié)方差矩陣自適應(yīng)進(jìn)化策略 (CMA-ES)

協(xié)方差矩陣自適應(yīng)進(jìn)化策略（CMA-ES）是一種高度復(fù)雜的優(yōu)化算法，特別適用于難以處理的非凸優(yōu)化問題。它通過自適應(yīng)地學(xué)習(xí)問題的協(xié)方差結(jié)構(gòu)來指導(dǎo)搜索過程。

from cma import CMAEvolutionStrategy
 
 es = CMAEvolutionStrategy(x0, 0.5, {"maxiter": maxiter, "seed": 42})
 optimizer_name = 'cma'
 args = (model, input_tensor, target, loss_tracker, optimizer_name)
 while not es.stop():
     solutions = es.ask()
     object_vals = [objective(x, *args) for x in solutions]
     es.tell(solutions, object_vals)
 print(f"CMA-ES優(yōu)化器最終損失: {es.result[1]}")

CMA-ES的優(yōu)化結(jié)果如下：

(5_w,10)-aCMA-ES (mu_w=3.2,w_1=45%) in dimension 10 (seed=42, Thu Oct 12 22:03:53 2024)  
 CMA-ES優(yōu)化器最終損失: 4.084718909553896

雖然CMA-ES在這個(gè)特定問題上沒有達(dá)到最佳性能，但它在處理復(fù)雜的多模態(tài)優(yōu)化問題時(shí)通常表現(xiàn)出色。

5、模擬退火 (SA)

模擬退火（SA）是一種受冶金學(xué)啟發(fā)的優(yōu)化算法，它模擬了金屬冷卻和退火過程。SA在尋找全局最優(yōu)解方面特別有效，能夠避免陷入局部最優(yōu)解。

from scipy.optimize import dual_annealing
 bounds = [(-1, 1)] * num_params
 optimizer_name = 'simulated_annealing'
 args = (model, input_tensor, target, loss_tracker, optimizer_name)
 result = dual_annealing(objective, bounds, maxiter=maxiter, args=args, initial_temp=1.)
 print(f"SA優(yōu)化器最終損失: {result.fun}")

SA的優(yōu)化結(jié)果如下：

SA優(yōu)化器最終損失: 0.7834294257939689

可以看到，針對(duì)我們的問題SA表現(xiàn)最佳，這突顯了其在復(fù)雜優(yōu)化問題中的潛力。

下面我們來可視化這些優(yōu)化器的性能，并討論結(jié)果的含義。

結(jié)果可視化與分析

為了更好地理解各種優(yōu)化算法的性能，我們將使用matplotlib庫來可視化優(yōu)化過程中的損失變化。

plt.figure(figsize=(10, 6))
 line_styles = ['-', '--', '-.', ':']
 for i, (optimizer_name, losses) in enumerate(loss_tracker.items()):
     plt.plot(np.linspace(0, maxiter, len(losses)), losses,
              label=optimizer_name,
              linestyle=line_styles[i % len(line_styles)],
              linewidth=5,
    )
 plt.xlabel("Iteration", fontsize=20)
 plt.ylabel("Loss", fontsize=20)
 plt.ylim(1e-1, 1e7)
 plt.yscale('log')
 plt.title("Loss For Different Optimizers", fontsize=20)
 plt.grid(True, linestyle='--', alpha=0.6)
 plt.legend(loc='upper right', fontsize=20)
 plt.tight_layout()
 plt.savefig('optimizers.png')
 plt.show()

執(zhí)行上述代碼后，我們得到了以下可視化結(jié)果：

結(jié)果分析

Adam優(yōu)化器：作為基準(zhǔn)Adam表現(xiàn)穩(wěn)定但收斂速度相對(duì)較慢。這反映了在某些復(fù)雜問題中，傳統(tǒng)梯度下降方法可能不是最優(yōu)選擇。
SLSQP：序列最小二乘規(guī)劃表現(xiàn)出快速的初始收斂，這表明它在處理具有連續(xù)參數(shù)的問題時(shí)非常有效。
PSO：粒子群優(yōu)化展示了良好的全局搜索能力，能夠迅速找到較好的解。這凸顯了其在非凸優(yōu)化問題中的潛力。
CMA-ES：雖然在本實(shí)驗(yàn)中收斂較慢，但協(xié)方差矩陣自適應(yīng)進(jìn)化策略通常在處理高度復(fù)雜和多模態(tài)的問題時(shí)表現(xiàn)出色。其性能可能在更復(fù)雜的優(yōu)化場景中更為突出。
模擬退火：我們這個(gè)特定問題SA表現(xiàn)最為出色，僅用幾次迭代就達(dá)到了最低損失。這突顯了其在避免局部最優(yōu)解并快速找到全局最優(yōu)解方面的優(yōu)勢。

需要注意的是，每種算法的"迭代"定義可能不同，因此直接比較迭代次數(shù)可能不夠公平。例如SA的每次迭代可能包含多次目標(biāo)函數(shù)評(píng)估。

總結(jié)

在特定問題上，非傳統(tǒng)優(yōu)化方法可能比標(biāo)準(zhǔn)的梯度下降算法（如Adam）表現(xiàn)更好。然而，這并不意味著這些方法在所有情況下都優(yōu)于傳統(tǒng)方法。選擇最適合的優(yōu)化算法應(yīng)基于具體問題的特性：

對(duì)于參數(shù)數(shù)量較少（100-1000個(gè)）的優(yōu)化問題，考慮嘗試本文介紹的高級(jí)優(yōu)化技術(shù)。
在處理非可微操作或復(fù)雜的損失景觀時(shí)，無梯度方法（如PSO、CMA-ES和SA）可能更有優(yōu)勢。
對(duì)于需要滿足復(fù)雜約束的優(yōu)化問題，SLSQP可能是一個(gè)很好的選擇。
在計(jì)算資源有限的情況下，考慮使用僅需前向傳播的方法，如PSO或SA。
對(duì)于高度非凸的問題，CMA-ES和SA可能更容易找到全局最優(yōu)解。

最后，建議在實(shí)際應(yīng)用中對(duì)多種優(yōu)化方法進(jìn)行比較和測試，以找到最適合特定問題的算法。同時(shí)要注意這些高級(jí)方法在大規(guī)模問題（參數(shù)數(shù)量超過1000）上可能面臨計(jì)算效率的挑戰(zhàn)。

未來研究方向

探索這些高級(jí)優(yōu)化技術(shù)在更復(fù)雜的深度學(xué)習(xí)模型中的應(yīng)用。
研究如何有效地將這些方法與傳統(tǒng)的梯度下降算法結(jié)合，以開發(fā)混合優(yōu)化策略。
開發(fā)更高效的并行化實(shí)現(xiàn)，以提高這些算法在大規(guī)模問題上的適用性。
探索這些方法在特定領(lǐng)域（如強(qiáng)化學(xué)習(xí)、神經(jīng)架構(gòu)搜索）中的潛在應(yīng)用。

通過深入理解和靈活運(yùn)用這些高級(jí)優(yōu)化技術(shù)，研究者和工程師可以在面對(duì)復(fù)雜優(yōu)化問題時(shí)拓展解決方案的范圍，potentially unlocking新的性能水平和應(yīng)用可能性。

責(zé)任編輯：華軒來源： DeepHub IMBA

深度學(xué)習(xí)PyTorch 優(yōu)化器

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="wedb1"></sub>

<optgroup id="wedb1"><track id="wedb1"><fieldset id="wedb1"></fieldset></track></optgroup>