自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="bobia"><strong id="bobia"></strong></pre>

<u id="bobia"></u>

<output id="bobia"><blockquote id="bobia"></blockquote></output>

<p id="bobia"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LightGBM實戰(zhàn)+隨機搜索調(diào)參：準確率96.67%

作者：Peter 2024-06-06 10:08:32

在機器學(xué)習(xí)領(lǐng)域，梯度提升機（Gradient Boosting Machines, GBMs）是一類強大的集成學(xué)習(xí)算法，它們通過逐步添加弱學(xué)習(xí)器（通常是決策樹）來最小化預(yù)測誤差，從而構(gòu)建一個強大的模型。

大家好，我是Peter~

今天給大家分享一下樹模型的經(jīng)典算法：LightGBM，介紹算法產(chǎn)生的背景、原理和特點，最后提供一個基于LightGBM和隨機搜索調(diào)優(yōu)的案例。

LightGBM算法

在機器學(xué)習(xí)領(lǐng)域，梯度提升機（Gradient Boosting Machines, GBMs）是一類強大的集成學(xué)習(xí)算法，它們通過逐步添加弱學(xué)習(xí)器（通常是決策樹）來最小化預(yù)測誤差，從而構(gòu)建一個強大的模型。

在大數(shù)據(jù)時代，數(shù)據(jù)集的規(guī)模急劇增長，傳統(tǒng)的GBMs由于其計算和存儲成本高昂，難以有效地擴展。

例如，對于水平分割的決策樹生長策略，雖然可以生成平衡的樹，但往往會導(dǎo)致模型的區(qū)分能力下降；而對于基于葉子的生長策略，雖能提高精度卻容易過擬合。
此外，大多數(shù)GBM實現(xiàn)在每次迭代中都需要遍歷整個數(shù)據(jù)集來計算梯度，這在數(shù)據(jù)量巨大時效率低下。因此，需要一個既能高效處理大規(guī)模數(shù)據(jù)又能保持模型準確度的算法。

為了解決這些問題，Microsoft在2017年推出了LightGBM（Light Gradient Boosting Machine），一個更快速、更低內(nèi)存消耗、更高性能的梯度提升框架。

官方學(xué)習(xí)地址：https://lightgbm.readthedocs.io/en/stable/

LightGBM的原理

1、基于直方圖的決策樹算法：

原理：LightGBM使用直方圖優(yōu)化技術(shù)，將連續(xù)的特征值離散化成特定的bin（即直方圖的桶），減少了在節(jié)點分裂時需要計算的數(shù)據(jù)量。
優(yōu)點：這種方法可以在減少內(nèi)存使用的同時，提高計算速度。
實現(xiàn)細節(jié)：對于每個特征，算法都維護一個直方圖，記錄該特征在不同分桶中的統(tǒng)計信息。在進行節(jié)點分裂時，可以直接利用這些直方圖的信息，而不需要遍歷所有數(shù)據(jù)。

2、帶深度限制的leaf-wise樹生長策略：

原理：與傳統(tǒng)的水平分割不同，leaf-wise的生長策略是每次從當前所有葉子節(jié)點中選擇分裂收益最大的節(jié)點進行分裂。
優(yōu)點：這種策略可以使得決策樹更加側(cè)重于數(shù)據(jù)中的異常部分，通?？梢缘玫礁玫木?。
缺點：容易導(dǎo)致過擬合，特別是當數(shù)據(jù)中有噪聲時。
改進措施：LightGBM通過設(shè)置最大深度限制來防止過擬合。

3、單邊梯度采樣（GOSS）：

原理：對于數(shù)據(jù)集中的大梯度樣本，GOSS算法只保留數(shù)據(jù)的一部分（通常是大梯度的樣本），減少計算量同時保證不會損失太多的信息。
優(yōu)點：這種方法可以在不顯著損失精度的情況下加快訓(xùn)練速度。
應(yīng)用場景：特別適用于數(shù)據(jù)傾斜嚴重的情況。

4、互斥特征捆綁（EFB）：

原理：EFB是一種減少特征數(shù)量，提高計算效率的技術(shù)。它將互斥的特征（即從不同時為非零的特征）進行合并，以減少特征維度。
優(yōu)點：提高了內(nèi)存的使用效率和訓(xùn)練速度。
實現(xiàn)細節(jié)：通過特征的互斥性，算法可以在同一時間處理更多的特征，從而減少了實際處理的特征數(shù)。

5、支持并行和分布式學(xué)習(xí)：

原理：LightGBM支持多線程學(xué)習(xí)，能夠利用多個CPU進行并行訓(xùn)練。
優(yōu)點：顯著提高了在多核處理器上的訓(xùn)練速度。
擴展性：還支持分布式學(xué)習(xí)，可以利用多臺機器共同訓(xùn)練模型。

6、緩存優(yōu)化：

原理：優(yōu)化了對數(shù)據(jù)的讀取方式，可以使用更多的緩存來加快數(shù)據(jù)交換的速度。
優(yōu)點：特別是在大數(shù)據(jù)集上，緩存優(yōu)化可以顯著提升性能。

7、支持多種損失函數(shù)：

特點：除了常用的回歸和分類的損失函數(shù)外，LightGBM還支持自定義損失函數(shù)，滿足不同的業(yè)務(wù)需求。

8、正則化和剪枝：

原理：提供了L1和L2正則化項來控制模型復(fù)雜度，避免過擬合。
實現(xiàn)：實現(xiàn)了后向剪枝的策略來進一步防止過擬合。

9、模型解釋性：

特點：由于是基于決策樹的模型，LightGBM具有良好的模型解釋性，可以通過特征重要性等方式理解模型的決策邏輯。

LightGBM的特點

高效性

速度優(yōu)勢：通過直方圖優(yōu)化和 leaf-wise 生長策略，LightGBM 在保證精度的同時大幅提升了訓(xùn)練速度。
內(nèi)存使用：相比于其他GBM實現(xiàn)，LightGBM 需要的內(nèi)存更少，這使得它能夠處理更大的數(shù)據(jù)集。

準確性

最佳優(yōu)先的生長策略：LightGBM 采用的 leaf-wise 生長策略可以更緊密地擬合數(shù)據(jù)，通?？梢缘玫奖人椒指罡玫木?。
避免過擬合的方法：通過設(shè)置最大深度限制和后向剪枝，LightGBM 能夠在提升模型精度的同時避免過擬合。

可擴展性

并行和分布式學(xué)習(xí)：LightGBM 的設(shè)計支持多線程和分布式計算，這使得它能夠充分利用現(xiàn)代硬件的計算能力。
多平臺支持：LightGBM 可以在 Windows、macOS 和 Linux 等多種操作系統(tǒng)上運行，支持 Python、R、Java 等多種編程語言。

易用性

參數(shù)調(diào)優(yōu)：LightGBM 提供了豐富的參數(shù)選項，方便用戶根據(jù)具體問題進行調(diào)整。
預(yù)訓(xùn)練模型：用戶可以從預(yù)訓(xùn)練的模型開始，加速自己的建模過程。
模型解釋工具：LightGBM 提供了特征重要性評估工具，幫助用戶理解模型的決策過程。

導(dǎo)入庫

In [1]:

import numpy as np

import lightgbm as lgb
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings("ignore")

加載數(shù)據(jù)

加載公開的iris數(shù)據(jù)集：

In [2]:

# 加載數(shù)據(jù)集
data = load_iris()
X, y = data.data, data.target
y = [int(i) for i in y]  # 將標簽轉(zhuǎn)換為整數(shù)

In [3]:

X[:3]

Out[3]:

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [4]:

y[:10]

Out[4]:

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

劃分數(shù)據(jù)

In [5]:

# 劃分訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

同時創(chuàng)建LightGBM數(shù)據(jù)集：

In [6]:

lgb_train = lgb.Dataset(X_train, label=y_train)

參數(shù)設(shè)置

In [7]:

# 設(shè)置參數(shù)范圍
param_dist = {
    'boosting_type': ['gbdt', 'dart'],  # 提升類型  梯度提升決策樹（gbdt）和Dropouts meet Multiple Additive Regression Trees（dart）
    'objective': ['binary', 'multiclass'],  # 目標；二分類和多分類
    'num_leaves': range(20, 150),  # 葉子節(jié)點數(shù)量
    'learning_rate': [0.01, 0.05, 0.1],  # 學(xué)習(xí)率
    'feature_fraction': [0.6, 0.8, 1.0],  # 特征采樣比例
    'bagging_fraction': [0.6, 0.8, 1.0],  # 數(shù)據(jù)采樣比例
    'bagging_freq': range(0, 80),  # 數(shù)據(jù)采樣頻率
    'verbose': [-1]  # 是否顯示訓(xùn)練過程中的詳細信息，-1表示不顯示
}

隨機搜索調(diào)參

In [8]:

# 初始化模型
model = lgb.LGBMClassifier()


# 使用隨機搜索進行參數(shù)調(diào)優(yōu)
random_search = RandomizedSearchCV(estimator=model,
                                   param_distributinotallow=param_dist, # 參數(shù)組合
                                   n_iter=100, 
                                   cv=5, # 5折交叉驗證
                                   verbose=2, 
                                   random_state=42, 
                                   n_jobs=-1)
# 模型訓(xùn)練
random_search.fit(X_train, y_train)
Fitting 5 folds for each of 100 candidates, totalling 500 fits

輸出最佳的參數(shù)組合：

In [9]:

# 輸出最佳參數(shù)
print("Best parameters found: ", random_search.best_params_)
Best parameters found:  {'verbose': -1, 'objective': 'multiclass', 'num_leaves': 87, 'learning_rate': 0.05, 'feature_fraction': 0.6, 'boosting_type': 'gbdt', 'bagging_freq': 22, 'bagging_fraction': 0.6}

使用最佳參數(shù)建模

In [10]:

# 使用最佳參數(shù)訓(xùn)練模型
best_model = random_search.best_estimator_
best_model.fit(X_train, y_train)

# 預(yù)測
y_pred = best_model.predict(X_test)
y_pred = [round(i) for i in y_pred]  # 將概率轉(zhuǎn)換為類別

# 評估模型
print('Accuracy: %.4f' % accuracy_score(y_test, y_pred))
Accuracy: 0.9667

責(zé)任編輯：武曉燕來源：尤而小屋

LightGBM 隨機搜索

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="egwwi"><source id="egwwi"></source></thead>

<abbr id="egwwi"><thead id="egwwi"></thead></abbr>

<big id="egwwi"></big>

<ruby id="egwwi"></ruby><blockquote id="egwwi"><strike id="egwwi"></strike></blockquote>