一個很強(qiáng)大的集成學(xué)習(xí)算法:XGBoost!
一、算法介紹
XGBoost(eXtreme Gradient Boosting)是一種高效的梯度提升框架,它實現(xiàn)了梯度提升決策樹(Gradient Boosting Decision Trees, GBDT),并在此基礎(chǔ)上進(jìn)行了優(yōu)化。XGBoost在許多機(jī)器學(xué)習(xí)競賽中表現(xiàn)出色,因其高效性和強(qiáng)大的預(yù)測能力而受到廣泛歡迎。XGBoost支持多種目標(biāo)函數(shù)和評估指標(biāo),可以處理回歸、分類以及排名等問題。
二、算法原理
三、案例分析
3.1 數(shù)據(jù)集介紹
本次案例分析使用的數(shù)據(jù)集包含了一系列工業(yè)機(jī)器的運行狀態(tài)記錄,包括機(jī)器編號、質(zhì)量等級、工廠溫度、機(jī)器溫度、轉(zhuǎn)速、扭矩、使用時長等特征,以及是否發(fā)生故障的標(biāo)簽。我們的任務(wù)是基于這些特征預(yù)測機(jī)器是否會故障。
3.2 數(shù)據(jù)預(yù)處理與模型建立
為了展示XGBoost的實際應(yīng)用,我們將使用提供的數(shù)據(jù)集來預(yù)測機(jī)器是否會發(fā)生故障。首先加載數(shù)據(jù),并進(jìn)行必要的預(yù)處理。
import pandas as pd
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, precision_recall_curve, auc
import seaborn as sns
import matplotlib.pyplot as plt
# 加載數(shù)據(jù)
data = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 數(shù)據(jù)清洗
data.drop_duplicates(inplace=True)
X = data.drop(columns=['機(jī)器編號', '是否發(fā)生故障', '具體故障類別'])
y = data['是否發(fā)生故障']
# 劃分訓(xùn)練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 創(chuàng)建并訓(xùn)練模型
xgb_model = XGBClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
xgb_model.fit(X_train, y_train)
# 預(yù)測
y_pred = xgb_model.predict(X_test)
y_pred_proba = xgb_model.predict_proba(X_test)[:, 1] # 獲取正類的概率
# 評估模型
print(classification_report(y_test, y_pred))
# 繪制混淆矩陣
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", cbar=False,
xticklabels=['No Failure', 'Failure'],
yticklabels=['No Failure', 'Failure'])
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Confusion Matrix')
plt.show()
# 計算ROC曲線
fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
roc_auc = roc_auc_score(y_test, y_pred_proba)
# 繪制ROC曲線
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()
# 計算PR曲線
precision, recall, _ = precision_recall_curve(y_test, y_pred_proba)
pr_auc = auc(recall, precision)
# 繪制PR曲線
plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2, label=f'PR curve (area = {pr_auc:.2f})')
plt.plot([0, 1], [y_test.mean(), y_test.mean()], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.legend(loc="lower left")
plt.show()
3.3 結(jié)果分析
通過上述代碼,我們得到了模型在測試集上的性能報告,其中包括精確度(Precision)、召回率(Recall)以及F1分?jǐn)?shù)(F1-score)。
precision recall f1-score support
0 0.99 1.00 0.99 1753
1 0.89 0.51 0.65 47
accuracy 0.99 1800
macro avg 0.94 0.75 0.82 1800
weighted avg 0.98 0.99 0.98 1800
- 準(zhǔn)確率 (Accuracy):表示模型正確預(yù)測的比例。
- 精確度 (Precision):表示被模型預(yù)測為正類的樣本中實際為正類的比例。
- 召回率 (Recall):表示所有實際為正類的樣本中,被模型正確識別出來的比例。
- F1分?jǐn)?shù) (F1-score):是精確度和召回率的調(diào)和平均數(shù),用于綜合評價模型的性能。
混淆矩陣展示了模型在不同類別上的預(yù)測結(jié)果,幫助我們理解哪些類別容易被誤判。
ROC曲線顯示了模型在不同閾值下的表現(xiàn),AUC(Area Under the Curve)值反映了模型的整體區(qū)分能力。一個接近1.0的AUC值表明模型具有很好的區(qū)分能力。
PR曲線顯示了模型在不同召回率下的精確度,PRAUC(Area Under the Precision-Recall Curve)值反映了模型在不同召回率下的平均精確度。對于不平衡數(shù)據(jù)集,PR曲線通常比ROC曲線更能反映模型的性能。
四、結(jié)語
通過本文的介紹,我們深入了解了XGBoost算法的基本概念、工作原理以及如何在實際數(shù)據(jù)集上應(yīng)用該算法。XGBoost以其高效性和強(qiáng)大的預(yù)測能力,在許多機(jī)器學(xué)習(xí)任務(wù)中表現(xiàn)出色,特別是在處理不平衡數(shù)據(jù)集時。通過案例分析,我們不僅評估了模型的性能,還通過可視化工具如混淆矩陣、ROC曲線和PR曲線來更直觀地理解模型的表現(xiàn)。
本文轉(zhuǎn)載自寶寶數(shù)模AI,作者: BBSM ????
