自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="eunzu"></cite>

<blockquote id="eunzu"><p id="eunzu"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一文解決任何機器學習問題！

作者：AT 2024-04-26 14:18:43

人工智能機器學習

據(jù)挖掘大神Abhishek Thakur，很多數(shù)據(jù)挖掘kaggler對他都非常熟悉，他在 Linkedin 發(fā)表了一篇名為Approaching (Almost) Any Machine Learning Problem（幾乎解決任何機器學習問題）的文章，幾乎可以解決任何機器學習問題，可以說是他理論+實踐的最佳產(chǎn)物。這篇文章曾火遍 Kaggle。

前言

數(shù)據(jù)挖掘大神Abhishek Thakur，很多數(shù)據(jù)挖掘kaggler對他都非常熟悉，他在 Linkedin 發(fā)表了一篇名為Approaching (Almost) Any Machine Learning Problem(幾乎解決任何機器學習問題)的文章，幾乎可以解決任何機器學習問題，可以說是他理論+實踐的最佳產(chǎn)物。這篇文章曾火遍 Kaggle。

如上對Approaching (Almost) Any Machine Learning Problem進行了中文翻譯，詳細情況請參照書籍目錄，覆蓋了機器學習各個流程。下面我展示一下交叉檢驗章節(jié)的翻譯內(nèi)容：

交叉檢驗

在上一章中，我們沒有建立任何模型。原因很簡單，在創(chuàng)建任何一種機器學習模型之前，我們必須知道什么是交叉檢驗，以及如何根據(jù)數(shù)據(jù)集選擇最佳交叉檢驗數(shù)據(jù)集。

那么，什么是交叉檢驗，我們?yōu)槭裁匆P(guān)注它？

關(guān)于什么是交叉檢驗，我們可以找到多種定義。我的定義只有一句話：交叉檢驗是構(gòu)建機器學習模型過程中的一個步驟，它可以幫助我們確保模型準確擬合數(shù)據(jù)，同時確保我們不會過擬合。但這又引出了另一個詞：過擬合。

要解釋過擬合，我認為最好先看一個數(shù)據(jù)集。有一個相當有名的紅酒質(zhì)量數(shù)據(jù)集（red wine quality dataset）。這個數(shù)據(jù)集有11個不同的特征，這些特征決定了紅酒的質(zhì)量。

這些屬性包括：

固定酸度（fixed acidity）
揮發(fā)性酸度（volatile acidity）
檸檬酸（citric acid）
殘留糖（residual sugar）
氯化物（chlorides）
游離二氧化硫（free sulfur dioxide）
二氧化硫總量（total sulfur dioxide）
密度（density）
PH值（pH）
硫酸鹽（sulphates）
酒精（alcohol）

根據(jù)這些不同特征，我們需要預(yù)測紅葡萄酒的質(zhì)量，質(zhì)量值介于0到10之間。

讓我們看看這些數(shù)據(jù)是怎樣的。

import pandas as pd
df = pd.read_csv("winequality-red.csv")

圖 1:紅葡萄酒質(zhì)量數(shù)據(jù)集簡單展示

我們可以將這個問題視為分類問題，也可以視為回歸問題。為了簡單起見，我們選擇分類。然而，這個數(shù)據(jù)集值包含6種質(zhì)量值。因此，我們將所有質(zhì)量值映射到0到5之間。

quality_mapping = {
    3: 0,
    4: 1,
    5: 2,
    6: 3,
    7: 4,
    8: 5
}
df.loc[:, "quality"] = df.quality.map(quality_mapping)

當我們看大這些數(shù)據(jù)并將其視為一個分類問題時，我們腦海中會浮現(xiàn)出很多可以應(yīng)用的算法，也許，我們可以使用神經(jīng)網(wǎng)絡(luò)。但是，如果我們從一開始就深入研究神經(jīng)網(wǎng)絡(luò)，那就有點牽強了。所以，讓我們從簡單的、我們也能可視化的東西開始：決策樹。

在開始了解什么是過擬合之前，我們先將數(shù)據(jù)分為兩部分。這個數(shù)據(jù)集有1599個樣本。我們保留1000個樣本用于訓(xùn)練，599個樣本作為一個單獨的集合。

以下代碼可以輕松完成劃分：

df = df.sample(frac=1).reset_index(drop=True)

df_train = df.head(1000)
df_test = df.tail(599)

現(xiàn)在，我們將在訓(xùn)練集上使用scikit-learn訓(xùn)練一個決策樹模型。

from sklearn import tree 
from sklearn import metrics

clf = tree.DecisionTreeClassifier(max_depth=3) 

cols = ['fixed acidity',
        'volatile acidity',
        'citric acid',
        'residual sugar',
        'chlorides',
        'free sulfur dioxide',
        'total sulfur dioxide',
        'density',
        'pH',
        'sulphates',
        'alcohol']

clf.fit(df_train[cols], df_train.quality)

請注意，我將決策樹分類器的最大深度（max_depth）設(shè)為3。該模型的所有其他參數(shù)均保持默認值?，F(xiàn)在，我們在訓(xùn)練集和測試集上測試該模型的準確性：

train_predictions = clf.predict(df_train[cols])

test_predictions = clf.predict(df_test[cols])

train_accuracy = metrics.accuracy_score(
    df_train.quality, train_predictions
)

test_accuracy = metrics.accuracy_score(
    df_test.quality, test_predictions
)

訓(xùn)練和測試的準確率分別為58.9%和54.25%?，F(xiàn)在，我們將最大深度（max_depth）增加到7，并重復(fù)上述過程。這樣，訓(xùn)練準確率為76.6%，測試準確率為57.3%。在這里，我們使用準確率，主要是因為它是最直接的指標。對于這個問題來說，它可能不是最好的指標。我們可以根據(jù)最大深度（max_depth）的不同值來計算這些準確率，并繪制曲線圖。

from sklearn import tree
from sklearn import metrics 
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
matplotlib.rc('xtick', labelsize=20)
matplotlib.rc('ytick', labelsize=20)
%matplotlib inline
train_accuracies = [0.5]
test_accuracies = [0.5]
for depth in range(1, 25):
    clf = tree.DecisionTreeClassifier(max_depth=depth)
    cols = [
        'fixed acidity',
        'volatile acidity',
        'citric acid',
        'residual sugar',
        'chlorides',
        'free sulfur dioxide',
        'total sulfur dioxide',
        'density',
        'pH',
        'sulphates',
        'alcohol'
    ]
    clf.fit(df_train[cols], df_train.quality)
    train_predictions = clf.predict(df_train[cols]) 
    test_predictions = clf.predict(df_test[cols])

    train_accuracy = metrics.accuracy_score(
        df_train.quality, train_predictions
    )
    test_accuracy = metrics.accuracy_score(
        df_test.quality, test_predictions
    )
    train_accuracies.append(train_accuracy)
    test_accuracies.append(test_accuracy)

plt.figure(figsize=(10, 5)) 
sns.set_style("whitegrid")
plt.plot(train_accuracies, label="train accuracy")
plt.plot(test_accuracies, label="test accuracy")
plt.legend(loc="upper left", prop={'size': 15})
plt.xticks(range(0, 26, 5))
plt.xlabel("max_depth", size=20)
plt.ylabel("accuracy", size=20)
plt.show()

這將生成如圖 2 所示的曲線圖。

圖 2：不同 max_depth 訓(xùn)練和測試準確率

我們可以看到，當最大深度（max_depth）的值為14時，測試數(shù)據(jù)的得分最高。隨著我們不斷增加這個參數(shù)的值，測試準確率會保持不變或變差，但訓(xùn)練準確率會不斷提高。這說明，隨著最大深度（max_depth）的增加，決策樹模型對訓(xùn)練數(shù)據(jù)的學習效果越來越好，但測試數(shù)據(jù)的性能卻絲毫沒有提高。

這就是所謂的過擬合。

模型在訓(xùn)練集上完全擬合，而在測試集上卻表現(xiàn)不佳。這意味著模型可以很好地學習訓(xùn)練數(shù)據(jù)，但無法泛化到未見過的樣本上。在上面的數(shù)據(jù)集中，我們可以建立一個最大深度（max_depth）非常高的模型，它在訓(xùn)練數(shù)據(jù)上會有出色的結(jié)果，但這種模型并不實用，因為它在真實世界的樣本或?qū)崟r數(shù)據(jù)上不會提供類似的結(jié)果。

有人可能會說，這種方法并沒有過擬合，因為測試集的準確率基本保持不變。過擬合的另一個定義是，當我們不斷提高訓(xùn)練損失時，測試損失也在增加。這種情況在神經(jīng)網(wǎng)絡(luò)中非常常見。

每當我們訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)時，都必須在訓(xùn)練期間監(jiān)控訓(xùn)練集和測試集的損失。如果我們有一個非常大的網(wǎng)絡(luò)來處理一個非常小的數(shù)據(jù)集（即樣本數(shù)非常少），我們就會觀察到，隨著我們不斷訓(xùn)練，訓(xùn)練集和測試集的損失都會減少。但是，在某個時刻，測試損失會達到最小值，之后，即使訓(xùn)練損失進一步減少，測試損失也會開始增加。我們必須在驗證損失達到最小值時停止訓(xùn)練。

這是對過擬合最常見的解釋。

奧卡姆剃刀用簡單的話說，就是不要試圖把可以用簡單得多的方法解決的事情復(fù)雜化。換句話說，最簡單的解決方案就是最具通用性的解決方案。一般來說，只要你的模型不符合奧卡姆剃刀原則，就很可能是過擬合。

圖 3：過擬合的最一般定義

現(xiàn)在我們可以回到交叉檢驗。

在解釋過擬合時，我決定將數(shù)據(jù)分為兩部分。我在其中一部分上訓(xùn)練模型，然后在另一部分上檢查其性能。這也是交叉檢驗的一種，通常被稱為 "暫留集"（hold-out set）。當我們擁有大量數(shù)據(jù)，而模型推理是一個耗時的過程時，我們就會使用這種（交叉）驗證。

交叉檢驗有許多不同的方法，它是建立一個良好的機器學習模型的最關(guān)鍵步驟。選擇正確的交叉檢驗取決于所處理的數(shù)據(jù)集，在一個數(shù)據(jù)集上適用的交叉檢驗也可能不適用于其他數(shù)據(jù)集。不過，有幾種類型的交叉檢驗技術(shù)最為流行和廣泛使用。

其中包括：

k折交叉檢驗
分層k折交叉檢驗
暫留交叉檢驗
留一交叉檢驗
分組k折交叉檢驗

交叉檢驗是將訓(xùn)練數(shù)據(jù)分層幾個部分，我們在其中一部分上訓(xùn)練模型，然后在其余部分上進行測試。請看圖4。

圖 4：將數(shù)據(jù)集拆分為訓(xùn)練集和驗證集

圖 4 和圖 5 說明，當你得到一個數(shù)據(jù)集來構(gòu)建機器學習模型時，你會把它們分成兩個不同的集：訓(xùn)練集和驗證集。很多人還會將其分成第三組，稱之為測試集。不過，我們將只使用兩個集。如你所見，我們將樣本和與之相關(guān)的目標進行了劃分。我們可以將數(shù)據(jù)分為 k 個互不關(guān)聯(lián)的不同集合。這就是所謂的 k 折交叉檢驗。

圖 5：K 折交叉檢驗

我們可以使用scikit-learn中的KFold將任何數(shù)據(jù)分割成k個相等的部分。每個樣本分配一個從0到k-1的值。

import pandas as pd
from sklearn import model_selection

if __name__ == "__main__":
    df = pd.read_csv("train.csv")
    df["kfold"] = -1
    df = df.sample(frac=1).reset_index(drop=True)
    kf = model_selection.KFold(n_splits=5)
    for fold, (trn_, val_) in enumerate(kf.split(X=df)): 
        df.loc[val_, 'kfold'] = fold
        df.to_csv("train_folds.csv", index=False)

幾乎所有類型的數(shù)據(jù)集都可以使用此流程。例如，當數(shù)據(jù)圖像時，您可以創(chuàng)建一個包含圖像 ID、圖像位置和圖像標簽的 CSV，然后使用上述流程。

另一種重要的交叉檢驗類型是分層k折交叉檢驗。如果你有一個偏斜的二元分類數(shù)據(jù)集，其中正樣本占 90%，負樣本只占 10%，那么你就不應(yīng)該使用隨機 k 折交叉。對這樣的數(shù)據(jù)集使用簡單的k折交叉檢驗可能會導(dǎo)致折疊樣本全部為負樣本。在這種情況下，我們更傾向于使用分層 k 折交叉檢驗。分層 k 折交叉檢驗可以保持每個折中標簽的比例不變。因此，在每個折疊中，都會有相同的 90% 正樣本和 10% 負樣本。因此，無論您選擇什么指標進行評估，都會在所有折疊中得到相似的結(jié)果。

修改創(chuàng)建 k 折交叉檢驗的代碼以創(chuàng)建分層 k 折交叉檢驗也很容易。我們只需將 model_selection.KFold更改為 model_selection.StratifiedKFold ，并在 kf.split(...) 函數(shù)中指定要分層的目標列。我們假設(shè) CSV 數(shù)據(jù)集有一列名為 "target" ，并且是一個分類問題。

import pandas as pd
from sklearn import model_selection 
if __name__ == "__main__":
    df = pd.read_csv("train.csv")
    df["kfold"] = -1
    df = df.sample(frac=1).reset_index(drop=True)
    y = df.target.values
    kf = model_selection.StratifiedKFold(n_splits=5)
    for f, (t_, v_) in enumerate(kf.split(X=df, y=y)): 
        df.loc[v_, 'kfold'] = f
        df.to_csv("train_folds.csv", index=False)

對于葡萄酒數(shù)據(jù)集，我們來看看標簽的分布情況。

b = sns.countplot(x='quality', data=df)
b.set_xlabel("quality", fontsize=20) 
b.set_ylabel("count", fontsize=20)

請注意，我們繼續(xù)上面的代碼。因此，我們已經(jīng)轉(zhuǎn)換了目標值。從圖 6 中我們可以看出，質(zhì)量偏差很大。有些類別有很多樣本，有些則沒有那么多。如果我們進行簡單的k折交叉檢驗，那么每個折疊中的目標值分布都不會相同。因此，在這種情況下，我們選擇分層 k 折交叉檢驗。

圖 6：葡萄酒數(shù)據(jù)集中 "質(zhì)量" 分布情況

規(guī)則很簡單，如果是標準分類問題，就盲目選擇分層k折交叉檢驗。

但如果數(shù)據(jù)量很大，該怎么辦呢？假設(shè)我們有 100 萬個樣本。5 倍交叉檢驗意味著在 800k 個樣本上進行訓(xùn)練，在 200k 個樣本上進行驗證。根據(jù)我們選擇的算法，對于這樣規(guī)模的數(shù)據(jù)集來說，訓(xùn)練甚至驗證都可能非常昂貴。在這種情況下，我們可以選擇暫留交叉檢驗。

創(chuàng)建保持結(jié)果的過程與分層 k 折交叉檢驗相同。對于擁有 100 萬個樣本的數(shù)據(jù)集，我們可以創(chuàng)建 10 個折疊而不是 5 個，并保留其中一個折疊作為保留樣本。這意味著，我們將有 10 萬個樣本被保留下來，我們將始終在這個樣本集上計算損失、準確率和其他指標，并在 90 萬個樣本上進行訓(xùn)練。

在處理時間序列數(shù)據(jù)時，暫留交叉檢驗也非常常用。假設(shè)我們要解決的問題是預(yù)測一家商店 2020 年的銷售額，而我們得到的是 2015-2019 年的所有數(shù)據(jù)。在這種情況下，你可以選擇 2019 年的所有數(shù)據(jù)作為保留數(shù)據(jù)，然后在 2015 年至 2018 年的所有數(shù)據(jù)上訓(xùn)練你的模型。

圖 7：時間序列數(shù)據(jù)示例

在圖 7 所示的示例中，假設(shè)我們的任務(wù)是預(yù)測從時間步驟 31 到 40 的銷售額。我們可以保留 21 至 30 步的數(shù)據(jù)，然后從 0 步到 20 步訓(xùn)練模型。需要注意的是，在預(yù)測 31 步至 40 步時，應(yīng)將 21 步至 30 步的數(shù)據(jù)納入模型，否則，模型的性能將大打折扣。

在很多情況下，我們必須處理小型數(shù)據(jù)集，而創(chuàng)建大型驗證集意味著模型學習會丟失大量數(shù)據(jù)。在這種情況下，我們可以選擇留一交叉檢驗，相當于特殊的 k 則交叉檢驗其中 k=N ，N 是數(shù)據(jù)集中的樣本數(shù)。這意味著在所有的訓(xùn)練折疊中，我們將對除 1 之外的所有數(shù)據(jù)樣本進行訓(xùn)練。這種類型的交叉檢驗的折疊數(shù)與數(shù)據(jù)集中的樣本數(shù)相同。

需要注意的是，如果模型的速度不夠快，這種類型的交叉檢驗可能會耗費大量時間，但由于這種交叉檢驗只適用于小型數(shù)據(jù)集，因此并不重要。

現(xiàn)在我們可以轉(zhuǎn)向回歸問題了?；貧w問題的好處在于，除了分層 k 折交叉檢驗之外，我們可以在回歸問題上使用上述所有交叉檢驗技術(shù)。也就是說，我們不能直接使用分層 k 折交叉檢驗，但有一些方法可以稍稍改變問題，從而在回歸問題中使用分層 k 折交叉檢驗。大多數(shù)情況下，簡單的 k 折交叉檢驗適用于任何回歸問題。但是，如果發(fā)現(xiàn)目標分布不一致，就可以使用分層 k 折交叉檢驗。

要在回歸問題中使用分層 k 折交叉檢驗，我們必須先將目標劃分為若干個分層，然后再以處理分類問題的相同方式使用分層 k 折交叉檢驗。選擇合適的分層數(shù)有幾種選擇。如果樣本量很大（> 10k，> 100k），那么就不需要考慮分層的數(shù)量。只需將數(shù)據(jù)分為 10 或 20層即可。如果樣本數(shù)不多，則可以使用 Sturge's Rule 這樣的簡單規(guī)則來計算適當?shù)姆謱訑?shù)。

Sturge's Rule： ????????????=1+???2(?) 其中 $N$ 是數(shù)據(jù)集中的樣本數(shù)。該函數(shù)如圖8所示。

圖 8：利用斯特格法則繪制樣本與箱數(shù)對比圖

讓我們制作一個回歸數(shù)據(jù)集樣本，并嘗試應(yīng)用分層 k 折交叉檢驗，如下面的 python 代碼段所示。

import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn import model_selection

def create_folds(data):
    data["kfold"] = -1
    data = data.sample(frac=1).reset_index(drop=True)

    num_bins = int(np.floor(1 + np.log2(len(data)))) 
    data.loc[:, "bins"] = pd.cut(
        data["target"], bins=num_bins, labels=False 
    )
    kf = model_selection.StratifiedKFold(n_splits=5)
    for f, (t_, v_) in enumerate(kf.split(X=data, y=data.bins.values)): 
        data.loc[v_, 'kfold'] = f
        data = data.drop("bins", axis=1) 
    return data

if __name__ == "__main__":
    X, y = datasets.make_regression(
        n_samples=15000, n_features=100, n_targets=1 
    )
df = pd.DataFrame(
    X,
    columns=[f"f_{i}" for i in range(X.shape[1])] 
)
df.loc[:, "target"] = y 
df = create_folds(df)

交叉檢驗是構(gòu)建機器學習模型的第一步，也是最基本的一步。如果要做特征工程，首先要拆分數(shù)據(jù)。如果要建立模型，首先要拆分數(shù)據(jù)。如果你有一個好的交叉檢驗方案，其中驗證數(shù)據(jù)能夠代表訓(xùn)練數(shù)據(jù)和真實世界的數(shù)據(jù)，那么你就能建立一個具有高度通用性的好的機器學習模型。

本章介紹的交叉檢驗類型幾乎適用于所有機器學習問題。不過，你必須記住，交叉檢驗也在很大程度上取決于數(shù)據(jù)，你可能需要根據(jù)你的問題和數(shù)據(jù)采用新的交叉檢驗形式。

例如，假設(shè)我們有一個問題，希望建立一個模型，從患者的皮膚圖像中檢測出皮膚癌。我們的任務(wù)是建立一個二元分類器，該分類器接收輸入圖像并預(yù)測其良性或惡性的概率。

在這類數(shù)據(jù)集中，訓(xùn)練數(shù)據(jù)集中可能有同一患者的多張圖像。因此，要在這里建立一個良好的交叉檢驗系統(tǒng)，必須有分層的 k 折交叉檢驗，但也必須確保訓(xùn)練數(shù)據(jù)中的患者不會出現(xiàn)在驗證數(shù)據(jù)中。幸運的是，scikit-learn 提供了一種稱為 GroupKFold 的交叉檢驗類型。在這里，患者可以被視為組。但遺憾的是，scikit-learn 無法將 GroupKFold 與 StratifiedKFold 結(jié)合起來。所以你需要自己動手。我把它作為一個練習留給讀者的練習。

責任編輯：華軒來源：數(shù)據(jù)分析及應(yīng)用

機器學習人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="m6zis"><rp id="m6zis"><form id="m6zis"></form></rp></cite><blockquote id="m6zis"><rt id="m6zis"></rt></blockquote>

<sub id="m6zis"><p id="m6zis"><form id="m6zis"></form></p></sub><blockquote id="m6zis"><p id="m6zis"></p></blockquote>