數(shù)據(jù)科學(xué)家95%的時間都在使用的11個基本圖表
可視化對于理解復(fù)雜的數(shù)據(jù)模式和關(guān)系至關(guān)重要。它們提供了一種簡潔的方式來理解統(tǒng)計模型的復(fù)雜性、驗證模型假設(shè)、評估模型性能等等。因此,了解數(shù)據(jù)科學(xué)中最重要和最有用的圖表非常重要。
本文將帶來數(shù)據(jù)科學(xué)家95%的時間都在使用的11個基本圖表。
ROC Curve
ROC曲線(Receiver Operating Characteristic Curve)描述了在不同分類閾值下,真陽性率(良好性能)與假陽性率(不良性能)之間的權(quán)衡關(guān)系。在二分類問題中,ROC曲線是一種常用的評估分類模型性能的工具。它繪制了在不同分類閾值下,分類器的真陽性率和假陽性率之間的關(guān)系。真陽性率是指被正確分類為正例的樣本占所有實際正例樣本的比例,假陽性率是指被錯誤分類為正例的負(fù)例樣本占所有實際負(fù)例樣本的比例。
ROC曲線的形狀能夠反映出分類器在不同閾值下的性能表現(xiàn)。一般情況下,ROC曲線越接近左上角,說明分類器的性能越好;而曲線越接近對角線,則表示分類器的性能越差。通過分析ROC曲線,可以選擇適當(dāng)?shù)姆诸愰撝?,使得真陽性率盡可能高,同時保持較低的假陽性率,從而獲得更準(zhǔn)確的分類結(jié)果。
ROC曲線的目標(biāo)是在真陽性率(良好性能)與假陽性率(不良性能)之間尋找平衡點。在分類問題中,我們希望盡可能提高真陽性率,即正確地將正例分類為正例,同時保持較低的假陽性率,即將負(fù)例誤分類為正例的概率盡可能低。
Precision-Recall Curve
精確率-召回率曲線(Precision-Recall Curve)描述了在不同分類閾值下精確率和召回率之間的權(quán)衡關(guān)系。
在二分類問題中,精確率和召回率是常用的評估指標(biāo)。精確率(Precision)是指被正確分類為正例的樣本占所有被分類為正例的樣本的比例。召回率(Recall)是指被正確分類為正例的樣本占所有實際正例樣本的比例。
精確率-召回率曲線通過繪制不同分類閾值下的精確率和召回率,展示了二者之間的權(quán)衡關(guān)系。通常情況下,當(dāng)分類閾值較高時,模型更傾向于將樣本分類為正例,從而提高精確率,但可能會降低召回率;而當(dāng)分類閾值較低時,模型更傾向于將樣本分類為正例,從而提高召回率,但可能會降低精確率。
通過分析精確率-召回率曲線,我們可以根據(jù)具體需求選擇合適的分類閾值。
QQ Plot
QQ圖(QQ Plot)用于評估觀測數(shù)據(jù)和理論分布之間的分布相似性。
QQ圖通過繪制兩個分布的分位數(shù)來比較它們之間的相似性。其中一個分布是觀測數(shù)據(jù)的分布,另一個分布是理論上假設(shè)的分布,通常是一個已知的分布。
在QQ圖中,橫軸表示理論分布的分位數(shù),縱軸表示觀測數(shù)據(jù)的分位數(shù)。如果觀測數(shù)據(jù)與理論分布完全相似,那么繪制的點將近似地落在一條直線上。
通過觀察QQ圖中的點的偏離程度,我們可以判斷觀測數(shù)據(jù)與理論分布之間的分布相似性。如果點的分布大致沿著一條直線,并且與理論分布的分位數(shù)一致,那么可以認(rèn)為觀測數(shù)據(jù)與理論分布較為相似。反之,如果點的分布明顯偏離直線,就表示觀測數(shù)據(jù)與理論分布存在差異。
KS Plot
KS圖(KS Plot)是一種用于評估分布差異的可視化工具。通過繪制KS圖,我們可以直觀地觀察到兩個分布之間的差異程度。通常情況下,KS圖會顯示兩個CDF曲線之間的距離隨著閾值的變化而變化的情況。當(dāng)距離較小時,說明兩個分布趨于接近,而當(dāng)距離較大時,表示兩個分布之間存在較大的差異。
因此,KS圖也被定義為一種用于確定分布差異的“統(tǒng)計檢驗”。
SHAP Plot
SHAP圖(SHAP Plot)通過考慮特征之間的交互和依賴關(guān)系,總結(jié)了模型對預(yù)測的特征重要性。它是一種常用的可視化工具,用于解釋機器學(xué)習(xí)模型的預(yù)測結(jié)果。
SHAP圖基于博弈論的方法,解釋模型對每個特征的貢獻(xiàn)程度,展示了每個特征對模型預(yù)測結(jié)果的影響程度,以及特征值的高低如何影響整體輸出結(jié)果。
Cumulative Explained Variance Plot
累計解釋方差圖(Cumulative Explained Variance Plot)有助于確定在主成分分析(PCA)過程中可以將數(shù)據(jù)縮減到的維度數(shù),同時保留最大的方差。
在繪制累計解釋方差圖時,橫軸表示主成分的數(shù)量,縱軸表示解釋的方差的累積比例。通過觀察圖上的曲線,我們可以確定在保留足夠的方差的前提下,可以將數(shù)據(jù)縮減到的維度數(shù)。
通常情況下,曲線開始的部分會很陡峭,表明前幾個主成分解釋了較大的方差。隨著維度的增加,曲線的斜率逐漸變緩,表示新增的主成分對方差的貢獻(xiàn)較小。
通過觀察累計解釋方差圖,我們可以選擇保留累積方差較大部分的主成分?jǐn)?shù)量作為數(shù)據(jù)降維的目標(biāo)維度數(shù)。一般來說,我們會選擇保留累計方差達(dá)到一定閾值(例如93%)的主成分?jǐn)?shù)量,以保留盡可能多的信息。
Elbow Curve
肘部曲線(Elbow Curve)有助于確定k均值算法的最佳簇數(shù)。
肘部曲線通過繪制不同k值下的簇內(nèi)平方和(Within-Cluster Sum of Squares,WCSS)的變化情況來評估聚類的效果。WCSS表示每個數(shù)據(jù)點與其所屬簇中心之間的距離的平方和。肘部曲線的橫軸表示k值,縱軸表示W(wǎng)CSS。
當(dāng)k值較小時,每個簇中的數(shù)據(jù)點與簇中心的距離通常較小,WCSS較低。隨著k值的增加,每個簇中的數(shù)據(jù)點與簇中心的距離可能會增加,導(dǎo)致WCSS增加。當(dāng)k值增加到一定程度時,每個額外的簇可能只會為數(shù)據(jù)點添加很少的附加信息,而WCSS的改進(jìn)幅度會減小。
肘部曲線的核心思想是選擇WCSS變化率陡降的點,通常是曲線出現(xiàn)“拐點”或形成“肘部”的位置。這個點所對應(yīng)的k值被認(rèn)為是最佳簇數(shù)。
Silhouette Curve
輪廓曲線(Silhouette Curve)通過繪制不同簇數(shù)下的輪廓系數(shù)來評估聚類的效果。輪廓系數(shù)的取值范圍為[-1,1],其中較高的值表示樣本在其所屬簇中更緊密,且與其他簇之間的分離度更高。
通過觀察輪廓曲線,我們可以找到輪廓系數(shù)最大的點,這個點對應(yīng)的簇數(shù)即為最佳簇數(shù)。當(dāng)輪廓系數(shù)達(dá)到最大值時,表示聚類效果較好,樣本在其所屬簇中更緊密,并且與其他簇之間的分離度更高。
相比于肘部曲線,在有大量簇的情況下,輪廓曲線通常更有效。它能夠更準(zhǔn)確地評估聚類質(zhì)量,并幫助我們選擇最佳的簇數(shù)。
Gini-Impurity and Entropy
基尼不純度和熵(Gini-Impurity and Entropy)是用于衡量數(shù)據(jù)集的混亂程度或不確定性的指標(biāo)?;岵患兌鹊挠嬎慊诿總€類別在數(shù)據(jù)集中的比例,如果數(shù)據(jù)集完全由同一類別組成,則基尼不純度為0。 熵的計算基于每個類別在數(shù)據(jù)集中的比例,如果數(shù)據(jù)集中的每個類別都均勻分布,則熵最大。
在決策樹的構(gòu)建過程中,我們可以根據(jù)基尼不純度或熵來選擇最佳的分割點。當(dāng)基尼不純度或熵越低時,表示分割點能夠更好地將數(shù)據(jù)集分成純凈的子集,這樣的分割點通常被認(rèn)為是更好的選擇。然而,基尼不純度和熵之間存在一種權(quán)衡關(guān)系,選擇哪種指標(biāo)取決于具體的應(yīng)用和數(shù)據(jù)集特征。
Bias-Variance Tradeoff
Bias-variance tradeoff是在模型復(fù)雜性與偏差和方差之間尋找合適平衡的概念。
在機器學(xué)習(xí)中,模型的偏差(bias)是指模型在訓(xùn)練集上的預(yù)測結(jié)果與真實值的偏離程度。偏差較高意味著模型對訓(xùn)練集的擬合不足,無法捕捉到數(shù)據(jù)中的復(fù)雜關(guān)系,導(dǎo)致欠擬合。
而方差(variance)是指模型在不同訓(xùn)練集上的預(yù)測結(jié)果的變化程度。方差較高意味著模型過于敏感于訓(xùn)練集的細(xì)節(jié),過度擬合了訓(xùn)練集的噪聲和隨機性,導(dǎo)致泛化能力較差。
在模型的復(fù)雜性方面,較簡單的模型通常具有較高的偏差和較低的方差,而較復(fù)雜的模型通常具有較低的偏差和較高的方差。
Bias-variance tradeoff的目標(biāo)是找到適當(dāng)?shù)哪P蛷?fù)雜性,以在偏差和方差之間取得平衡。如果模型過于簡單,偏差會很高,而方差較低;如果模型過于復(fù)雜,偏差會較低,但方差會較高。為了獲得較好的泛化性能,我們需要在這兩者之間找到一個合適的平衡點。
Partial Dependency Plots
Partial Dependency Plots用于描述目標(biāo)變量和特征之間的依賴關(guān)系。
一維圖(1-way PDP)顯示了目標(biāo)變量與一個特征之間的關(guān)系。通過這個圖可以看出,當(dāng)某個特征的取值發(fā)生變化時,目標(biāo)變量的取值如何相應(yīng)地變化。
二維圖(2-way PDP)顯示了目標(biāo)變量與兩個特征之間的關(guān)系。通過這個圖可以觀察到,當(dāng)兩個特征的取值同時變化時,目標(biāo)變量的取值如何相應(yīng)地變化。
在最左邊的圖中,溫度的增加通常會導(dǎo)致目標(biāo)值較高。這表示溫度對目標(biāo)變量有正向影響,也就是說,當(dāng)溫度增加時,目標(biāo)值往往會增加。