關(guān)鍵概念:每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)了解的5個(gè)概念
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
本文將重點(diǎn)介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專業(yè)地解釋為何它們至關(guān)重要。
多重共線性、獨(dú)熱編碼、欠采樣和過采樣、誤差度量以及敘事能力,這是筆者在想到專業(yè)數(shù)據(jù)科學(xué)家日常工作時(shí)首先想到的關(guān)鍵概念。敘事能力或許算是技能和概念的結(jié)合,但筆者在此還是想強(qiáng)調(diào)它在數(shù)據(jù)科學(xué)家工作中的重要性。我們開始吧!
多重共線性
多重共線性雖然看起來又長又拗口,拆開來看還是易于理解的。“多重”指數(shù)量多,“共線性”則意味著線性相關(guān)。多重共線性可以描述為在回歸模型中,兩個(gè)或多個(gè)解釋變量解釋相似信息或高度相關(guān)。這一概念之所以引起關(guān)注,有以下幾個(gè)原因。
對于某些建模技術(shù)來說,多重共線性可能導(dǎo)致過擬合,最終降低模型性能。冗余數(shù)據(jù)時(shí)有出現(xiàn),模型中的所有特征或?qū)傩圆⒎嵌际怯斜匾?。因此,可以采用某些方法來找到?yīng)該被刪除的特征,正是它們導(dǎo)致了多重共線性。
- 方差膨脹系數(shù)(VIF)
- 相關(guān)矩陣
數(shù)據(jù)科學(xué)家們經(jīng)常使用這兩種技術(shù),尤其是相關(guān)矩陣和相關(guān)圖——通常用某種熱圖進(jìn)行可視化,而VIF則不太為人所知。VIF值越高,該特征對回歸模型的用處就越小。
獨(dú)熱編碼
獨(dú)熱編碼是模型中的一種特征轉(zhuǎn)換形式,你可以通過編碼來數(shù)值化地體現(xiàn)類別特征。盡管類別特征本身有文本值,但是獨(dú)熱編碼會(huì)將這些信息轉(zhuǎn)置,以便每個(gè)值都成為特征,行中的觀察值記為0或1。例如,假設(shè)我們有分類變量gender,獨(dú)熱編碼后的數(shù)字表示如下(之前表示為gender,之后表示為male/female):

獨(dú)熱編碼處理前后對比
如果你不僅要使用數(shù)字化的特征,還需要使用文本/類別特征創(chuàng)建數(shù)字表示,那么此轉(zhuǎn)換非常有用。
采樣
當(dāng)你擁有的數(shù)據(jù)不足時(shí),可以使用過采樣作為一種補(bǔ)償。假設(shè)在處理一個(gè)分類問題時(shí),有一個(gè)如下例所示的少數(shù)類:
- class_1 = 100 rows
- class_2 = 1000 rows
- class_3 = 1100 rows
如你所見,class_1的類只有少量數(shù)據(jù),這意味著你的數(shù)據(jù)集是不平衡的,也就是所謂的少數(shù)類。
有幾種過采樣方法。其中一種叫做SMOTE,即合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-samplingTechnique)。SMOTE的實(shí)現(xiàn)方式之一是采用K近鄰(K-neighbor)算法來找到最近的點(diǎn)以合成樣本。也有類似的技術(shù)反其道而行之,進(jìn)行欠采樣。
當(dāng)類或回歸數(shù)據(jù)中有離群值時(shí),如果你希望確保模型運(yùn)行在最能體現(xiàn)數(shù)據(jù)集的采樣結(jié)果之上,那么這些技術(shù)便能派上用場。
誤差度量
在數(shù)據(jù)科學(xué)中,有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法:
- metrics.explained_variance_score
- metrics.max_error
- metrics.mean_absolute_error
- metrics.mean_squared_error
- metrics.mean_squared_log_error
- metrics.median_absolute_error
- metrics.r2_score
- metrics.mean_poisson_deviance
- metrics.mean_gamma_deviance
對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):
- MSE:平均絕對誤差回歸損失(引自sklearn)
- RMSE:均方根誤差回歸損失(引自sklearn)
對于分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價(jià)模型的性能。
敘事能力
敘事概念的重要性怎么強(qiáng)調(diào)都不為過。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業(yè)環(huán)境中展現(xiàn)出自己解決問題的能力。許多數(shù)據(jù)科學(xué)家總是只關(guān)注模型的精度,但卻無法理解整個(gè)商業(yè)過程。該過程包括:
- 業(yè)務(wù)是什么?
- 問題是什么?
- 為何需要數(shù)據(jù)科學(xué)?
- 數(shù)據(jù)科學(xué)在其中的目標(biāo)是什么?
- 何時(shí)能得到可用結(jié)果?
- 如何應(yīng)用我們的結(jié)果?
- 我們的結(jié)果有什么影響?
- 如何分享我們的結(jié)果和整個(gè)過程?
上述問題與模型本身或提升精度無關(guān),重點(diǎn)是如何使用數(shù)據(jù)來解決公司的問題。與利益相關(guān)者和非技術(shù)領(lǐng)域的同事相熟對此是大有助益的,在運(yùn)行基礎(chǔ)模型之前,你需要和產(chǎn)品經(jīng)理一道評估問題,和數(shù)據(jù)工程師一起收集數(shù)據(jù)。在模型過程結(jié)束時(shí),你將向關(guān)鍵人員介紹結(jié)果,這些人最喜歡看可視化結(jié)果,因此掌握呈現(xiàn)和交流的技能也是有益的。
對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來說,有許多需要掌握的關(guān)鍵概念。本文介紹的5點(diǎn),你了解了嗎?