自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)鍵概念:每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)了解的5個(gè)概念

新聞
本文將重點(diǎn)介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專業(yè)地解釋為何它們至關(guān)重要。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

本文將重點(diǎn)介紹一些數(shù)據(jù)科學(xué)領(lǐng)域的關(guān)鍵概念,掌握它們對于你今后的職業(yè)生涯大有益處。這些概念或許你已經(jīng)了解,或許你還未掌握。不論你現(xiàn)在是否清楚,筆者的目的是向你專業(yè)地解釋為何它們至關(guān)重要。

多重共線性、獨(dú)熱編碼、欠采樣和過采樣、誤差度量以及敘事能力,這是筆者在想到專業(yè)數(shù)據(jù)科學(xué)家日常工作時(shí)首先想到的關(guān)鍵概念。敘事能力或許算是技能和概念的結(jié)合,但筆者在此還是想強(qiáng)調(diào)它在數(shù)據(jù)科學(xué)家工作中的重要性。我們開始吧!

多重共線性

多重共線性雖然看起來又長又拗口,拆開來看還是易于理解的。“多重”指數(shù)量多,“共線性”則意味著線性相關(guān)。多重共線性可以描述為在回歸模型中,兩個(gè)或多個(gè)解釋變量解釋相似信息或高度相關(guān)。這一概念之所以引起關(guān)注,有以下幾個(gè)原因。

對于某些建模技術(shù)來說,多重共線性可能導(dǎo)致過擬合,最終降低模型性能。冗余數(shù)據(jù)時(shí)有出現(xiàn),模型中的所有特征或?qū)傩圆⒎嵌际怯斜匾?。因此,可以采用某些方法來找到?yīng)該被刪除的特征,正是它們導(dǎo)致了多重共線性。

  • 方差膨脹系數(shù)(VIF)
  • 相關(guān)矩陣

數(shù)據(jù)科學(xué)家們經(jīng)常使用這兩種技術(shù),尤其是相關(guān)矩陣和相關(guān)圖——通常用某種熱圖進(jìn)行可視化,而VIF則不太為人所知。VIF值越高,該特征對回歸模型的用處就越小。

獨(dú)熱編碼

獨(dú)熱編碼是模型中的一種特征轉(zhuǎn)換形式,你可以通過編碼來數(shù)值化地體現(xiàn)類別特征。盡管類別特征本身有文本值,但是獨(dú)熱編碼會(huì)將這些信息轉(zhuǎn)置,以便每個(gè)值都成為特征,行中的觀察值記為0或1。例如,假設(shè)我們有分類變量gender,獨(dú)熱編碼后的數(shù)字表示如下(之前表示為gender,之后表示為male/female):

 

 

獨(dú)熱編碼處理前后對比

如果你不僅要使用數(shù)字化的特征,還需要使用文本/類別特征創(chuàng)建數(shù)字表示,那么此轉(zhuǎn)換非常有用。

采樣

當(dāng)你擁有的數(shù)據(jù)不足時(shí),可以使用過采樣作為一種補(bǔ)償。假設(shè)在處理一個(gè)分類問題時(shí),有一個(gè)如下例所示的少數(shù)類:

 

  1. class_1 = 100 rows 
  2. class_2 = 1000 rows 
  3. class_3 = 1100 rows 

如你所見,class_1的類只有少量數(shù)據(jù),這意味著你的數(shù)據(jù)集是不平衡的,也就是所謂的少數(shù)類。

有幾種過采樣方法。其中一種叫做SMOTE,即合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-samplingTechnique)。SMOTE的實(shí)現(xiàn)方式之一是采用K近鄰(K-neighbor)算法來找到最近的點(diǎn)以合成樣本。也有類似的技術(shù)反其道而行之,進(jìn)行欠采樣。

當(dāng)類或回歸數(shù)據(jù)中有離群值時(shí),如果你希望確保模型運(yùn)行在最能體現(xiàn)數(shù)據(jù)集的采樣結(jié)果之上,那么這些技術(shù)便能派上用場。

誤差度量

在數(shù)據(jù)科學(xué)中,有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法:

 

  1. metrics.explained_variance_score 
  2. metrics.max_error 
  3. metrics.mean_absolute_error 
  4. metrics.mean_squared_error 
  5. metrics.mean_squared_log_error 
  6. metrics.median_absolute_error 
  7. metrics.r2_score 
  8. metrics.mean_poisson_deviance 
  9. metrics.mean_gamma_deviance 

對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):

  • MSE:平均絕對誤差回歸損失(引自sklearn)
  • RMSE:均方根誤差回歸損失(引自sklearn)

對于分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價(jià)模型的性能。

 

敘事能力

敘事概念的重要性怎么強(qiáng)調(diào)都不為過。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業(yè)環(huán)境中展現(xiàn)出自己解決問題的能力。許多數(shù)據(jù)科學(xué)家總是只關(guān)注模型的精度,但卻無法理解整個(gè)商業(yè)過程。該過程包括:

  • 業(yè)務(wù)是什么?
  • 問題是什么?
  • 為何需要數(shù)據(jù)科學(xué)?
  • 數(shù)據(jù)科學(xué)在其中的目標(biāo)是什么?
  • 何時(shí)能得到可用結(jié)果?
  • 如何應(yīng)用我們的結(jié)果?
  • 我們的結(jié)果有什么影響?
  • 如何分享我們的結(jié)果和整個(gè)過程?

上述問題與模型本身或提升精度無關(guān),重點(diǎn)是如何使用數(shù)據(jù)來解決公司的問題。與利益相關(guān)者和非技術(shù)領(lǐng)域的同事相熟對此是大有助益的,在運(yùn)行基礎(chǔ)模型之前,你需要和產(chǎn)品經(jīng)理一道評估問題,和數(shù)據(jù)工程師一起收集數(shù)據(jù)。在模型過程結(jié)束時(shí),你將向關(guān)鍵人員介紹結(jié)果,這些人最喜歡看可視化結(jié)果,因此掌握呈現(xiàn)和交流的技能也是有益的。

對于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來說,有許多需要掌握的關(guān)鍵概念。本文介紹的5點(diǎn),你了解了嗎?

 

責(zé)任編輯:華軒 來源: 讀芯術(shù)
相關(guān)推薦

2020-10-31 22:04:39

統(tǒng)計(jì)和數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

2018-03-01 14:30:22

數(shù)據(jù)科學(xué)概率分布

2018-10-31 11:00:06

數(shù)據(jù)科學(xué)統(tǒng)計(jì)貝葉斯

2021-03-17 08:27:23

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2019-07-11 12:59:27

數(shù)據(jù)科學(xué)家概率分布統(tǒng)計(jì)

2020-08-11 06:51:58

Python編程語言

2021-01-29 14:38:36

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)學(xué)

2020-08-23 12:26:59

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)認(rèn)證數(shù)據(jù)科學(xué)

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計(jì)學(xué)面試

2021-04-08 10:15:46

數(shù)據(jù)工程師數(shù)據(jù)庫數(shù)據(jù)科學(xué)家

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2019-12-03 09:11:57

數(shù)據(jù)科學(xué)編程算法

2019-07-30 12:05:20

數(shù)據(jù)科學(xué)采樣算法

2020-06-28 07:46:34

MLDB數(shù)據(jù)庫機(jī)器學(xué)習(xí)

2020-10-06 18:50:19

數(shù)據(jù)科學(xué)家機(jī)器學(xué)習(xí)在線工具

2018-11-19 06:00:32

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2020-06-16 13:32:02

數(shù)據(jù)科學(xué)家大數(shù)據(jù)系統(tǒng)

2020-08-03 12:47:58

DevOps數(shù)據(jù)科學(xué)家代碼

2015-07-23 10:49:06

Python工具數(shù)據(jù)科學(xué)

2020-11-02 13:44:35

算法數(shù)據(jù)科學(xué)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)