自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

學會數(shù)據(jù)科學要多久?這張能力晉級表給你答案

大數(shù)據(jù)
本文將討論典型的數(shù)據(jù)科學能力進程表。獲得數(shù)據(jù)科學能力所需的時間取決于能力的水平,共分為三個層次,最后將討論基于興趣水平獲得數(shù)據(jù)科學能力所需的時間。

本文轉(zhuǎn)載自公眾號“讀芯術”(ID:AI_Discovery)。

很多對數(shù)據(jù)科學領域感興趣的人,最關心的問題之一就是:獲得數(shù)據(jù)科學方面的能力需要多長時間?

本文將討論典型的數(shù)據(jù)科學能力進程表。獲得數(shù)據(jù)科學能力所需的時間取決于能力的水平,共分為三個層次,最后將討論基于興趣水平獲得數(shù)據(jù)科學能力所需的時間。注意本文提供的觀點是基于自己的數(shù)據(jù)科學經(jīng)驗提出的個人觀點。

[[356178]]

數(shù)據(jù)科學的三個層次

在討論數(shù)據(jù)科學能力進程表之前,首先介紹數(shù)據(jù)科學的三個層次。本節(jié)將討論筆者認為的數(shù)據(jù)科學能力的三個層次:1級(基礎)、2級(中級)和3級(高級)。能力從1級增加到3級。這里將使用Python作為默認語言,即使其他編程語言(例如R,SAS和MATLAB)也可用于數(shù)據(jù)科學。

基礎水平

在第一級,你應該學會使用通常以逗號分隔符(CSV)文件格式表示的數(shù)據(jù)集,應該具備掌握數(shù)據(jù)基礎知識的能力,如數(shù)據(jù)可視化和線性回歸。

1. 數(shù)據(jù)基礎知識

能夠操作、清理、結(jié)構(gòu)化、縮放和設計數(shù)據(jù)。熟練使用pandas和NumPy庫,具備以下能力:

  • 知道如何導入和導出以CSV文件格式存儲的數(shù)據(jù)
  • 能夠清理、整理和組織數(shù)據(jù)以進行進一步分析或建模
  • 能夠處理數(shù)據(jù)集中的缺失值
  • 了解并能夠應用數(shù)據(jù)插值技術,例如均值或中位數(shù)插值
  • 能夠處理類別數(shù)據(jù)
  • 知道如何將數(shù)據(jù)集劃分為訓練和測試集
  • 能夠使用諸如歸一化和標準化之類的縮放技術來縮放數(shù)據(jù)
  • 能夠通過降維技術(例如主成分分析(PC))來壓縮數(shù)據(jù)

2. 數(shù)據(jù)可視化

能夠理解好的數(shù)據(jù)可視化的基本組成部分。能夠使用數(shù)據(jù)可視化工具,包括Python的matplotlib和seaborn包和R的ggplot2包。應該了解好的數(shù)據(jù)可視化的基本組成部分:

  • 數(shù)據(jù)組件:決定如何可視化數(shù)據(jù)的重要的第一步是了解數(shù)據(jù)的類型,例如分類數(shù)據(jù)、離散數(shù)據(jù)、連續(xù)數(shù)據(jù)、時間序列數(shù)據(jù)等。
  • 幾何組件:決定哪種可視化適合你的數(shù)據(jù),例如散點圖、線圖、條形圖、直方圖、Q-Q圖、平滑密度圖、箱形圖、多變量圖以及熱圖等。
  • 映射組件:需要確定將什么變量用作x變量,將什么變量用作y變量。這一點很重要,尤其是當數(shù)據(jù)集是具有多個特征的多維數(shù)據(jù)集時。
  • 比例組件:決定使用哪種比例,例如線性比例、對數(shù)比例等。
  • 標簽組件:包括軸標簽、標題、圖例、要使用的字體大小等內(nèi)容。
  • 道德構(gòu)成要素:確保可視化過程是真實的。在清理、匯總、操作和生成數(shù)據(jù)可視化效果時注意操作,并確保不會使用可視化效果誤導或操縱受眾。

3. 監(jiān)督學習(預測連續(xù)目標變量)

熟悉線性回歸和其他高級回歸方法。能夠使用scikit-learn和caret等數(shù)據(jù)包進行線性回歸模型構(gòu)建。具有以下能力:

  • 能夠使用NumPy或Pylab執(zhí)行簡單的回歸分析
  • 能夠使用scikit-learn執(zhí)行多元回歸分析
  • 了解正則化的回歸方法,例如Lasso回歸、嶺回歸和彈性網(wǎng)絡
  • 了解其他非參數(shù)回歸方法,例如K近鄰回歸(KNR)和支持向量回歸(SVR)
  • 了解評估回歸模型的各種指標,例如MSE(均方誤差)、MAE(平均絕對誤差)和R2分數(shù)
  • 能夠比較不同的回歸模型

中級水平

除了基礎級別的技能和能力外,還應具備以下能力:

1. 監(jiān)督學習(預測連續(xù)目標變量)

熟悉二值分類算法,例如:

  • 感知機分類器
  • Logistic回歸分類器
  • 支持向量機(SVM)
  • 能夠使用核SVM解決非線性分類問題
  • 決策樹分類器
  • K最近分類器
  • 樸素貝葉斯分類器
  • 了解評估分類算法質(zhì)量的幾個指標,例如準確度、精確度、靈敏度,特異度、召回率、f-l得分、混淆矩陣以及ROC曲線。
  • 能夠使用scikit-learn建立模型

2. 模型評估和超參數(shù)調(diào)整

  • 能夠?qū)⒐艿?pipeline)中的變換操作和評估操作結(jié)合
  • 能夠使用k折交叉驗證來評估模型性能
  • 知道如何使用學習和驗證曲線來調(diào)試分類算法
  • 能夠通過學習曲線診斷偏差和方差問題
  • 能夠解決驗證曲線過擬合和欠擬合的問題
  • 知道如何通過網(wǎng)格搜索微調(diào)機器學習模型
  • 了解如何通過網(wǎng)格搜索調(diào)整超參數(shù)
  • 能夠讀懂和解釋混淆矩陣
  • 能夠繪制和解釋工作特性(ROC)曲線

3. 結(jié)合不同模型進行集成學習

  • 能夠?qū)Σ煌姆诸惼魇褂眉煞椒?/li>
  • 能夠結(jié)合不同的算法進行分類
  • 知道如何評估和調(diào)整集成分類器

高級水平

能夠處理高級數(shù)據(jù)集,例如文本、圖像、語音和視頻。除基本和中級技能外,還應具備以下能力:

  • 聚類算法(無監(jiān)督學習)
  • K均值
  • 深度學習
  • 神經(jīng)網(wǎng)絡
  • Keras
  • TensorFlow
  • Theano
  • 云系統(tǒng)(AWS,Azure)

數(shù)據(jù)科學能力進程表

基礎水平需要6到12個月,中級水平需要7到18個,高級水平需要18到48個月。

學會數(shù)據(jù)科學要多久?這張能力晉級表給你答案

數(shù)據(jù)科學能力的大致進程表| 圖源:Benjamin O. Tayo

需要注意,這些只是近似值。獲得一定水平的能力所需的時間長短取決于學科背景以及愿意在數(shù)據(jù)科學研究中投入多少時間。通常,和不具有數(shù)據(jù)科學相關背景的人相比,具有諸如物理學、數(shù)學、科學,工程、會計或計算機科學等分析學科背景的人需要的時間更少。

基礎水平可以在6到12個月內(nèi)達到,中級水平可以在7到18個月內(nèi)達到,高級水平可以在18到48個月內(nèi)達到。這完全取決于投入的精力和每個人的背景。總而言之,如果熱愛,那就去試試吧!

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2019-08-20 09:24:54

Python編程語言Java

2019-10-08 10:50:22

MySQL數(shù)據(jù)庫

2019-12-04 15:02:22

數(shù)據(jù)科學家故事數(shù)據(jù)分析

2022-04-07 07:30:47

InnoDBMySQL數(shù)據(jù)

2019-04-25 14:20:56

數(shù)據(jù)分析套路工具

2015-07-30 09:27:04

2020-04-28 09:00:14

信貸風險

2018-04-08 14:50:31

數(shù)據(jù)科學家企業(yè)技能

2023-01-03 08:55:38

PG數(shù)據(jù)庫運維

2017-03-16 15:43:35

人工智能

2020-03-10 09:49:37

大數(shù)據(jù)存算分離華為

2012-12-27 09:50:36

Facebook

2021-06-11 11:39:54

人工智能AI動物

2020-06-22 08:43:41

MATLAB開發(fā)中國

2024-05-29 12:47:00

2020-11-26 14:29:23

手機iPhone蘋果

2020-08-25 13:22:07

數(shù)據(jù)可視化

2023-12-12 12:43:04

AI模型

2021-09-06 07:58:48

分庫數(shù)據(jù)庫分表

2022-09-19 16:12:17

紅綠燈智能
點贊
收藏

51CTO技術棧公眾號