機器學習工程師與數(shù)據(jù)科學家的大斗法
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
隨著人工智能的發(fā)展,市場上出現(xiàn)了一些新的工作崗位。但對于這些新興領域的新興職業(yè),我們很多人難以分辨其間的不同之處,尤其是機器學習工程師和數(shù)據(jù)科學家的作用有何區(qū)別,這很令人困惑。
閱讀了不同的文章、博客并觀看了一些視頻之后,筆者想通過對比二者之間的差異來更清晰地介紹它們。
先類比一下。作家和教授之間有什么區(qū)別?可以說這兩者都知道一種語言的“規(guī)則和語法”,其中一個是講故事的人,另一個是“規(guī)則”的嚴格實踐者。
數(shù)據(jù)科學家對原始數(shù)據(jù)進行處理分析,連接點并使用其他可視化工具講述故事。他們通常具有較廣泛的技能,深入了解的知識不超過一兩個。他們更多偏向是在創(chuàng)意方面,像一個藝術家。
機器學習工程師則將數(shù)據(jù)視為必須接收并能以某種適當?shù)男问礁咝л敵龅臇|西。他們的技能需要與實施細節(jié)相關的高效。
兩者之間可能有很多重疊之處,但數(shù)據(jù)科學家可以是機器學習工程師,反之則不然。也許隨著他們獲得更多經(jīng)驗,機器學習工程師就是數(shù)據(jù)科學家,這樣的說法會實現(xiàn)。

機器學習與數(shù)據(jù)科學的維恩圖
就洞察力或學習等方面而言,數(shù)據(jù)科學需要具有一定商業(yè)頭腦的人才,而機器學習則需要關于系統(tǒng)預測的人才。例如:
- 數(shù)據(jù)科學:“在城鎮(zhèn)的這一部分,每2英里約有一個加油站”
- 機器學習:“自從看到加油站以來,我們走了兩英里,所以現(xiàn)在就要開始尋找另一個加油站”
接著再來看看Netflix的例子。
我們都知道Netflix會根據(jù)之前的選擇來智能地推薦電影。該推薦系統(tǒng)可與機器學習算法配合使用,從而使用推薦系統(tǒng)提供合適的電影選擇。
當談論Netflix中的數(shù)據(jù)科學時,我們所要研究的模式包括在特定時間觀看的評論者數(shù)量、其年齡和性別組成以及許多其他情況。這些決策用于改善業(yè)務前景。當企業(yè)需要借助數(shù)據(jù)來回答問題或解決問題時,數(shù)據(jù)科學家的工作就是從原始數(shù)據(jù)和非結構化數(shù)據(jù)中提供有用的見解。
數(shù)據(jù)科學家需要的技能:
- 統(tǒng)計
- 數(shù)據(jù)挖掘和清理
- 數(shù)據(jù)可視化
- 非結構化數(shù)據(jù)管理技術
- 編程語言,例如R和Python
- 了解SQL數(shù)據(jù)庫
- 使用Hadoop、Hive和Pig等大數(shù)據(jù)工具
機器學習工程師需要的技能:
- 計算機科學基礎
- 統(tǒng)計建模
- 數(shù)據(jù)評估和建模
- 了解和應用算法
- 自然語言處理
- 數(shù)據(jù)架構設計
- 文本表示技術
綜上可見,數(shù)據(jù)科學家和機器學習工程師的工作還是有很大區(qū)別的,不要混淆它們。確定好自己所具有的技能條件和個人興趣更適合哪個職位,并有意識地培養(yǎng)自己某個方向的技能,為未來做好準備。