他說數(shù)據(jù)科學(xué)家就是做算術(shù)的,還說這是件好事
原創(chuàng)兩年前,一項來自LinkedIn的調(diào)查結(jié)果顯示,“統(tǒng)計分析和數(shù)據(jù)挖掘”是2014年***的求職法寶。在大數(shù)據(jù)技術(shù)飛速發(fā)展的今天,數(shù)據(jù)科學(xué)家成了炙手可熱的大紅人。
數(shù)據(jù)科學(xué)家是誰?干嘛的?他們好找工作嗎?
度娘說,
“數(shù)據(jù)科學(xué)家是指能采用科學(xué)方法、運用數(shù)據(jù)挖掘工具對復(fù)雜多量的數(shù)字、符號、文字、網(wǎng)址、音頻或視頻等信息進(jìn)行數(shù)字化重現(xiàn)與認(rèn)識,并能尋找新的數(shù)據(jù)洞察的 工程師或?qū)<?不同于統(tǒng)計學(xué)家或分析師)。一個優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備的素質(zhì)有:懂?dāng)?shù)據(jù)采集、懂?dāng)?shù)學(xué)算法、懂?dāng)?shù)學(xué)軟件、懂?dāng)?shù)據(jù)分析、懂預(yù)測分析、懂市場 應(yīng)用、懂決策分析等。” |
666的樣子啊。不過太嚴(yán)肅了,我都沒聽懂,and what about you?
還有一種聽起來就像人話的多了,
“你擅長數(shù)學(xué),會用Python編程,而且還對某個行業(yè)了如指掌?如果你擁有這樣的技能集,那你就有可能當(dāng)上數(shù)據(jù)科學(xué)家。” |
嗯,“技能集”。技能集?!能吃嗎?
是不是對當(dāng)上數(shù)據(jù)科學(xué)家再不敢奢望,但如果我告訴你,有一些看上去站著說話不腰疼的人說了這樣的話,
“ 數(shù)據(jù)科學(xué)家大多只做算術(shù),這是件好事。” |
比如這位——在Basecamp(37signals公司旗下一款項目管理軟件 )團(tuán)隊工作的Noah。很多時候他被人稱為“數(shù)據(jù)科學(xué)家”,但在他自己看來,大部分情況下他只是做做算術(shù),而且他也很喜歡。
這是Noah在過去幾周里所做的一些工作,每一項都是為了應(yīng)對Basecamp在實際業(yè)務(wù)中面臨的問題:
- 分析來自不同國家用戶的對話內(nèi)容、試用完成度和平均帳單數(shù)量
- 確定人們當(dāng)人們登錄至一個現(xiàn)有帳戶時偶然注冊Basecamp的比例,以及長期以來這個現(xiàn)象的變化情況
- 分析和報告一些Basecamp產(chǎn)品的財務(wù)業(yè)績
- 對帳戶所有者進(jìn)行調(diào)查并分析
- 對一項影響B(tài)asecamp用戶行為特征的AB測試進(jìn)行分析
在過去的兩周里,Noah所做過的最“復(fù)雜”的數(shù)學(xué)是一些有力的分析和重要測試。他工作的大部分是寫SQL queries 來獲取數(shù)據(jù),對數(shù)據(jù)進(jìn)行基本的運算(計算差異,百分比等),繪制結(jié)果,并寫下注釋或建議。
注意昂~可沒有編碼任何算法、構(gòu)建推薦引擎昂~也沒有部署深度學(xué)習(xí)系統(tǒng),或是建立一個神經(jīng)網(wǎng)絡(luò)昂~
為什么沒有?可能因為現(xiàn)在 Basecamp 還不需要那些東西吧。
在繁花似錦的“數(shù)據(jù)科學(xué)”下有個不怎么光彩的小秘密,那就是大多數(shù)人談?wù)摰乃^的數(shù)據(jù)科學(xué),并不是企業(yè)實際需要的東西。企業(yè)需要的是準(zhǔn)確和可操作的信息,來幫助他們決定如何花費他們的時間和資源。通常一個通過機(jī)器學(xué)習(xí)解決業(yè)務(wù)中小問題的***解決方案,往往只需要高質(zhì)量的數(shù)據(jù),以及一個如何使用最簡單的方法解決問題的理念。
也行有人會說,Noah描述的價值并不來自“數(shù)據(jù)科學(xué)”,而是“商業(yè)智能”或“數(shù)據(jù)分析”。我沒有資格對數(shù)據(jù)妄下主觀定義,但不管你叫它什么 - 它仍然是對那些花費時間從事數(shù)據(jù)工作的人,最有價值的方式。
在Noah他們那兒,相當(dāng)多希望進(jìn)入“數(shù)據(jù)科學(xué)”領(lǐng)域的朋友都給他發(fā)來郵件,希望得到一些建議。在這些郵件中不乏這樣的問題:
Dear諾亞,我是應(yīng)該先得到一個碩士學(xué)位?還是應(yīng)該參加一堆Kaggle比賽? |
Noah的建議非常簡單:兄弟,都不用。你就學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)就行了。然后你再知道如何編寫基本的SQL查詢,了解企業(yè)的經(jīng)營方式,以及想要成功它需要什么。如果你想成為一名對企業(yè)有價值的貢獻(xiàn)者,就利用你的周末時間真正進(jìn)入一家小企業(yè)“體驗生活”,實際工作一把,而不是參加什么數(shù)據(jù)挖掘競賽。去與客戶交談,去注意哪些產(chǎn)品暢銷,哪些沒有。去試著想想推動業(yè)務(wù)的經(jīng)濟(jì)形式,以及你如何能幫助它更得更多的成功。
所以,知道問題是什么才是邁入精英數(shù)據(jù)科學(xué)家梯隊的關(guān)鍵一步。但不要那么傻白甜,因為上面說的技能集,該攢還是得攢!
【本文部分內(nèi)容譯自原文:Data scientists mostly just do arithmetic and that’s a good thing】