準備好進入數(shù)據(jù)科學領(lǐng)域了嗎?先問問自己這14個問題
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。
數(shù)據(jù)行業(yè)被認為是增長最快、價值數(shù)十億美元的行業(yè)之一。許多公司和組織正嘗試充分利用已有數(shù)據(jù),確定仍需捕獲和存儲哪些數(shù)據(jù)。與此同時,數(shù)據(jù)科學家仍然迫切需要了解數(shù)字,挖掘針對棘手業(yè)務問題的可能解決方案。最近一項研究表明,2020年大多數(shù)高科技工作需要數(shù)據(jù)科學技能。
數(shù)據(jù)科學領(lǐng)域確實有很多令人興奮的機會。但在進入數(shù)據(jù)科學領(lǐng)域前,有必要看看以下問題,以評估數(shù)據(jù)科學是否真的適合你。
1. 什么是數(shù)據(jù)科學?
數(shù)據(jù)科學是一個廣闊的領(lǐng)域,包括幾個細分領(lǐng)域,如數(shù)據(jù)準備和探索、數(shù)據(jù)表示和轉(zhuǎn)換、數(shù)據(jù)可視化、預測分析、機器學習、深度學習、人工智能等。數(shù)據(jù)科學能力可分為三個等級:1級(初級);2級(中級);和3級(高級)。
2. 數(shù)據(jù)科學家的職責
數(shù)據(jù)科學家利用數(shù)據(jù)得出有意義、有見地的結(jié)論,從而推動機構(gòu)或組織的決策過程。他們的工作職責包括數(shù)據(jù)收集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)可視化和分析構(gòu)建預測模型,提供行動建議,基于數(shù)據(jù)實施建議。數(shù)據(jù)科學家在不同的部門工作,如醫(yī)療保健、政府、工業(yè)、能源、學術(shù)界、技術(shù)、娛樂等。
一些雇傭數(shù)據(jù)科學家的頂級公司有亞馬遜、谷歌、微軟、Facebook(臉書)、LinkedIn(領(lǐng)英)、Twitter(推特)、Netflix(網(wǎng)飛)、IBM(國際商業(yè)機器股份有限公司)等。
3. 數(shù)據(jù)科學家的職業(yè)前景
數(shù)據(jù)科學家的職業(yè)前景非常樂觀。IBM預測,到2020年,數(shù)據(jù)科學家的需求量將激增28%。最近使用LinkedIn求職工具進行的一項研究表明,2020年大部分的高科技工作需要具備數(shù)據(jù)科學技能,包括商業(yè)分析、機器學習和云計算。
4. 數(shù)據(jù)科學家的收入
數(shù)據(jù)科學家的收入取決于所在組織或公司、教育背景、經(jīng)驗年限以及所擔任的特定職務。數(shù)據(jù)科學家的年薪在5萬美元至25萬美元之間,平均約為12萬美元。
5. 如何為數(shù)據(jù)科學職業(yè)做準備
大多數(shù)數(shù)據(jù)科學或商業(yè)分析項目需要以下條件:
- 高水平的定量能力
- 解決問題的心態(tài)
- 編程能力
- 有效溝通的能力
- 團隊合作能力
6. 應該重點關(guān)注哪些編程語言?
如果你對學習數(shù)據(jù)科學基礎(chǔ)感興趣,需要從某個地方開始。不要被數(shù)據(jù)科學家招聘廣告中提到的荒謬編程語言清單所嚇住。雖然學習盡可能多的數(shù)據(jù)科學工具很重要,但筆者建議從一種或兩種編程語言入手。
當你打下扎實基礎(chǔ)之后,就可以挑戰(zhàn)自己,學習能夠增強技能的不同編程語言、平臺或高效工具。筆者認為,Python和R兩種編程語言在數(shù)據(jù)科學運用中仍位居前列。我建議從Python開始,因為越來越多的學術(shù)訓練項目和行業(yè)將Python用作數(shù)據(jù)科學的默認語言。
7. 成為數(shù)據(jù)科學家要多長時間
如果你有扎實的分析學科背景知識,如物理、數(shù)學、工程、計算機科學、經(jīng)濟學或統(tǒng)計學,基本上可以自學數(shù)據(jù)科學的基礎(chǔ)知識。你可以從edX、Coursera或DataCamp等平臺上學習免費的在線課程。
6到12個月內(nèi)可達到初級水平,7 -18個月內(nèi)可達到中級水平,18- 48個月內(nèi)可達到高級水平。達到一定水平所需的時間取決于教育背景以及愿意在數(shù)據(jù)科學研究上投入的時間。通常,具有分析學科背景的人,如物理、數(shù)學、科學、工程、會計或計算機科學,需要的時間比不具有數(shù)據(jù)科學背景的人要少。
8. 當項目遇到瓶頸,我是否有耐心可以堅持下去
圖源:unsplash
數(shù)據(jù)科學項目周期可能會很漫長,且要求很高。從問題框架到模型構(gòu)建和應用,整個過程可能需要數(shù)周甚至數(shù)月,具體時間取決于問題的規(guī)模。作為一名實踐數(shù)據(jù)科學家,不可避免地會碰到項目瓶頸。耐心、堅韌和毅力是成功開展數(shù)據(jù)科學事業(yè)必不可少的關(guān)鍵素質(zhì)。
9. 我是否具有一定的商業(yè)頭腦,可以從一個模型中得出有意義的結(jié)論,為組織帶來重要的數(shù)據(jù)驅(qū)動型決策?
數(shù)據(jù)科學是非常實用的領(lǐng)域,謹記,你可能非常擅長處理數(shù)據(jù)以及構(gòu)建良好的機器學習算法,但作為數(shù)據(jù)科學家,實際應用至關(guān)重要。每個預測模型都必須產(chǎn)生在現(xiàn)實情況下有意義且可解釋的結(jié)果。必須針對現(xiàn)實對預測模型進行驗證,才意義重大。
數(shù)據(jù)科學家的角色是從數(shù)據(jù)中提取有意義的見解,這些見解可用于以數(shù)據(jù)為依據(jù)的決策,從而提高公司效率,或改進業(yè)務開展方式,或幫助增加利潤。
10. 我有良好的溝通能力嗎?
數(shù)據(jù)科學家需要能夠跟團隊的其他成員或組織中的業(yè)務主管交流想法。良好的溝通能力將起到關(guān)鍵作用,以便能夠向很少或根本不了解數(shù)據(jù)科學技術(shù)概念的人們傳達和展示技術(shù)性強的信息。良好的溝通能力將有助于與其他團隊成員,例如數(shù)據(jù)分析師、數(shù)據(jù)工程師、現(xiàn)場工程師等營造團結(jié)協(xié)作的氛圍。
圖源:unsplash
11. 我是一名終身學習者嗎?
數(shù)據(jù)科學是一個不斷發(fā)展的領(lǐng)域,因此請準備好接受和學習新技術(shù)。與該領(lǐng)域的發(fā)展齊頭并進的一種方法是與其他數(shù)據(jù)科學家建立網(wǎng)絡。某些可以建立這種網(wǎng)絡的平臺包括LinkedIn、GitHub和medium(TowardsData Science和Towards AI出版物)。這些平臺對于獲取有關(guān)該領(lǐng)域最新動態(tài)的信息大有裨益。
12. 我能成為團隊的一員嗎?
數(shù)據(jù)科學家將在數(shù)據(jù)分析師、工程師、主管的團隊中工作,因此你需要良好的溝通技巧,此外也需要成為一名好的傾聽者,尤其是在項目開發(fā)的早期階段,你需要依靠工程師或其他人員來設計和構(gòu)筑一個好的數(shù)據(jù)科學項目。
成為一名好的團隊合作者有助于你在商業(yè)環(huán)境中得心應手,并與團隊中的其他成員以及組織的主管或董事保持良好的關(guān)系。
13. 我遵守道德規(guī)范嗎?
數(shù)據(jù)科學必須考慮道德和隱私。你需要了解項目的含義,對自己誠實,避免操縱數(shù)據(jù)或使用有意產(chǎn)生偏差的方法。從數(shù)據(jù)收集、分析到模型構(gòu)建、測試和應用的所有階段,都要遵守道德規(guī)范。避免出于誤導或操縱觀眾的目的捏造結(jié)果。解釋數(shù)據(jù)科學項目的發(fā)現(xiàn)時要遵守道德規(guī)范。
14. 有哪些資源可供學習數(shù)據(jù)科學?
如果情況允許,可以攻讀數(shù)據(jù)科學或商業(yè)分析碩士學位。如果負擔不起碩士學位課程,則可以自學數(shù)據(jù)科學。通常,如果具有諸如物理學、數(shù)學、經(jīng)濟學、工程學或計算機科學等分析學科的扎實背景,并且對探索數(shù)據(jù)科學領(lǐng)域感興趣,那么最好的方法是從大規(guī)模開放式在線課程開始。
在建立堅實的基礎(chǔ)后,你可能會尋求其他方法來增加知識和專業(yè)技能,如可以從教科書中學習,從事項目以及與其他數(shù)據(jù)科學領(lǐng)域的有志者建立聯(lián)系。
以下推薦的MOOC和教科書可助你掌握數(shù)據(jù)科學的基礎(chǔ)知識。
推薦的MOOC:
- 數(shù)據(jù)科學專業(yè)證書(哈佛edX):https://www.edx.org/professional-certificate/harvardx-data-science
- 分析:基本工具和方法(佐治亞理工學院edX):https://www.edx.org/micromasters/analytics-essential-tools-methods
- 使用Python應用數(shù)據(jù)科學(密歇根大學 Coursera):https://www.coursera.org/specializations/data-science-python
推薦書籍:
本書作者以一種易于理解的方式解釋了機器學習中的基本概念,另外還介紹了代碼,你可以使用提供的代碼來練習和構(gòu)建自己的模型。這本書對我作為數(shù)據(jù)科學家的旅程幫助很大。
還有許多其他出色的數(shù)據(jù)科學教科書,例如Wes McKinney的《利用Python進行數(shù)據(jù)分析》、Kuhn&Johnson的《應用預測建模》、Ian H. Witten、Eibe Frank和Mark A. Hall的《數(shù)據(jù)挖掘:實用機器學習工具和技術(shù)》等等。
每個人背景不同,數(shù)據(jù)科學的旅程也因人而異。但開始旅程之前,先問問自己這14個問題,會讓你的職業(yè)生涯更加清晰。