數(shù)據(jù)科學(xué)之旅:初學(xué)數(shù)據(jù)科學(xué)所希望知道的5件事
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
兩年來,我一直都在獨(dú)立研究數(shù)據(jù)科學(xué)的概念。寫這篇文章的初衷是想向那些迷茫的人介紹我的觀點(diǎn),希望能與初入行的數(shù)據(jù)科學(xué)家分享這兩年中的收獲。
先成為一名優(yōu)秀的程序員和統(tǒng)計(jì)學(xué)家
了解數(shù)據(jù)科學(xué)的基本原理會(huì)讓生活更加輕松,并且從長(zhǎng)遠(yuǎn)來看可以節(jié)省時(shí)間。幾乎所有的機(jī)器學(xué)習(xí)概念和算法都基于統(tǒng)計(jì)和概率,除此之外,許多其他數(shù)據(jù)科學(xué)概念(例如A/B測(cè)試)也屬于純統(tǒng)計(jì)范疇。
歸根結(jié)底,編程和統(tǒng)計(jì)知識(shí)影響一名數(shù)據(jù)科學(xué)家的能力上限。在學(xué)習(xí)其他內(nèi)容之前,必須具有良好的編程和統(tǒng)計(jì)基礎(chǔ)。從長(zhǎng)遠(yuǎn)來看,它將為你節(jié)省更多時(shí)間。
將更多的時(shí)間花在個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目上,而非在線訓(xùn)練營
這可能是一個(gè)有爭(zhēng)議的觀點(diǎn),請(qǐng)容許我先提出幾點(diǎn)聲明:
- 這完全基于我聽聞的實(shí)例以及我對(duì)同行的觀察。
- 這里指的并不包括一些優(yōu)秀在線課程,例如deeplearning.ai的課程。
- 當(dāng)然,如果沒有其他選擇,參加訓(xùn)練營有勝于無。
在線訓(xùn)練營存在一些問題。就內(nèi)容的深度而言,它們往往非常淺顯。不僅如此,而且它們還容易使人對(duì)所學(xué)材料產(chǎn)生錯(cuò)誤的理解。
它們也不太適合保留學(xué)習(xí)信息?;ㄙM(fèi)越多的時(shí)間學(xué)習(xí)某個(gè)課題,就越想留存相關(guān)信息。但這些訓(xùn)練營,尤其是那些宣傳為“在5周內(nèi)成為專家”的訓(xùn)練營,沒有給你足夠的時(shí)間來真正沉淀所學(xué)的知識(shí)。
他們通常沒有足夠的挑戰(zhàn)性。許多訓(xùn)練營和課程只是要求你遵循并重復(fù)他們的代碼,而不進(jìn)行批判性或深入性的思考。
而個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目使你不得不獨(dú)自批判性地思考問題和解決方案,這是一種很好的學(xué)習(xí)方法。這樣學(xué)到的知識(shí)遠(yuǎn)超過任何訓(xùn)練營所教授的。你將學(xué)會(huì)如何提出正確的問題,如何用Google查詢正確的問題,如何構(gòu)建自己想要的數(shù)據(jù)科學(xué)項(xiàng)目,如何變得有條理等。
投放更多精力到自己的項(xiàng)目中,你也會(huì)更有動(dòng)力去學(xué)習(xí)更多知識(shí)、投入更多時(shí)間,從而形成積極的反饋循環(huán)。因此,少花時(shí)間參加數(shù)據(jù)科學(xué)訓(xùn)練營,將更多的時(shí)間用于個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目吧。
專注于一些精選工具
大量數(shù)據(jù)科學(xué)包和工具讓你得以組建適合自己的個(gè)性化數(shù)據(jù)科學(xué)工具箱。然而,這也使人易于在一條錯(cuò)誤的路上一去不復(fù)返:過于追求軟件包和工具的學(xué)習(xí)數(shù)量。精通一些工具比使用不熟練的工具做表面工作要好得多。在簡(jiǎn)歷中列出所有技能和工具不應(yīng)該是最終目標(biāo)!
舉個(gè)例子,這些數(shù)據(jù)可視化軟件包都很優(yōu)質(zhì):Matplotlib、Seaborn、Plotly、Bokeh等等,但你不需要花時(shí)間去掌握所有,這是在浪費(fèi)寶貴而有限的時(shí)間。
如果你想用Pandas來處理數(shù)據(jù),那就要好好地利用它。如果你更喜歡NumPy,那就用NumPy。的確,理想情況下你能同時(shí)擅長(zhǎng)Pandas和NumPy,但我認(rèn)為,專注其中一個(gè)并精通它比左顧右盼要好得多。
同樣的道理也適用于:
- Python與R
- Tensorflow與 Pythorch
- Postgresql與MySQL
我建議你建立自己的數(shù)據(jù)科學(xué)工具箱并專注于此,精通5個(gè)工具比不熟練使用20個(gè)工具要好。
了解各種機(jī)器學(xué)習(xí)算法僅占數(shù)據(jù)科學(xué)的一小部分
就個(gè)人而言,數(shù)據(jù)科學(xué)吸引我的是所有不同的機(jī)器學(xué)習(xí)模型,它們?nèi)绾喂ぷ饕约八鼈內(nèi)绾伟l(fā)揮效用。我花了至少六個(gè)月的時(shí)間來學(xué)習(xí)和嘗試幾種不同的機(jī)器學(xué)習(xí)模型,才意識(shí)到它是數(shù)據(jù)科學(xué)家所需了解內(nèi)容的一小部分。
數(shù)據(jù)建模只是整個(gè)機(jī)器學(xué)習(xí)生命周期的一部分。你還需要了解數(shù)據(jù)收集,數(shù)據(jù)準(zhǔn)備,模型評(píng)估,模型部署和模型調(diào)優(yōu)。在實(shí)際項(xiàng)目中,大部分時(shí)間都消耗在了數(shù)據(jù)準(zhǔn)備而不是數(shù)據(jù)建模(機(jī)器學(xué)習(xí)建模)上。
除此之外,你還需要學(xué)習(xí)其他一些知識(shí),例如版本控制(Git),從API中提取數(shù)據(jù),了解云計(jì)算等等。不要將所有時(shí)間都花在嘗試掌握每種機(jī)器學(xué)習(xí)算法上。
負(fù)擔(dān)綜合癥非常常見
圖源:unsplash
從我開始學(xué)習(xí)數(shù)據(jù)科學(xué)的第一天到如今,我經(jīng)常體會(huì)到負(fù)擔(dān)綜合癥,但我知道那是完全正常的。為什么對(duì)數(shù)據(jù)科學(xué)家來說,負(fù)擔(dān)綜合癥很常見也很正常?
- “數(shù)據(jù)科學(xué)”是一個(gè)非常模糊的術(shù)語,它是一個(gè)跨學(xué)科的領(lǐng)域,包括統(tǒng)計(jì)學(xué)、程序設(shè)計(jì)、數(shù)學(xué)、商業(yè)理解、數(shù)據(jù)工程等。除此之外,數(shù)據(jù)科學(xué)家還有很多同義詞(數(shù)據(jù)分析員、數(shù)據(jù)工程師、研究科學(xué)家、應(yīng)用科學(xué)家)。你永遠(yuǎn)無法成為數(shù)據(jù)科學(xué)所涵蓋所有領(lǐng)域的專家,你也不應(yīng)該覺得自己必須做到這一點(diǎn)。
- 與編程和技術(shù)領(lǐng)域的其他學(xué)科一樣,數(shù)據(jù)科學(xué)也在不斷發(fā)展。20年前,Pandas還沒有被創(chuàng)造出來。5年前,Tensorflow才發(fā)布??倳?huì)不斷有需要你學(xué)習(xí)的新技術(shù)出現(xiàn)。
- 你不可能在所有領(lǐng)域成為專家,這意味著總會(huì)有人在你花更少時(shí)間的事情上做得更好,這沒有什么關(guān)系。
作為一名數(shù)據(jù)科學(xué)家,你時(shí)常會(huì)感覺到負(fù)擔(dān)綜合癥,放輕松,專注于自己的事業(yè)。
數(shù)據(jù)科學(xué)之旅教會(huì)我很多道理,希望這些道理能幫助迷茫的你突破瓶頸。