自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)之旅:初學(xué)數(shù)據(jù)科學(xué)所希望知道的5件事

大數(shù)據(jù)
兩年來,我一直都在獨(dú)立研究數(shù)據(jù)科學(xué)的概念。寫這篇文章的初衷是想向那些迷茫的人介紹我的觀點(diǎn),希望能與初入行的數(shù)據(jù)科學(xué)家分享這兩年中的收獲。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。

兩年來,我一直都在獨(dú)立研究數(shù)據(jù)科學(xué)的概念。寫這篇文章的初衷是想向那些迷茫的人介紹我的觀點(diǎn),希望能與初入行的數(shù)據(jù)科學(xué)家分享這兩年中的收獲。

[[348315]]

先成為一名優(yōu)秀的程序員和統(tǒng)計(jì)學(xué)家

了解數(shù)據(jù)科學(xué)的基本原理會(huì)讓生活更加輕松,并且從長(zhǎng)遠(yuǎn)來看可以節(jié)省時(shí)間。幾乎所有的機(jī)器學(xué)習(xí)概念和算法都基于統(tǒng)計(jì)和概率,除此之外,許多其他數(shù)據(jù)科學(xué)概念(例如A/B測(cè)試)也屬于純統(tǒng)計(jì)范疇。

歸根結(jié)底,編程和統(tǒng)計(jì)知識(shí)影響一名數(shù)據(jù)科學(xué)家的能力上限。在學(xué)習(xí)其他內(nèi)容之前,必須具有良好的編程和統(tǒng)計(jì)基礎(chǔ)。從長(zhǎng)遠(yuǎn)來看,它將為你節(jié)省更多時(shí)間。

將更多的時(shí)間花在個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目上,而非在線訓(xùn)練營

這可能是一個(gè)有爭(zhēng)議的觀點(diǎn),請(qǐng)容許我先提出幾點(diǎn)聲明:

  • 這完全基于我聽聞的實(shí)例以及我對(duì)同行的觀察。
  • 這里指的并不包括一些優(yōu)秀在線課程,例如deeplearning.ai的課程。
  • 當(dāng)然,如果沒有其他選擇,參加訓(xùn)練營有勝于無。

在線訓(xùn)練營存在一些問題。就內(nèi)容的深度而言,它們往往非常淺顯。不僅如此,而且它們還容易使人對(duì)所學(xué)材料產(chǎn)生錯(cuò)誤的理解。

它們也不太適合保留學(xué)習(xí)信息?;ㄙM(fèi)越多的時(shí)間學(xué)習(xí)某個(gè)課題,就越想留存相關(guān)信息。但這些訓(xùn)練營,尤其是那些宣傳為“在5周內(nèi)成為專家”的訓(xùn)練營,沒有給你足夠的時(shí)間來真正沉淀所學(xué)的知識(shí)。

他們通常沒有足夠的挑戰(zhàn)性。許多訓(xùn)練營和課程只是要求你遵循并重復(fù)他們的代碼,而不進(jìn)行批判性或深入性的思考。

而個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目使你不得不獨(dú)自批判性地思考問題和解決方案,這是一種很好的學(xué)習(xí)方法。這樣學(xué)到的知識(shí)遠(yuǎn)超過任何訓(xùn)練營所教授的。你將學(xué)會(huì)如何提出正確的問題,如何用Google查詢正確的問題,如何構(gòu)建自己想要的數(shù)據(jù)科學(xué)項(xiàng)目,如何變得有條理等。

投放更多精力到自己的項(xiàng)目中,你也會(huì)更有動(dòng)力去學(xué)習(xí)更多知識(shí)、投入更多時(shí)間,從而形成積極的反饋循環(huán)。因此,少花時(shí)間參加數(shù)據(jù)科學(xué)訓(xùn)練營,將更多的時(shí)間用于個(gè)人數(shù)據(jù)科學(xué)項(xiàng)目吧。

[[348316]]

專注于一些精選工具

大量數(shù)據(jù)科學(xué)包和工具讓你得以組建適合自己的個(gè)性化數(shù)據(jù)科學(xué)工具箱。然而,這也使人易于在一條錯(cuò)誤的路上一去不復(fù)返:過于追求軟件包和工具的學(xué)習(xí)數(shù)量。精通一些工具比使用不熟練的工具做表面工作要好得多。在簡(jiǎn)歷中列出所有技能和工具不應(yīng)該是最終目標(biāo)!

舉個(gè)例子,這些數(shù)據(jù)可視化軟件包都很優(yōu)質(zhì):Matplotlib、Seaborn、Plotly、Bokeh等等,但你不需要花時(shí)間去掌握所有,這是在浪費(fèi)寶貴而有限的時(shí)間。

如果你想用Pandas來處理數(shù)據(jù),那就要好好地利用它。如果你更喜歡NumPy,那就用NumPy。的確,理想情況下你能同時(shí)擅長(zhǎng)Pandas和NumPy,但我認(rèn)為,專注其中一個(gè)并精通它比左顧右盼要好得多。

同樣的道理也適用于:

  • Python與R
  • Tensorflow與 Pythorch
  • Postgresql與MySQL

我建議你建立自己的數(shù)據(jù)科學(xué)工具箱并專注于此,精通5個(gè)工具比不熟練使用20個(gè)工具要好。

了解各種機(jī)器學(xué)習(xí)算法僅占數(shù)據(jù)科學(xué)的一小部分

就個(gè)人而言,數(shù)據(jù)科學(xué)吸引我的是所有不同的機(jī)器學(xué)習(xí)模型,它們?nèi)绾喂ぷ饕约八鼈內(nèi)绾伟l(fā)揮效用。我花了至少六個(gè)月的時(shí)間來學(xué)習(xí)和嘗試幾種不同的機(jī)器學(xué)習(xí)模型,才意識(shí)到它是數(shù)據(jù)科學(xué)家所需了解內(nèi)容的一小部分。

數(shù)據(jù)建模只是整個(gè)機(jī)器學(xué)習(xí)生命周期的一部分。你還需要了解數(shù)據(jù)收集,數(shù)據(jù)準(zhǔn)備,模型評(píng)估,模型部署和模型調(diào)優(yōu)。在實(shí)際項(xiàng)目中,大部分時(shí)間都消耗在了數(shù)據(jù)準(zhǔn)備而不是數(shù)據(jù)建模(機(jī)器學(xué)習(xí)建模)上。

除此之外,你還需要學(xué)習(xí)其他一些知識(shí),例如版本控制(Git),從API中提取數(shù)據(jù),了解云計(jì)算等等。不要將所有時(shí)間都花在嘗試掌握每種機(jī)器學(xué)習(xí)算法上。

負(fù)擔(dān)綜合癥非常常見

[[348317]]

圖源:unsplash

從我開始學(xué)習(xí)數(shù)據(jù)科學(xué)的第一天到如今,我經(jīng)常體會(huì)到負(fù)擔(dān)綜合癥,但我知道那是完全正常的。為什么對(duì)數(shù)據(jù)科學(xué)家來說,負(fù)擔(dān)綜合癥很常見也很正常?

  • “數(shù)據(jù)科學(xué)”是一個(gè)非常模糊的術(shù)語,它是一個(gè)跨學(xué)科的領(lǐng)域,包括統(tǒng)計(jì)學(xué)、程序設(shè)計(jì)、數(shù)學(xué)、商業(yè)理解、數(shù)據(jù)工程等。除此之外,數(shù)據(jù)科學(xué)家還有很多同義詞(數(shù)據(jù)分析員、數(shù)據(jù)工程師、研究科學(xué)家、應(yīng)用科學(xué)家)。你永遠(yuǎn)無法成為數(shù)據(jù)科學(xué)所涵蓋所有領(lǐng)域的專家,你也不應(yīng)該覺得自己必須做到這一點(diǎn)。
  • 與編程和技術(shù)領(lǐng)域的其他學(xué)科一樣,數(shù)據(jù)科學(xué)也在不斷發(fā)展。20年前,Pandas還沒有被創(chuàng)造出來。5年前,Tensorflow才發(fā)布??倳?huì)不斷有需要你學(xué)習(xí)的新技術(shù)出現(xiàn)。
  • 你不可能在所有領(lǐng)域成為專家,這意味著總會(huì)有人在你花更少時(shí)間的事情上做得更好,這沒有什么關(guān)系。

作為一名數(shù)據(jù)科學(xué)家,你時(shí)常會(huì)感覺到負(fù)擔(dān)綜合癥,放輕松,專注于自己的事業(yè)。

數(shù)據(jù)科學(xué)之旅教會(huì)我很多道理,希望這些道理能幫助迷茫的你突破瓶頸。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2015-09-15 09:32:50

2020-06-16 09:13:27

數(shù)據(jù)科學(xué)數(shù)據(jù)大數(shù)據(jù)

2024-09-06 13:55:45

2017-10-11 18:14:13

數(shù)據(jù)收集大數(shù)據(jù)系統(tǒng)建模

2011-04-02 13:11:35

JARJava

2021-11-11 13:39:53

存儲(chǔ)數(shù)據(jù)存儲(chǔ)技術(shù)

2020-01-14 17:31:46

數(shù)據(jù)科學(xué)誤區(qū)人工智能

2012-03-14 21:15:16

Siri

2010-08-24 14:08:33

喬布斯

2010-09-02 18:56:09

NoSQL數(shù)據(jù)庫DBA

2011-04-02 13:35:21

多線程編程多線程java

2018-06-29 16:00:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)清理數(shù)據(jù)分析

2019-10-25 11:02:01

安全內(nèi)部威脅網(wǎng)絡(luò)

2014-11-14 17:39:23

云計(jì)算

2024-01-09 14:57:22

2019-12-11 19:19:19

算法數(shù)據(jù)科學(xué)家代碼

2023-03-29 10:03:59

2020-04-07 19:00:06

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)技術(shù)

2011-04-02 14:00:45

命令行JVMJava

2017-07-04 08:59:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)