自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我,一個(gè)數(shù)據(jù)科學(xué)家的三大弱點(diǎn)

大數(shù)據(jù) 數(shù)據(jù)分析
通過定位我在數(shù)據(jù)科學(xué)方面的弱點(diǎn)——軟件工程,擴(kuò)展分析/模型,深度學(xué)習(xí)——我的目標(biāo)是高自己,鼓勵(lì)他人思考自己的弱點(diǎn),并向你展示想成為成功的數(shù)據(jù)科學(xué)家并不必要學(xué)習(xí)所有知識(shí)。

[[249725]]

大數(shù)據(jù)文摘出品

編譯:李雷、韋夢夙、胡笳

如果說現(xiàn)代工作面試教會(huì)了我們什么,那就是“你***的弱點(diǎn)是什么?”的正確回答是“我工作太努力了。”

顯然,真的要去談?wù)撐覀兊娜觞c(diǎn)是很荒唐可笑的,我們?yōu)槭裁匆嵛覀冏霾坏降氖虑?雖然工作申請(qǐng)和LinkedIn不鼓勵(lì)我們披露我們的弱點(diǎn),但如果我們從不承認(rèn)我們的缺點(diǎn),那么我們就無法采取措施來解決它們。

要想在奮斗中變得更好其實(shí)很簡單:

  • 確定你目前的問題:找出缺點(diǎn)
  • 弄清楚你要的目標(biāo):制定實(shí)現(xiàn)的計(jì)劃
  • 執(zhí)行計(jì)劃:每次一小步

但我們很少執(zhí)行***步:特別是在技術(shù)領(lǐng)域,我們總是用已知的技能埋頭苦干,而不是學(xué)習(xí)那些可以使工作更輕松或者獲得新機(jī)會(huì)的新技能。自我反思 - 客觀地評(píng)估自己 - 看起來好像是一個(gè)不相干的概念,但是如果能退一步,弄清楚我們?cè)鯓幽馨咽虑樽龅酶没蚋行?,這對(duì)于在任何領(lǐng)域取得進(jìn)步都至關(guān)重要。

考慮到這一點(diǎn),我試圖客觀地審視自己,并確定3個(gè)努力方向以使我成為更好的數(shù)據(jù)科學(xué)家:

  • 軟件工程
  • 擴(kuò)展數(shù)據(jù)科學(xué)
  • 深度學(xué)習(xí)

我寫這篇文章的目的有三。

  • 首先,我真的想變得更好,所以我需要承認(rèn)我的弱點(diǎn)。我的目的是通過概括我的不足以及如何改正它們,讓自己有動(dòng)力完成我的學(xué)習(xí)目標(biāo)。
  • 其次,我希望鼓勵(lì)其他人思考他們可能不了解的技能以及他們?cè)鯓荧@得這些技能。你不必像我這樣寫篇文章來公開哪些東西你不會(huì),但是如果你可以找到一項(xiàng)新技能來學(xué)習(xí),那么花點(diǎn)時(shí)間考慮這個(gè)問題是值得的。
  • ***,我想告訴你,要成為一名成功的數(shù)據(jù)科學(xué)家并不需要什么都知道。數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)的課題幾乎是無窮無盡的,但實(shí)際上你能了解的有限。不管那些華而不實(shí)的求職簡歷是怎么寫的,你不需要完全了解每個(gè)算法(或有5到10年的工作經(jīng)驗(yàn))才能成為一名職業(yè)數(shù)據(jù)科學(xué)家。我經(jīng)常從初學(xué)者那里聽到他們被自己所認(rèn)為必學(xué)的課題數(shù)量壓得不堪重負(fù),而我的建議總是一樣的:從基礎(chǔ)開始,并且明白你不需要知道所有的一切!

對(duì)于每個(gè)弱點(diǎn),我已經(jīng)做了概述以及我目前正在做的改進(jìn)。確定一個(gè)人的弱項(xiàng)很重要,但制定如改進(jìn)的計(jì)劃也很重要。學(xué)習(xí)一項(xiàng)新技能需要時(shí)間,但計(jì)劃一系列小而具體的步驟會(huì)大大增加你成功的機(jī)會(huì)。

軟件工程

我最初的數(shù)據(jù)科學(xué)實(shí)踐經(jīng)驗(yàn)是在學(xué)術(shù)環(huán)境中獲得的,之后我一直試圖避免重拾某些以學(xué)術(shù)方式來研究數(shù)據(jù)科學(xué)的壞習(xí)慣。其中包括編寫僅運(yùn)行一次的代碼,缺乏文檔,編寫沒有統(tǒng)一風(fēng)格且難以閱讀的代碼以及硬編碼某些特定值。所有這些做法都反映了一個(gè)基本目標(biāo):開發(fā)一個(gè)數(shù)據(jù)科學(xué)解決方案,該解決方案只針對(duì)特定數(shù)據(jù)集做一次性工作,以便撰寫論文。

其中一個(gè)典型的例子是我們的一個(gè)項(xiàng)目使用建筑能源數(shù)據(jù),最初每隔15分鐘采集一次,但當(dāng)我們以5分鐘為增量開始采集數(shù)據(jù)時(shí),發(fā)現(xiàn)程序完全崩潰了,因?yàn)橛袛?shù)百個(gè)地方把采集間隔寫死為15分鐘。我們不能簡單地查找和替換,因?yàn)檫@個(gè)間隔參數(shù)被寫成很多種名字,如electricity_interval,timeBetweenMeasurements或dataFreq。沒有一個(gè)研究人員考慮過代碼的可讀性或輸入變量的靈活性。

相比之下,從軟件工程的角度來看,代碼必須使用大量不同的輸入進(jìn)行廣泛測試,有良好的文檔,在現(xiàn)有框架內(nèi)工作,并遵守編碼標(biāo)準(zhǔn),以便其他開發(fā)人員能夠理解。盡管我非常想這樣做,但我偶爾也會(huì)像數(shù)據(jù)科學(xué)家而不是像軟件工程師那樣編寫代碼。我開始思考偉大的與普通的數(shù)據(jù)科學(xué)家之間的區(qū)別是在于使用軟件工程***慣例編寫代碼 - 如果你的模型不夠健壯或不適合整個(gè)架構(gòu),則不會(huì)被部署 - 現(xiàn)在我正在嘗試培養(yǎng)自己像計(jì)算機(jī)科學(xué)家一樣思考。

通常,對(duì)于技術(shù)技能的學(xué)習(xí)來說沒有比實(shí)踐更好的方法。幸運(yùn)的是,在我目前的工作中,我能夠同時(shí)為我們的內(nèi)部工具和開源庫做出貢獻(xiàn)。這也迫使我獲得了許多實(shí)踐機(jī)會(huì),包括:

  • 編寫單元測試
  • 遵循編碼風(fēng)格指南
  • 編寫可以更改參數(shù)的函數(shù)
  • 完整的代碼文檔
  • 讓其他人做代碼審查
  • 重構(gòu)代碼使其更簡潔,更易于閱讀

即使對(duì)于尚未有實(shí)際工作經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家,你也可以通過協(xié)作參與開源項(xiàng)目獲得這樣的經(jīng)驗(yàn)。另一個(gè)獲取可靠編碼實(shí)踐的好方法是在GitHub上閱讀流行庫的源代碼(Scikit-Learn是我的***之一)。獲得其他人的反饋也至關(guān)重要,因此你可以找一個(gè)社區(qū)并向那些比你更有經(jīng)驗(yàn)的人尋求建議。

像軟件工程師一樣思考需要改變你的思維模式,但如果你能夠慢下來并牢記這些做法,那么實(shí)踐他們并不困難。例如,每當(dāng)我發(fā)現(xiàn)自己在Jupyter Notebook 中復(fù)制和粘貼代碼并更改一些值時(shí),我會(huì)試著停下來并意識(shí)到我不如使用函數(shù)來代替拷貝粘貼的代碼,因?yàn)閺拈L遠(yuǎn)來看這會(huì)讓我更有效率。雖然我對(duì)這些慣例的實(shí)踐還不算***,但我發(fā)現(xiàn)它們不僅讓其他人更容易閱讀我的代碼,而且還更容易擴(kuò)展我的工作。比起寫代碼,我們更多時(shí)候是在閱讀代碼,因此你未來會(huì)感激這些文檔和統(tǒng)一的編程風(fēng)格。

除了編寫那些大型代碼庫的代碼中用到這些,我仍然會(huì)堅(jiān)持遵循部分慣例。編寫數(shù)據(jù)分析的單元測試對(duì)于數(shù)據(jù)科學(xué)家來說可能看起來很奇怪,但是當(dāng)您真正需要開發(fā)測試以確保代碼按預(yù)期工作時(shí),這是很好的做法。此外,還有許多工具可以檢查您的代碼是否遵循編碼風(fēng)格(我仍然在努力解決關(guān)鍵字參數(shù)周圍的無空格的問題)。

總有地方可以改進(jìn)(在Sublime Text 3里使用pylint)

我還想研究計(jì)算機(jī)科學(xué)的許多其他方面,例如編寫有效的實(shí)現(xiàn)代碼而不是暴力法(例如使用矢量化而不是循環(huán))。然而,同樣重要的是要明白你不能一次改變所有東西,這就是為什么我專注于其中一些慣例并將它們變成我工作流程中的習(xí)慣。

雖然數(shù)據(jù)科學(xué)自成一體,但從業(yè)者仍可以通過借鑒軟件工程等現(xiàn)有領(lǐng)域的***實(shí)踐慣例而受益。

擴(kuò)展數(shù)據(jù)科學(xué)

雖然你可以自學(xué)數(shù)據(jù)科學(xué)中的所有內(nèi)容,但付諸實(shí)踐部分有一些限制。其中一個(gè)是難以將分析或預(yù)測模型擴(kuò)展到大型數(shù)據(jù)集。我們大多數(shù)人無法訪問計(jì)算集群,又不想存錢購買個(gè)人超級(jí)計(jì)算機(jī)。這意味著當(dāng)我們學(xué)習(xí)新算法時(shí),我們傾向于將它們應(yīng)用于小型,表現(xiàn)良好的數(shù)據(jù)集。

不幸的是,現(xiàn)實(shí)世界里的數(shù)據(jù)集不會(huì)對(duì)數(shù)據(jù)量大小或者數(shù)據(jù)干凈程度有嚴(yán)格限制,所以,你必須使用不同的方法去解決數(shù)據(jù)量過大、臟數(shù)據(jù)等問題。首先,你或許需要突破個(gè)人電腦的安全限制,使用一個(gè)遠(yuǎn)程的實(shí)例,例如亞馬遜的AWS EC2 甚至是多臺(tái)機(jī)器。這意味著,你必須學(xué)習(xí)怎樣遠(yuǎn)程連接機(jī)器和敲寫命令行,因?yàn)槟愕腅C2實(shí)例不能使用鼠標(biāo)也沒有操作界面。

當(dāng)學(xué)習(xí)數(shù)據(jù)科學(xué)相關(guān)課程的時(shí)候,我使用亞馬遜云的免費(fèi)服務(wù)或者免費(fèi)積分(如果你有多個(gè)郵箱可以注冊(cè)多個(gè)賬戶來獲得更多免費(fèi)服務(wù))在EC2機(jī)器做練習(xí)。這樣能幫助我熟悉敲寫命令行。然而,我還沒有解決第二個(gè)問題——數(shù)據(jù)集大小能夠超過機(jī)器的內(nèi)存。我意識(shí)到這個(gè)限制讓我回到了原點(diǎn),現(xiàn)在是學(xué)習(xí)處理更大的數(shù)據(jù)集的時(shí)候了。

你甚至不用在電腦資源上花費(fèi)數(shù)以千計(jì)美金,就可以實(shí)踐這些超出內(nèi)存限制的數(shù)據(jù)集的處理方法。這些方法包括每次遍歷一個(gè)大數(shù)據(jù)集的一部分、把一個(gè)大數(shù)據(jù)集拆分成許多小數(shù)據(jù)集或者使用像Dask這種能夠讓你掌握大數(shù)據(jù)集處理細(xì)節(jié)的工具

我目前的方法是,對(duì)于內(nèi)部項(xiàng)目數(shù)據(jù)集和外部開源數(shù)據(jù)集,都把單個(gè)數(shù)據(jù)集拆分成多個(gè)子集,開發(fā)一個(gè)能夠處理子集數(shù)據(jù)的pipeline(程序、腳本等),然后用Dask 或者PSpark通過pipeline并行跑這些子集。這個(gè)方法不需要擁有超級(jí)電腦或者集群——你可以利用計(jì)算機(jī)的多核架構(gòu)并行操作普通電腦。當(dāng)你擁有更多資源的時(shí)候,你就可以自由的拓展程序規(guī)模。

幸虧有像Kaggle這樣的數(shù)據(jù)寶藏,我已經(jīng)找到了一些相當(dāng)大的數(shù)據(jù)集,并且學(xué)習(xí)其他數(shù)據(jù)科學(xué)家處理它們的方法。我從中找到了很多有用的建議,例如,把數(shù)據(jù)類型改成dataframe以減小內(nèi)存消耗。這些方法能幫助我更高效地處理各種數(shù)量級(jí)的數(shù)據(jù)集。

美國國會(huì)圖書館“只有”3PB的材料

雖然還沒有處理過TB級(jí)的數(shù)據(jù)集,這些方法已經(jīng)幫助我學(xué)到了處理大數(shù)據(jù)的基本策略。在最近的一些項(xiàng)目中,我已經(jīng)能夠運(yùn)用所學(xué)技能在AWS的集群上做分析。希望接下來的幾個(gè)月,我能逐步在更大的數(shù)據(jù)集上做分析??梢钥隙ǖ氖窃趯淼姆治鲋校瑪?shù)據(jù)集會(huì)越來越大,我還需要繼續(xù)提高處理更大數(shù)據(jù)集的技能。

深度學(xué)習(xí)

雖然人工智能在繁榮和蕭條中更迭,但是它最近在計(jì)算機(jī)視覺、自然語言處理、深度強(qiáng)化學(xué)習(xí)等領(lǐng)域的成功應(yīng)用讓我確信基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)不是曇花一現(xiàn)。

與軟件工程和數(shù)據(jù)科學(xué)拓展領(lǐng)域不同,我現(xiàn)在的職位不需要任何深度學(xué)習(xí)知識(shí):傳統(tǒng)機(jī)器技術(shù)更能有效解決我們客戶的問題。然而,我發(fā)現(xiàn)并不是每一個(gè)數(shù)據(jù)集都是行列結(jié)構(gòu)化的,神經(jīng)網(wǎng)絡(luò)是文本或圖像項(xiàng)目的***選擇(目前來看)。我會(huì)繼續(xù)利用已有技能解決當(dāng)前的問題,但是,尤其在職業(yè)生涯早期,探索性課題同樣擁有巨大的潛在價(jià)值。

探索和利用的權(quán)衡在強(qiáng)化學(xué)習(xí)和你的生活中的應(yīng)用

深度學(xué)習(xí)里有很多不同的分支領(lǐng)域,非常難分辨哪個(gè)方法和庫將***勝出。雖然如此,我認(rèn)為熟悉深度學(xué)習(xí)某一個(gè)領(lǐng)域并能實(shí)現(xiàn)其中某些技術(shù),會(huì)讓一個(gè)人能夠解決問題的范圍更廣。解決問題驅(qū)使我更深入學(xué)習(xí)數(shù)據(jù)科學(xué),所以把深度學(xué)習(xí)加入我的技能庫是一項(xiàng)有價(jià)值的投資。

我對(duì)于深度學(xué)習(xí)的學(xué)習(xí)計(jì)劃和當(dāng)初把自己變成數(shù)據(jù)科學(xué)家的方法一樣:

  • 閱讀著重部署應(yīng)用的書籍和教程
  • 在真實(shí)項(xiàng)目中練習(xí)技術(shù)和方法
  • 通過寫作分享和解釋我的項(xiàng)目

當(dāng)我學(xué)習(xí)一個(gè)技術(shù)課題時(shí),一個(gè)有效的方法是邊學(xué)邊做。這意味起步時(shí)不是通過基礎(chǔ)理論而是通過找到實(shí)際應(yīng)用方法去解決問題。這個(gè)自上而下的方法意味著我要把許多精力放在著重于動(dòng)手帶有許多代碼樣例的工具書上。在我明白技術(shù)的實(shí)際應(yīng)用以后,我再回到基礎(chǔ)理論中,這樣,我能夠更高效的使用這些技術(shù)。

雖然沒有機(jī)會(huì)在工作中學(xué)習(xí)到其他人的神經(jīng)網(wǎng)絡(luò),要靠自己自學(xué),但是在數(shù)據(jù)科學(xué)領(lǐng)域有著豐富的資源和廣闊的社區(qū)。對(duì)于深度學(xué)習(xí),我最初依賴這三部書:

  • 《Deep Learning Cookbook》,作者Douwe Osinga
  • 《Deep Learning with Python》,作者Francois Chollet
  • 《Deep Learning》,作者Ian Goodfellow, Yoshua Bengio, and Aaron Courville

前兩本書著重于通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)解決方案,而第三本更偏向深入理論。只要情況允許,可以邊讀邊在鍵盤上敲代碼,這會(huì)將讀技術(shù)文章變?yōu)橛腥さ捏w驗(yàn)。前兩本書中的代碼示例非常棒:我通常是在Jupiter Notebook中逐行敲寫和運(yùn)行,探究代碼如何工作,并記錄知識(shí)細(xì)節(jié)。

此外,我不僅僅是復(fù)制這些代碼,而是嘗試在自己的項(xiàng)目中實(shí)踐它們。我在近期工作的一個(gè)實(shí)踐項(xiàng)目是構(gòu)建一個(gè)圖書推薦系統(tǒng),該系統(tǒng)是根據(jù)《Deep Learning Cookbook》中的類似示例代碼改編的。從頭開始創(chuàng)建自己的項(xiàng)目可能令人生畏,如果你想提升自己,可以從別人的輪子上搭起。

***,學(xué)習(xí)某個(gè)主題的最有效方法之一是把這個(gè)知識(shí)教給別人。從經(jīng)驗(yàn)來看,如果我不能用簡單的語句解釋給別人,那么我就還沒有完全理解這個(gè)知識(shí)。隨著學(xué)習(xí)深度學(xué)習(xí)的每個(gè)主題,我將保持寫作,并分析技術(shù)實(shí)現(xiàn)細(xì)節(jié)和概念性解釋。

教學(xué)是***的學(xué)習(xí)方式之一,我計(jì)劃將其作為學(xué)習(xí)深度學(xué)習(xí)的一項(xiàng)重要組成部分。

學(xué)習(xí)金字塔。左側(cè):平均掌握程度;右側(cè):講義、閱讀、音視頻資料、示例、討論、實(shí)踐聯(lián)系、教導(dǎo)其他人

總結(jié)

公開自己的弱點(diǎn)可能會(huì)感覺有點(diǎn)奇怪。寫這篇文章的確會(huì)讓我感覺不舒服,但是我寫出來是因?yàn)樗罱K會(huì)幫助我成為一個(gè)更好的數(shù)據(jù)科學(xué)家。而且,我發(fā)現(xiàn)很多人,包括雇主們,會(huì)對(duì)你坦誠自己的弱點(diǎn)并探討如何解決它們留下深刻印象。

不了解某些技能并不是弱點(diǎn)——真正的弱點(diǎn)是假裝自己知道一切并停滯不前。

通過定位我在數(shù)據(jù)科學(xué)方面的弱點(diǎn)——軟件工程,擴(kuò)展分析/模型,深度學(xué)習(xí)——我的目標(biāo)是高自己,鼓勵(lì)他人思考自己的弱點(diǎn),并向你展示想成為成功的數(shù)據(jù)科學(xué)家并不必要學(xué)習(xí)所有知識(shí)。雖然反思個(gè)人的弱點(diǎn)可能很痛苦,但是學(xué)習(xí)是快樂的:最有成就感的事情莫過于,經(jīng)過一段時(shí)間的持續(xù)學(xué)習(xí)后回顧這個(gè)過程,你知道你已經(jīng)比剛出發(fā)的時(shí)候懂得更多。

相關(guān)報(bào)道:

https://towardsdatascience.com/my-weaknesses-as-a-data-scientist-1310dab9f566

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-08-23 12:26:59

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)認(rèn)證數(shù)據(jù)科學(xué)

2015-06-25 13:11:05

數(shù)據(jù)大學(xué)畢業(yè)生

2021-03-27 10:57:37

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2019-01-08 16:25:42

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2020-09-29 17:15:41

數(shù)據(jù)科學(xué)技術(shù)

2020-10-31 22:04:39

統(tǒng)計(jì)和數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2016-03-10 13:56:42

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2020-05-11 13:46:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2018-10-11 08:44:14

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)

2019-08-13 21:44:46

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析師數(shù)據(jù)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)