我們問了Yann LeCun等16個頂級數(shù)據(jù)科學(xué)家,這是他們給數(shù)據(jù)新人的建議
大數(shù)據(jù)文摘作品
編譯:Fei、楊小咩是小怪獸、張南星、Rita、云舟
數(shù)據(jù)科學(xué)為何迷人?這與數(shù)據(jù)科學(xué)家密不可分!
通過合理使用大量數(shù)據(jù),在這群人的手中,大批新應(yīng)用、新行業(yè)應(yīng)用而生。
語音識別,計算機視覺中的物體識別,機器人,自動駕駛汽車,生物信息學(xué),神經(jīng)科學(xué),系外行星的發(fā)現(xiàn),對宇宙起源的理解,以及在經(jīng)費有限的條件下,組織一支勝出的棒球隊。
數(shù)據(jù)科學(xué)家是整個產(chǎn)業(yè)的核心。他們必須將應(yīng)用領(lǐng)域的知識與統(tǒng)計專業(yè)知識結(jié)合起來,并運用最新的計算機科學(xué)思想來實施。
本文節(jié)選自《工作中的數(shù)據(jù)科學(xué)家》,書中采訪了16個不同行業(yè)的16位頂級數(shù)據(jù)科學(xué)家,以了解他們在理論上如何思考,以及在實際中解決什么問題,數(shù)據(jù)的作用和取得成功的原因。
本文中,你將看到這些來自不同行業(yè)的科學(xué)家對以下這個問題的回答:
“你會給初入數(shù)據(jù)科學(xué)行業(yè)的人提供什么建議?”
去年,大數(shù)據(jù)文摘也花費3個月的時間,訪談了來自不同國家不同行業(yè)的10位頂級數(shù)據(jù)科學(xué)團隊負(fù)責(zé)人。感興趣的同學(xué)可以在文末看到這十篇內(nèi)容。
1. Chris Wiggins,紐約時報首席數(shù)據(jù)科學(xué)家、哥倫比亞應(yīng)用數(shù)學(xué)副教授
創(chuàng)造力和關(guān)懷。你必須真正喜歡某件事情,愿意花很長一段時間來琢磨它。還有,保持一定的懷疑。我喜歡博士生的一個原因是——五年的時間足以讓你有一個發(fā)現(xiàn),讓你認(rèn)識到你一路上做錯的所有事情。對你來說很棒的是,能理智地反復(fù)思考“冷聚變”然后意識到“哦,我真的搞砸了”,從而犯下一系列錯誤并解決它們。
我認(rèn)為攻讀博士學(xué)位的過程,特別是做研究時,確實能讓你對那些看起來理所當(dāng)然的事情有所懷疑。我認(rèn)為這點很有用,因為,如果不能保持懷疑,你很容易就會走上錯誤的道路——因為這是你第一次遇到一條看起來很靠譜的路。
雖然這個答案看起來無聊,但事實是你需要真正擁有技術(shù)深度。數(shù)據(jù)科學(xué)還未形成一個領(lǐng)域,所以目前還沒有證據(jù)。
我們很容易就可以通過維基百科理解機器學(xué)習(xí)的概念。但要真正做到這一點,你需要知道對一個具體的問題應(yīng)該使用哪種工具,而且你需要充分了解每種工具的缺陷和限制。要獲得這些經(jīng)驗沒有捷徑。只有不斷試錯。你會發(fā)現(xiàn)自己將分類問題歸入聚類問題,或?qū)⒕垲悊栴}歸入假設(shè)檢驗問題。
你發(fā)現(xiàn)自己開始嘗試某些事情,自信自己做的是對的,然而最終意識到你完全錯了,這樣的事情你會經(jīng)歷許多次,而且非常不幸沒有捷徑可走——但這會提升你的經(jīng)驗。你只需要這樣做下去,并不斷犯錯誤,這也是另一個我喜歡在這個領(lǐng)域從業(yè)多年的人的理由。
在某件事上要想成為專家需要很長時間。這需要多年的錯誤。幾個世紀(jì)以來現(xiàn)實一直如此。引用著名物理學(xué)家Niels Bohr的一句名言,成為一個領(lǐng)域的專家的方法就是在該領(lǐng)域中盡可能地犯錯。
2. Caitlin Smallwood,Netflix的科學(xué)與算法副總裁
我會說在你做任何其他事情之前,首先要硬著頭皮理解數(shù)據(jù)的基礎(chǔ)知識,盡管它既不迷人也不那么有趣。換句話說,努力了解如何捕獲數(shù)據(jù),準(zhǔn)確理解每個數(shù)據(jù)字段是如何定義的,并了解數(shù)據(jù)何時丟失。
如果數(shù)據(jù)缺失,這是否意味著什么?它是否僅在某些情況下丟失?這些小小的微妙的數(shù)據(jù)陷阱會讓你深深陷入數(shù)據(jù)科學(xué)的魅力中。
你可以使用最復(fù)雜的算法,但如果這一切建立在不經(jīng)檢驗的數(shù)據(jù)集上,你得到的結(jié)果也毫無價值。無論你有多迫不及待想要著手?jǐn)?shù)據(jù)建模的部分,你都無法忽略原始的數(shù)據(jù)。在開始建模之前,標(biāo)記你的i,跨過你的t,仔細(xì)檢查你所掌握的所有底層數(shù)據(jù)。
我又漸漸學(xué)會的另一件事是,在系統(tǒng)環(huán)境下,混合算法幾乎總比單一算法表現(xiàn)得出色,因為不同的技術(shù)會利用數(shù)據(jù)模式的不同方面,特別是在復(fù)雜的大型數(shù)據(jù)集中。因此,雖然你可以采用一種特定的算法并不斷迭代以獲得更好的模型,但我的經(jīng)驗是,算法組合往往比單一算法更好。
3. Yann LeCun,F(xiàn)acebook人工智能研究總監(jiān)、紐約大學(xué)教授
我總是給出同樣的建議,因為我經(jīng)常被問到這個問題。我認(rèn)為,如果你是一名本科生,選擇一門你可以盡可能多地學(xué)習(xí)數(shù)學(xué)和物理課程的專業(yè)。而且它必須是正確的課程。我說的話可能聽起來自相矛盾了,但工程學(xué)或物理學(xué)的專業(yè)可能比數(shù)學(xué)、計算機科學(xué)或經(jīng)濟學(xué)更合適。當(dāng)然,你需要學(xué)習(xí)編程,所以你需要參加計算機科學(xué)專業(yè)的大量課程來學(xué)習(xí)編程的機制。
然后,參與一項數(shù)據(jù)科學(xué)領(lǐng)域的研究生項目。學(xué)習(xí)本科生的機器學(xué)習(xí),人工智能或計算機視覺課程,因為你需要接觸這些技術(shù)。在那之后,盡可能多地參加數(shù)學(xué)和物理課程,尤其是應(yīng)用數(shù)學(xué)課程,例如優(yōu)化問題,因為他們使你能夠更加充分地應(yīng)對真正的挑戰(zhàn)。
這也取決于你想去的地方,因為數(shù)據(jù)科學(xué)或人工智能的背景下有許多不同的工作。人們應(yīng)該真正思考他們想做什么,然后研究這些主題。目前的熱門話題是深度學(xué)習(xí),這意味著你需要學(xué)習(xí)和理解神經(jīng)網(wǎng)絡(luò)的經(jīng)典著作,學(xué)習(xí)優(yōu)化問題,學(xué)習(xí)線性代數(shù)等知識。這有助于你了解我們每天會遇到的基本數(shù)學(xué)技巧和一般概念。
4. Erin Shellman,Zymergen的數(shù)據(jù)科學(xué)經(jīng)理、Nordstrom數(shù)據(jù)實驗室和AWS S3的前數(shù)據(jù)科學(xué)家
對于那些仍在決定學(xué)習(xí)什么的人來說,我會說STEM(理工科)領(lǐng)域毫無意義,尤其是‘TEM’領(lǐng)域。學(xué)習(xí)STEM科目將為你提供測試和了解世界的工具。
這就是我對數(shù)學(xué),統(tǒng)計和機器學(xué)習(xí)的看法。我對數(shù)學(xué)本身不感興趣,但我的興趣在于用數(shù)學(xué)來描述事物。畢竟這些都是工具集,所以即使你對數(shù)學(xué)或統(tǒng)計學(xué)上不感興趣,這仍然非常值得我們投入進去,考慮如何將它應(yīng)用于你真正熱愛的事情上。
對于像我這樣試圖轉(zhuǎn)型的人來說,我會覺得很困難。要知道,轉(zhuǎn)行很困難,而且你必須加倍努力。這不是數(shù)據(jù)科學(xué)獨有的困難——這就是生活。在這個領(lǐng)域,我們很難不與別人建立聯(lián)系,我們可以通過與慷慨的人們見面、喝咖啡來建立有效的聯(lián)系。在我的生活中,頭條規(guī)則就是“跟進”。如果你和某個人交流,在他身上發(fā)現(xiàn)了你想要的東西,就跟進。
數(shù)據(jù)科學(xué)家的文章可能非常唬人,因為大多數(shù)文章讀起來像數(shù)據(jù)科學(xué)術(shù)語表。事實是,技術(shù)變化如此之快,以至于沒有人擁有可能值得記錄下來的所有經(jīng)驗。
當(dāng)你看到這里時,這一點可能是壓倒性的,而且你可能會覺得“這不適合我,我沒有任何這些技能,也沒有什么可以貢獻的。”我勸你們不要有這種想法,只要你隨時都可以改變和學(xué)習(xí)新東西。
最終,公司需要的是能夠嚴(yán)格定義問題并設(shè)計解決方案的人。他們也需要善于學(xué)習(xí)的人。我認(rèn)為這些才是核心技能。
5. Daniel Tunkelang, Twiggle的首席搜索傳道者、LinkedIn的前搜索質(zhì)量主管
對于那些來自數(shù)學(xué)或自然科學(xué)領(lǐng)域的人,我建議他們投資于學(xué)習(xí)軟件技能——尤其是Hadoop和R,它們是使用最廣泛的工具。來自軟件工程的人應(yīng)該參加一個機器學(xué)習(xí)課程,并使用真實的數(shù)據(jù)進行一個項目,其中許多數(shù)據(jù)都是免費的。正如許多人所說,成為數(shù)據(jù)科學(xué)家的最好方式是實踐數(shù)據(jù)科學(xué)。
數(shù)據(jù)就在那里,科學(xué)也不是那么難學(xué),特別是對于那些受過數(shù)學(xué)、科學(xué)或工程學(xué)訓(xùn)練的人。讀《數(shù)據(jù)的不合理有效性》—谷歌研究人員Alon Halevy、Peter Norvig和Fernando Pereira的一篇經(jīng)典文章。文章通常被總結(jié)為“更多的數(shù)據(jù)勝過更好的算法。”
數(shù)據(jù)的不合理有效性:http://www.cs.columbia.edu/igert/courses/E6898/Norvig.pdf
整篇文章都值得一讀,因為它概述了最近在使用網(wǎng)絡(luò)規(guī)模數(shù)據(jù)改進語音識別和機器翻譯方面取得的成功。另外,請聽Monica Rogati關(guān)于更好的數(shù)據(jù)如何擊敗更多數(shù)據(jù)的見解吧。理解并內(nèi)化這兩個觀點,你正在成為一名數(shù)據(jù)科學(xué)家的道路上狂奔。
6. John Foreman,產(chǎn)品管理副總裁兼MailChimp前首席數(shù)據(jù)科學(xué)家
我發(fā)現(xiàn)很難找到并聘用合適的人。
這確實是一件很困難的事情,因為當(dāng)我們思考大學(xué)制度的現(xiàn)狀時,無論是本科生還是研究生院,你只關(guān)注一件事。
你擅長什么。但數(shù)據(jù)科學(xué)家有點像新興的文藝復(fù)興人士,因為數(shù)據(jù)科學(xué)本質(zhì)上是多學(xué)科的。
這就是為什么有了那個“數(shù)據(jù)科學(xué)家比計算機程序員懂得更多的統(tǒng)計知識,并且能比統(tǒng)計學(xué)家更好地編程”的一個大笑話的原因。
這個笑話是什么意思?這是說數(shù)據(jù)科學(xué)家是一個對這兩件事情略知一二的人。但我想說,他們知道的不只是兩件事。他們還必須知道如何溝通。
他們還需要知道概率,組合,微積分等。
學(xué)習(xí)一些可視化也無妨。他們還需要知道如何操作數(shù)據(jù),使用數(shù)據(jù)庫,甚至一點點OR。有很多事情他們需要知道。所以要找到這些人真的很難,因為他們必須接觸很多學(xué)科,他們必須能夠明智地講述他們的經(jīng)驗。這對任何一個申請人來說都是個艱巨的任務(wù)。
雇用一個人需要很長時間,這也是為什么我認(rèn)為人們一直在談?wù)摤F(xiàn)在數(shù)據(jù)科學(xué)還沒有足夠的人才的原因。我認(rèn)為這在一定程度上是正確的。我想一些正在開辦的學(xué)位課程會對現(xiàn)狀有所幫助。
但即使如此,從這些學(xué)位項目中畢業(yè),對于MailChimp,我們還是會看看你如何表達(dá)并與我們交流這個特定項目是如何教會你使用數(shù)據(jù)科學(xué)橫貫多個學(xué)科的。
這將淘汰非常多的人。我希望有更多的課程將重點著眼于數(shù)據(jù)科學(xué)家在工作環(huán)境的溝通和協(xié)作方面。
7. Roger Ehrenberg,IA風(fēng)險投資公司的執(zhí)行合伙人
我想這些領(lǐng)域有最多的機會也有最大的挑戰(zhàn)。
醫(yī)療保健數(shù)據(jù)顯然在PII和隱私問題上有一些大問題。
除此之外,還有僵硬的官僚主義,僵化的基礎(chǔ)設(shè)施和數(shù)據(jù)孤島,這使得解決需要跨多個數(shù)據(jù)集進行集成的難題變得非常困難。
但數(shù)據(jù)一定會改變這個行業(yè),我認(rèn)為我們在這里討論的許多技術(shù)都直接關(guān)系到如何使醫(yī)療保健更好、更便宜、更分散。這是一代人的機會。
早期的另一個巨大領(lǐng)域是風(fēng)險管理——不管是金融、貿(mào)易還是保險領(lǐng)域。
當(dāng)你在討論將新的數(shù)據(jù)集納入風(fēng)險評估時,這真的是一個難題——尤其是在將這些技術(shù)應(yīng)用到保險業(yè)這樣的行業(yè)時,就像醫(yī)療保健一樣,大量官僚機構(gòu)中存在大量隱私問題和數(shù)據(jù)。
與此同時,這些老舊而僵化的公司才剛剛開始開放,并正在與創(chuàng)業(yè)社區(qū)互動,以利用新技術(shù)。這是另一個讓我非常興奮的領(lǐng)域。
第三個我熱衷的領(lǐng)域是重塑制造業(yè),并使其更加高效。制造業(yè)回歸陸上的趨勢已經(jīng)形成。
更強大的制造業(yè)可能成為在美國創(chuàng)造充滿活力的中產(chǎn)階級的橋梁。我認(rèn)為技術(shù)可以幫助加速這一有利趨勢。
8. Claudia Perlich, Dstillery首席科學(xué)家
我認(rèn)為,最終,學(xué)習(xí)如何做數(shù)據(jù)科學(xué)就像學(xué)習(xí)滑雪。你必須做。
你只能看很多視頻視頻,然后不斷地學(xué)習(xí)。在一天結(jié)束的時候,你必須騎上你那該死的雪橇,從那座山上下來。
你會在途中崩潰好幾次,這很好。這是你需要的學(xué)習(xí)體驗。
實際上,我更傾向于問面試者那些不順利的事情,而不是那些行得通的事情,因為這告訴我他們在這個過程中學(xué)到了什么。
每當(dāng)有人來問我,“我應(yīng)該怎么做?”我說,“是的,當(dāng)然,參加關(guān)于機器學(xué)習(xí)技術(shù)的在線課程。毫無疑問,這是有用的。顯然,你必須能夠編程,至少在某種程度上。你不必是一名Java程序員,但你必須設(shè)法完成一些工作。我不在乎怎樣做。”
最終,無論是在Datakind花時間做NGO的志愿者,還是去kaggle網(wǎng)站參加他們的一些數(shù)據(jù)挖掘競賽——只要去做就好。
特別是在Kaggle上,閱讀論壇上其他人告訴你的關(guān)于這個問題的內(nèi)容討論,因為在那里你可以了解到人們在做什么,他們在做什么,以及什么對他們不起作用。
因此,任何能讓你真正參與到處理數(shù)據(jù)的事情中去的事情,即使你沒有為此得到報酬,也是一件很棒的事情。
記住,你必須滑下那座山。沒有其他辦法了。你無法學(xué)習(xí)其他方式。
所以,自愿抽出時間,用任何你能想到的方式沾手,如果你有機會做實習(xí),那就再好不過了。另外,有很多機會可以讓你開始。去做吧。
9. Jonathan Lenaghan, PlaceIQ的首席科學(xué)家兼產(chǎn)品開發(fā)高級副總裁
首先,自我批評是非常重要的:永遠(yuǎn)質(zhì)疑你的假設(shè),對你的產(chǎn)出保持偏執(zhí)。這是最簡單的部分。
如果人們真的想在數(shù)據(jù)科學(xué)領(lǐng)域取得成功,在技能方面,具備良好的軟件工程技能是至關(guān)重要的。
因此,即使我們雇用的人員很少有編程經(jīng)驗,我們也會非常努力地盡快向他們灌輸工程、工程實踐和許多優(yōu)秀的快速編程實踐的重要性。
這對他們和我們都是有幫助的,因為這些幾乎都可以一對一地應(yīng)用于數(shù)據(jù)科學(xué)。
如果你現(xiàn)在查看一下開發(fā)程序,它們有連續(xù)集成、持續(xù)構(gòu)建、自動化測試和測試工具—所有這些都很好地映射了從開發(fā)作業(yè)世界到數(shù)據(jù)操作(我從Red Monk借鑒的短語)世界。
我認(rèn)為這是一個非常強大的概念。對所有數(shù)據(jù)進行測試非常重要,這樣如果你更改了代碼,你就可以返回并測試所有數(shù)據(jù)。
擁有工程學(xué)思想對于在數(shù)據(jù)科學(xué)領(lǐng)域高速發(fā)展至關(guān)重要。
閱讀《完整代碼》和《實用主義程序員》會比閱讀機器學(xué)習(xí)的書籍給你帶來更多——但是,當(dāng)然你也必須閱讀機器學(xué)習(xí)的書籍。
10. Anna Smith,Spotify高級數(shù)據(jù)工程師、Rent the Runway前分析工程師
如果有人剛剛開始從事數(shù)據(jù)科學(xué),那么最重要的事情就是要了解問別人問題是一件很好的事兒。我也認(rèn)為謙卑是很重要的。
你必須確保你沒有被束縛在你正在做的事情中。你總是可以做出改變并重新開始。
我認(rèn)為,在你剛起步的時候,能夠廢棄代碼真的很困難,但最重要的事情是做一些事情。
即使你沒有數(shù)據(jù)科學(xué)方面的工作,您仍然可以在宕機時間內(nèi)探索數(shù)據(jù)集,并且可以提出問題來詢問數(shù)據(jù)。
在我個人的時間里,我琢磨過Reddit的數(shù)據(jù)。我問自己,“我可以如何通過我擁有或沒有的工具來探索Reddit?”
這很好,因為一旦你開始了,你可以看到其他人如何解決同樣的問題。
用你的直覺,開始閱讀別人的文章,然后說,“我可以在我的方法中使用這個技巧。”緩慢的開始,緩慢的前進。
當(dāng)我開始的時候,我嘗試了很多閱讀,但我認(rèn)為這并沒有什么幫助,直到你真正使用代碼和數(shù)據(jù)來理解它的工作原理,以及它是如何運行的。
當(dāng)人們將其呈現(xiàn)在書本中時,這一切都很美好。在現(xiàn)實生活中,事實并非如此。
我認(rèn)為嘗試很多不同的東西也是非常重要的。我從未想過我會在這里。我也不知道五年后我會在哪里。
但也許這就是我如何學(xué)習(xí)的,通過學(xué)習(xí)一些不同的學(xué)科的知識,來嘗試?yán)斫馐裁床攀亲钸m合我的。
11. Andre Karpistsenko, Taxify數(shù)據(jù)科學(xué)首席及創(chuàng)始人之一、PlanetOS研發(fā)負(fù)責(zé)人
雖然這聽起來有些大而化之,但我認(rèn)為你應(yīng)該相信自己并且遵從內(nèi)心。如果僅僅只盲從媒體新聞所宣揚的內(nèi)容,然后選擇了自己并不喜歡的方向,我認(rèn)為你會很容易感到沮喪。所以當(dāng)我們回到數(shù)據(jù)科學(xué)上時,你應(yīng)該把它看做職業(yè)生涯的起點。
數(shù)據(jù)科學(xué)的背景對于未來發(fā)展將有極大助力,開發(fā)軟件以及數(shù)據(jù)統(tǒng)計的技能將幫助你在任何領(lǐng)域中都能做出更明智的決策。譬如,我們曾多次聽說一個運動員是如何通過數(shù)據(jù)來改善自身表現(xiàn)的:通過改善并反復(fù)練習(xí)應(yīng)該起跳的角度,他成為了金牌所有者。這完全可以歸功于數(shù)據(jù)驅(qū)動的方法。
如果需要我給出更具體的操作性建議,那么需要看這個接受建議者的野心有多大了。如果這個人是想創(chuàng)造新的方法和工具,那么建議將會大不相同,因為這需要在選定的方向上堅持不懈,才會成功。但如果目的僅僅是能夠在很多情況下靈活機動,那么一個豐富的工具箱就可以解決你的問題。
我曾經(jīng)得到的最佳建議來自于斯坦福的一個教授,不久之前我上過他的課。他的建議是成為一個T型人才,即在核心競爭力之外能夠有次級核心競爭力,如此便能在自己需要或者想要轉(zhuǎn)行的時候有所選擇。除了在某一垂直領(lǐng)域擁有專家級別的技能之外,他還建議擁有足夠?qū)挼臋M向背景,以便在不同情況下與不同的人合作。
所以如果你還是學(xué)生,那么建造一個T型能力樹,擁有次級核心技能,這也許你能選擇的最佳成長路線了。
同時,最重要的事情在于與一幫比自己優(yōu)秀的人相處,然后從他們身上不斷學(xué)習(xí)。這是我能提供的最好建議。
大學(xué)校園是你能夠深切體會到人之多樣性的地方。如果你能夠與最優(yōu)秀的人共同工作,那么你就能在任何事情上獲得成功。
12. Amy Heineike,PrimerAI科技副總裁、 Quid前數(shù)學(xué)首席
我認(rèn)為他們也許需要開始審視內(nèi)心,分辨自己真正在乎的東西是什么。自己真正想做的事情是什么?當(dāng)下,數(shù)據(jù)科學(xué)的確算是熱點之一,所以也許很多人都認(rèn)為如果能夠給自己貼上“數(shù)據(jù)科學(xué)家”的標(biāo)簽,那么快樂、幸福以及金錢近在咫尺。
所以我真心建議分辨一下自己對數(shù)據(jù)科學(xué)的什么內(nèi)容感興趣,這是你應(yīng)該問自己的第一個問題。其次,考慮一下如何讓自己精通這個內(nèi)容,以及這個內(nèi)容背后所代表的工作是什么,它和你真正感興趣的內(nèi)容是否相符。
我們的策略是深入挖掘你需要學(xué)習(xí)的某一塊內(nèi)容。我們團隊中有自然語言處理的博士或者物理學(xué)博士,他們需要使用很多不同的分析工具。你可以成為某一領(lǐng)域的專家,然后找到同樣在試圖解決相同問題或者類似問題的人,并學(xué)習(xí)他們解決問題的方式。這是一種方法。
另一個方法就是跳出盒子。世界之大,數(shù)據(jù)集的多樣性超過想象。如果你正在某家公司工作,想看一些新機會,那么想想看你手中是否有一些數(shù)據(jù)可以通過更加有趣的方式處理。
盡量尋找新機會嘗試不同的內(nèi)容,然后看這是否是自己想做的事情。甚至自己在家都可以找到開放的數(shù)據(jù)集。到處看看,戳戳,說不定就能找打可以“玩弄”的數(shù)據(jù)。我認(rèn)為這是一個好起點。
以“數(shù)據(jù)科學(xué)”之名義,有許多不同的角色供你選擇,同時也存在許多你認(rèn)為與數(shù)據(jù)科學(xué)相關(guān)但尚未被貼上標(biāo)簽的角色,因為人們尚未意識到它們的存在。所以再三思考你真正想要的是什么。
13. Victor Hu,QBE保險數(shù)據(jù)科學(xué)首席、Next Big Sound前數(shù)據(jù)科學(xué)家
首先你需要講一個故事。你每天做的事情是能夠真正沉到系統(tǒng)、組織或者行業(yè)的本質(zhì)中去的。但如果你希望自己做的事情對人們是有用且能夠理解的,你需要通過講故事的方式呈現(xiàn)。
能夠?qū)⒛闼龅氖虑閷懗鰜?、講清楚是非常重要的能力。同時,你也不必太過擔(dān)心所使用的算法是否足夠好。數(shù)據(jù)的多少和優(yōu)良都會讓算法表現(xiàn)不同,所以如果你能夠通過某種渠道獲取更多更好、干凈且有效的數(shù)據(jù)——那就太棒啦!
14. Kira Radinsky,eBay數(shù)據(jù)科學(xué)首席科學(xué)家及總監(jiān)、SalesPredict前CTO及創(chuàng)始人之一
找到你迫不及待想解決的問題。于我而言,每次當(dāng)我開始嘗試新事物時,如果沒有我希望能借之切實解決的問題,那么我會覺得非常無趣。盡快開始閱讀一些材料,然后開始著手于你希望解決的問題。隨著工作的推進,你會看到自己的問題,這些問題就會引導(dǎo)你求助于別的學(xué)習(xí)材料,包括書籍、論文或者大牛。所以多花點時間在解決問題以及與人溝通上,然后你就會變成下一個大牛。
深刻理解基礎(chǔ)知識:了解一些基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)及計算機科學(xué)知識;了解所使用工具的基礎(chǔ)及數(shù)學(xué)原理,而不僅僅是如何使用它們;了解輸入、輸出以及黑盒中所發(fā)生的事情,否則將無法知道應(yīng)用的最佳時機。當(dāng)然,這也取決于你正在解決的問題是什么。對于不同的問題,有許多不同的工具可供使用。你需要知道每個工具能解決什么問題,并且深刻理解你正試圖解決的問題,才能決定使用哪個工具或技巧。
15. Eric Jonas,UC Berkeley EECS博士后、Salesforce前首席預(yù)測科學(xué)家
他們應(yīng)該理解概率論的來龍去脈。我現(xiàn)在一旦學(xué)到新的知識,我就會把它們映射到概率論中。這個做法非常有利,因為它在我解決任何別的問題時,能夠提供令人驚訝的、深刻且豐富的基礎(chǔ)理論。
E.T. Jaynes所寫的Probability Theory: The Logic of Science(《概率論:科學(xué)的邏輯》)被我們奉為圣經(jīng)。在某種意義上,我們認(rèn)為他的觀點很正確。我偏好于使用概率論的方法,因為方法的背后存在兩條互相垂直的軸——建模軸以及推理軸。
這從根本上反映了我表達(dá)問題的方式以及我是如何基于假設(shè)使用數(shù)據(jù)計算出概率的。我最喜歡貝葉斯理論的一點在于我能夠在不同的軸上單獨進行計算。當(dāng)然,它們不能夠完全獨立,但是它們近乎于獨立,你就能夠充分利用這一點。
當(dāng)我觀察諸如深度學(xué)習(xí),或者基于LASSO的線性回歸系統(tǒng)的算法時,(也就是最近火爆的機器學(xué)習(xí)理論),它們實際上就是在單獨處理一個軸,折疊了另一個軸。
當(dāng)使用基于LASSO的方法時,我會遇到一個問題:“如果我稍微改變一下這個參數(shù),會發(fā)生什么?”線性回歸模型有非常明顯的線性加成高斯模型特征。如果我希望模型以不同的方式呈現(xiàn),怎么做?突然之間,所有的正則化最小二乘法不頂用了。推理方法并不接受這樣的嘗試。
16. Jake Porwar, DataKind的創(chuàng)始人及執(zhí)行總監(jiān)
我認(rèn)為扎實的統(tǒng)計學(xué)背景是前提,因為你需要知道你在做什么,并且充分理解你所建造模型的本質(zhì)。除此之外,我的統(tǒng)計學(xué)項目也教會了我許多倫理相關(guān)的內(nèi)容,而這也是DataKind正在思考解決的問題。人們總是在想著自己的工作成果將被用在何處,你可以選擇給別人一個算法,也可以給一個提供攔截建議的模型,警察們也會根據(jù)這個模型行動,但是他們行動的理由是什么,結(jié)果會如何?這就像在創(chuàng)造新的科學(xué)技術(shù),而你在思考算法帶來好處的同時,也需要充分考慮其中的風(fēng)險,因為你要對你所創(chuàng)造的東西負(fù)起責(zé)任來。
無論你的出身好或壞,一旦你充分理解所使用的模型,這就是你能做到的最好的事情。我們現(xiàn)在是科學(xué)家,僅僅考慮如何設(shè)計好產(chǎn)品是不夠的,我們正試圖總結(jié)所生存世界的規(guī)律。
這就是統(tǒng)計學(xué)的魅力所在——通過統(tǒng)計數(shù)據(jù)來證明一個假設(shè),或者通過建立一個模型以揭示這個世界是如何運作的。如果只是盲目地相信模型結(jié)論,這將非常危險,因為這就是你對這個世界的解釋;這個模型有多少缺陷,你對這個世界的理解就有多少缺陷。
簡而言之,學(xué)習(xí)統(tǒng)計學(xué),增加自己的洞察力。
《數(shù)據(jù)科學(xué)家在路上》這篇文章給我們介紹了頂尖的數(shù)據(jù)科學(xué)家是如何在令人眼花繚亂的行業(yè)和應(yīng)用間工作的——每個人都充分利用了自身對不同領(lǐng)域的理解,以及統(tǒng)計學(xué)、計算機科學(xué)知識來創(chuàng)造不可估量的財富及影響力。
數(shù)據(jù)增長的速度越來越快,對于能夠充分理解數(shù)據(jù)、并從中提取價值的人需求也越來越大。如果你想繼承數(shù)據(jù)科學(xué)家的衣缽,那么這些優(yōu)秀數(shù)據(jù)科學(xué)實踐者們所說的內(nèi)容,將成為來之不易的建議,并且將激發(fā)你對數(shù)據(jù)和模型的激情。
相關(guān)報道:
https://www.linkedin.com/pulse/16-useful-advices-aspiring-data-scientists-james-le/?irgwc=1
【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】