自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

菜鳥(niǎo)數(shù)據(jù)科學(xué)家五大誤區(qū)

作者：Mags譯 2019-01-08 16:25:42

大數(shù)據(jù)

本文研究了作為數(shù)據(jù)科學(xué)家新手的5個(gè)常見(jiàn)錯(cuò)誤。這是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的幫助下一起完成的，他在指導(dǎo)和領(lǐng)導(dǎo)學(xué)術(shù)界與行業(yè)領(lǐng)域的年輕數(shù)據(jù)科學(xué)家方面擁有20多年的經(jīng)驗(yàn)。

你準(zhǔn)備好要成為一名數(shù)據(jù)科學(xué)家，積極的參加Kaggle比賽和Coursera的講座。雖然這一切都準(zhǔn)備好了，但是一名數(shù)據(jù)科學(xué)家的實(shí)際工作與你所期望的卻是大相徑庭的。

本文研究了作為數(shù)據(jù)科學(xué)家新手的5個(gè)常見(jiàn)錯(cuò)誤。這是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的幫助下一起完成的，他在指導(dǎo)和領(lǐng)導(dǎo)學(xué)術(shù)界與行業(yè)領(lǐng)域的年輕數(shù)據(jù)科學(xué)家方面擁有20多年的經(jīng)驗(yàn)。本文旨在幫助你更好地為今后的實(shí)際工作做準(zhǔn)備。

1、Kaggle成才論

Source: kaggle.com on June 30 18.

你通過(guò)參加Kaggle比賽，練習(xí)了數(shù)據(jù)科學(xué)領(lǐng)域的各項(xiàng)技能。如果你能把決策樹(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)那就再好不過(guò)了。說(shuō)實(shí)話，作為一個(gè)數(shù)據(jù)科學(xué)家，你不需要做那么多的模型融合。請(qǐng)記住，通常情況下，你將花80%的時(shí)間進(jìn)行數(shù)據(jù)預(yù)處理，剩下的20%的時(shí)間用于構(gòu)建模型。

作為Kaggle的一份子對(duì)你在很多方面都有幫助。所用到的數(shù)據(jù)一般都是徹底處理過(guò)的，因此你可以花更多的時(shí)間來(lái)調(diào)整模型。但在實(shí)際工作中，則很少會(huì)出現(xiàn)這種情況。一旦出現(xiàn)這種情況，你必須用不同的格式和命名規(guī)則來(lái)收集組裝不同來(lái)源的數(shù)據(jù)。

做數(shù)據(jù)預(yù)處理這項(xiàng)艱苦的工作以及練習(xí)相關(guān)的技能，你將會(huì)花費(fèi)80%的時(shí)間。抓取圖像或從API中收集圖像，收集Genius上的歌詞，準(zhǔn)備解決特定問(wèn)題所需的數(shù)據(jù)，然后將其提供給筆記本電腦并執(zhí)行機(jī)器學(xué)習(xí)生命周期的過(guò)程。精通數(shù)據(jù)預(yù)處理無(wú)疑會(huì)使你成為一名數(shù)據(jù)科學(xué)家，并對(duì)你的公司產(chǎn)生立竿見(jiàn)影的影響。

2、神經(jīng)網(wǎng)絡(luò)(Neural Networks)無(wú)所不能

在計(jì)算機(jī)視覺(jué)或自然語(yǔ)言處理的領(lǐng)域，深度學(xué)習(xí)模型優(yōu)于其它機(jī)器學(xué)習(xí)模型，但它們也有很明顯的不足。

神經(jīng)網(wǎng)絡(luò)需要依賴大量的數(shù)據(jù)。如果樣本很少，那么使用決策樹(shù)或邏輯回歸模型的效果會(huì)更好。神經(jīng)網(wǎng)絡(luò)也是一個(gè)黑匣子，眾所周知，它們很難被解釋和說(shuō)明。如果產(chǎn)品負(fù)責(zé)人或主管經(jīng)理對(duì)模型的輸出產(chǎn)生了質(zhì)疑，那么你必須能夠?qū)δＰ瓦M(jìn)行解釋。這對(duì)于傳統(tǒng)模型來(lái)說(shuō)要容易得多。

正如詹姆斯·勒(James Le)在一個(gè)偉大的郵件中所闡述的那樣，有許多優(yōu)秀的統(tǒng)計(jì)學(xué)習(xí)模型，自己可以學(xué)習(xí)一下，了解一些它們的優(yōu)缺點(diǎn)，并根據(jù)用例的約束來(lái)進(jìn)行模型的實(shí)際應(yīng)用。除非你正在計(jì)算機(jī)視覺(jué)或自然語(yǔ)言識(shí)別的專業(yè)領(lǐng)域工作，否則最成功的模型很可能就是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。你很快就會(huì)發(fā)現(xiàn)，最簡(jiǎn)單的模型，如邏輯回歸，通常是最好的模型。

來(lái)源：算法來(lái)自scikit-learn.org.

3、機(jī)器學(xué)習(xí)是產(chǎn)品

在過(guò)去的十年里，機(jī)器學(xué)習(xí)既受到了極大的吹捧，也受到了很大的沖擊。大多數(shù)的初創(chuàng)公司都宣稱機(jī)器學(xué)習(xí)可以解決現(xiàn)實(shí)中遇到的任何問(wèn)題。

來(lái)源：過(guò)去5年谷歌機(jī)器學(xué)習(xí)的趨勢(shì)

機(jī)器學(xué)習(xí)永遠(yuǎn)都不應(yīng)該是產(chǎn)品。它是一個(gè)強(qiáng)大的工具，用于生產(chǎn)滿足用戶需求的產(chǎn)品。機(jī)器學(xué)習(xí)可以用于讓用戶收到精準(zhǔn)的商品推薦，也可以幫助用戶準(zhǔn)確地識(shí)別圖像中的對(duì)象，還可以幫助企業(yè)向用戶展示有價(jià)值的廣告。

作為一名數(shù)據(jù)科學(xué)家，你需要以客戶作為目標(biāo)來(lái)制定項(xiàng)目計(jì)劃。只有這樣，才能充分地評(píng)估機(jī)器學(xué)習(xí)是否對(duì)你有幫助。

4、混淆因果和相關(guān)

有90%的數(shù)據(jù)大約是在過(guò)去的幾年中形成的。隨著大數(shù)據(jù)的出現(xiàn)，數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)從業(yè)者來(lái)說(shuō)已經(jīng)變得越來(lái)越重要。由于有非常多的數(shù)據(jù)需要評(píng)估，學(xué)習(xí)模型也更容易發(fā)現(xiàn)隨機(jī)的相關(guān)性。

來(lái)源： http://www.tylervigen.com/spurious-correlations

上圖顯示的是美國(guó)小姐的年齡和被蒸汽、熱氣和發(fā)熱物體導(dǎo)致的命案總?cè)藬?shù)?？紤]到這些數(shù)據(jù)，一個(gè)學(xué)習(xí)算法會(huì)學(xué)習(xí)美國(guó)小姐的年齡影響特定對(duì)象命案數(shù)量的模式。然而，這兩個(gè)數(shù)據(jù)點(diǎn)實(shí)際上是不相關(guān)的，并且這兩個(gè)變量對(duì)其它的變量沒(méi)有任何的預(yù)測(cè)能力。

當(dāng)發(fā)現(xiàn)數(shù)據(jù)中的關(guān)系模式時(shí)，就要應(yīng)用你的領(lǐng)域知識(shí)。這可能是一種相關(guān)性還是因果關(guān)系呢?回答這些問(wèn)題是要從數(shù)據(jù)中得出分析結(jié)果的關(guān)鍵點(diǎn)。

5、優(yōu)化錯(cuò)誤的指標(biāo)

機(jī)器學(xué)習(xí)模型通常遵循敏捷的生命周期。首先，定義思想和關(guān)鍵指標(biāo)。之后，要原型化一個(gè)結(jié)果。下一步，不斷進(jìn)行迭代改進(jìn)，直到得到讓你滿意的關(guān)鍵指標(biāo)。

構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型時(shí)，請(qǐng)記住一定要進(jìn)行手動(dòng)錯(cuò)誤分析。雖然這個(gè)過(guò)程很繁瑣并且比較費(fèi)時(shí)費(fèi)力，但是它可以幫助你在接下來(lái)的迭代中有效地改進(jìn)模型。參考下面的文章，可以從Andrew Ng的Deep Learning Specialization一文中獲得更多關(guān)于改進(jìn)模型的技巧。

注意以下幾個(gè)關(guān)鍵點(diǎn):

實(shí)踐數(shù)據(jù)處理
研究不同模型的優(yōu)缺點(diǎn)
盡可能簡(jiǎn)化模型
根據(jù)因果關(guān)系和相關(guān)性檢查你的結(jié)論
優(yōu)化最有希望的指標(biāo)

責(zé)任編輯：未麗燕來(lái)源：阿里云棲社區(qū)

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)