10個(gè)2017的預(yù)測:數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng)
近日, Vincent Granville在Data Science Central上撰文對2017的數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和物聯(lián)網(wǎng)進(jìn)行了預(yù)測。
以下為譯文
又到了分享對2017年的預(yù)言的時(shí)候了,這里拋磚引玉,也希望各位發(fā)表自己的觀點(diǎn)。
1. 數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)將變得更為主流,特別在以下領(lǐng)域:能源業(yè)、金融業(yè)(銀行、保險(xiǎn))、農(nóng)業(yè)(精耕)、運(yùn)輸業(yè)、城市規(guī)劃、醫(yī)療保健(定制治療),甚至是政府方面。
2. 某些數(shù)據(jù)科學(xué)的門外漢想要?jiǎng)?chuàng)建合法的,有關(guān)如何分析數(shù)據(jù)、算法怎樣運(yùn)轉(zhuǎn)的體系,并打算強(qiáng)制公開算法的秘訣。我相信他們會(huì)失敗的,奧巴馬醫(yī)改就是一個(gè)例子,其中利用的預(yù)測算法,忽略了年齡性別來計(jì)算溢價(jià),導(dǎo)致了人們需要承擔(dān)更高的保費(fèi)。
3. 傳感數(shù)據(jù)崛起。也就是說,物聯(lián)網(wǎng)將帶來數(shù)據(jù)膨脹,但數(shù)據(jù)質(zhì)量、數(shù)據(jù)相關(guān)性及數(shù)據(jù)安全仍是至關(guān)重要的。
4. 隨著物聯(lián)網(wǎng)的崛起,依賴于人工智能、深度學(xué)習(xí)和自動(dòng)數(shù)據(jù)科學(xué)的機(jī)器或設(shè)備間通信的算法 ,更多的過程將實(shí)現(xiàn)自動(dòng)化(如駕駛、醫(yī)療診斷和治療)。我最近也在編寫文章來描述機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)、人工智能、深度學(xué)習(xí)和數(shù)據(jù)科學(xué)之間的差異。你可以在DSC進(jìn)行注冊,防止錯(cuò)過該文。
5. 人工智能、物聯(lián)網(wǎng)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和運(yùn)籌學(xué)之間的界限將變得模糊。而統(tǒng)計(jì)工程會(huì)越來越多地出現(xiàn)在應(yīng)用程序、機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)領(lǐng)域。
6. 許多系統(tǒng)仍然無法正常運(yùn)轉(zhuǎn)。其解決方法在于人而不是算法。我的文章《為何如此多的機(jī)器學(xué)習(xí)實(shí)現(xiàn)都以失敗告終》中有提及,一個(gè)典型的例子就是“谷歌分析”。谷歌分析不能捕捉到大量明顯且又基本的機(jī)械交通流,而這種任務(wù)對于人來說,根本不需要任何統(tǒng)計(jì)和數(shù)據(jù)科學(xué)知識來過濾或攔截。雖然人們發(fā)明了基本的方案來解決這些問題,但它卻有增無減。虛假評論、新聞,推特上未檢測出的仇恨言論,谷歌搜索上未檢測到的剽竊行為,都屬于同一類別。最終,它為新玩家留下了可以進(jìn)入和構(gòu)建實(shí)際工作系統(tǒng)的空間。
7. 對公共數(shù)據(jù)和公共新聞的依賴將會(huì)面臨更仔細(xì)的審查。有人說預(yù)測選舉的失敗是數(shù)據(jù)科學(xué)的失敗。但在我看來這是一種不同類型的失敗,它未能意識到媒體的偏見(他們發(fā)布的都符合他們自身議程預(yù)測),甚至那些做調(diào)查的都是有偏差的(充滿謊言)。同時(shí)它也沒有意識到選舉中的高波動(dòng)性以及日常的巨大變化。任何能夠計(jì)算出包含歷史數(shù)據(jù)的良好的置信區(qū)間的人,都認(rèn)為這是不可靠的預(yù)測結(jié)果。最后,我一直都認(rèn)為獲勝者最擅長玩把戲,包括操縱黑客與賄賂媒體。
8. 越來越多的數(shù)據(jù)清理、預(yù)處理和探索性數(shù)據(jù)分析將變得自動(dòng)化,我們也將面對更多的非結(jié)構(gòu)化數(shù)據(jù),當(dāng)然,也會(huì)用一些方法來使它們變得結(jié)構(gòu)化。多個(gè)算法和模型逐漸混合在一起,來提供效果最好的模式識別和預(yù)測系統(tǒng),以提高精度。
9. 在領(lǐng)先的從業(yè)者帶領(lǐng)的大學(xué)課程的引導(dǎo)下,數(shù)據(jù)科學(xué)教育將不斷發(fā)展,通過數(shù)據(jù)科學(xué)營找工作的人會(huì)更少。許多這種類型的訓(xùn)練營不會(huì)培訓(xùn)你成為數(shù)據(jù)科學(xué)家,而是讓你變成一個(gè)只知曉經(jīng)典的、基本的、甚至過時(shí)且危險(xiǎn)的統(tǒng)計(jì)知識的Python/R/SQL碼農(nóng)。因此,數(shù)據(jù)營不得不改善,否則將冒成為另一種鳳凰城大學(xué)的風(fēng)險(xiǎn)。
10. 對有關(guān)數(shù)據(jù)的基礎(chǔ)建設(shè)的攻擊將會(huì)從竊取或清除轉(zhuǎn)變?yōu)樾薷臄?shù)據(jù)。如果安全漏洞沒有被修繕,某些攻擊將從物聯(lián)網(wǎng)設(shè)備開始。