2017年頂級數(shù)據(jù)科學與機器學習方法排行榜
譯文【51CTO.com快譯】根據(jù)統(tǒng)計,目前受訪者選擇的最常用方法包括回歸、聚類、可視化、決策樹/規(guī)則以及隨機森林; 只有20%的受訪者使用深度學習方法; 我們同時對各種方法在“行業(yè)”與“學術(shù)”層面的普及度進行了匯總。
本次調(diào)查的問題非常簡單:
您在過去十二個月中曾在實際應(yīng)用當中選擇哪些數(shù)據(jù)科學/機器學習方法與工具?
根據(jù)732名受訪者提供的結(jié)果,得出以下論斷:
2017年應(yīng)用范圍最廣的十大數(shù)據(jù)科學與機器學習方法
本次調(diào)查的受訪者平均使用7.7種工具/方法。
接下來,我們比較了今年調(diào)查當中使用范圍最廣的前16種方法,并將其與去年的結(jié)果進行了比對,如下圖。
2017年與2016年前16大數(shù)據(jù)科學/機器學習方法比對
我們注意到,隨機森林、可視化與深度學習的使用比例顯著增加,而K-nn、PCA以及Boosting則有所下降。梯度推進機今年則***上榜。
盡管取得了令人矚目的成功,但根據(jù)此次調(diào)查,僅有20%的受訪者實際使用深度學習方法。
與去年相比,今年增長幅度***的工具/方法包括:
- 貝葉斯方法,增長49%,由2016年的11.7%增長至2017年的17.5%。
- 隨機森林,增長32%,由2016年的35.1%增長至2017年的46.2%。
- 深度學習,增長20%,由2016年的17.2%增長至2017年的20.6%。
- 生存分析,增長13.5%,由2016年的7.5%增長至2017年的8.5%。
- 可視化,增長9%,由2016年的46.7%增長至2017年的51.0%。
2017年的榜單還迎來一眾全新方法,具體包括:
- 梯度推進機, 20.4%
- 卷積網(wǎng)絡(luò), 15.8%
- 遞歸神經(jīng)網(wǎng)絡(luò)(簡稱RNN), 10.5%
- 隱馬爾可夫模型 (簡稱HMM), 4.6%
- 強化學習, 4.2%
- 馬爾可夫邏輯網(wǎng)絡(luò), 2.5%
- 生成對抗網(wǎng)絡(luò) (簡稱GAN), 2.3%
使用比例下降最顯著的包括:
- 奇怪值分解(簡稱SVD),下降48%,由2016年的15.4%下降至2017年的8.1%
- 圖形/鏈結(jié)/社交網(wǎng)絡(luò)分析,下降42%,由2016年的14.0%下降至2017年的8.1%
- 遺傳算法/進化方法,下降42%,由2016年的8.3%下降至2017年的4.8%
- EM,下降36%,由2016年的6.4%下降至2017年的4.1%
- 優(yōu)化,下降26%,由2016年的23.2%下降至2017年的17.2%
- Boosting,下降20%,由2016年的30.6%下降至2017年的24.6%
- PCA,下降14%,由2016年的40.5%下降至2017年的34.7%
行業(yè)歸屬
各行業(yè)的方法/工具使用情況為:
- 行業(yè)/個人,63%,平均工具使用量為8.3款
- 學生,15%,平均工具使用量為5.7款
- 研究人員/學術(shù)人員,11%,平均工具使用量為7.8款
- 其它,11%,平均工具使用量為7.1款
備注:只有35名受訪者選擇了政府/非營利性組織——由于樣本規(guī)模太小,因此這里我將其納入“其它”類別當中。
下面為16種排名靠前的方法及其偏差傾向結(jié)果
具體計算方法為:偏差(方法,歸屬)=比例(方法,歸屬)/比例(方法)-1
如果偏差值為正,則意味著該方法的使用頻率高于平均水平。如果為負值,則代表該方法的使用頻率低于平均水平。
舉例來說,支持向量機(簡稱SVM)擁有28.7%的受訪者使用比例,但在研究人員群體內(nèi)則擁有44.4%的使用比例,因此偏差(SVM,研究人員)=44.4%/28.7% - 1 = 54.9%.
前16大數(shù)據(jù)科學方法及其歸屬關(guān)系傾向性
接下來,我們將考察各項數(shù)據(jù)科學方法在行業(yè)/學術(shù)界之間的吸引力。
以下圖表所示為各項數(shù)據(jù)科學方法在各行業(yè)與學術(shù)界(學術(shù)界定義為學生+研究人員群體)中的吸引力排名:行業(yè)吸引力(方法)=比例(方法,行業(yè))/比例(方法,學術(shù)界)-1
其中“行業(yè)”使用頻率***的方法為:
增量建模(連續(xù)第二年登頂)
- 異常/偏差檢測
- 梯度推進機
- “學術(shù)界”最青睞與深度學習相關(guān)的先進議題:
- 生成對抗網(wǎng)絡(luò) (簡稱GAN)
- 強化學習
- 遞歸神經(jīng)網(wǎng)絡(luò)(簡稱RNN)
- 卷積網(wǎng)絡(luò)
數(shù)據(jù)科學方法及其行業(yè)/學術(shù)界吸引力
條狀圖形的寬度對應(yīng)其使用比例,顏色則對應(yīng)行業(yè)/學術(shù)界吸引力。
***,全球各區(qū)域的參與度為:
- 歐洲, 39%
- 美國/加拿大, 33%
- 亞洲, 14%
- 南美洲, 6.0%
- 澳大利亞/新西蘭, 4.8%
- 非洲/中東, 3.8%
下表所示為所有方法的具體數(shù)據(jù),按總體使用比例排序。
表中各列分別為:
方法:數(shù)據(jù)科學方法
- 2017年與2016年變化百分比:與2016年相比的使用比例變化情況
- 總體使用情況百分比:受訪者使用該方法的百分比
- 行業(yè)使用情況百分比:行業(yè)類受訪者使用該方法的百分比
- 學生使用情況百分比:學生受訪者使用該方法的百分比
- 研究人員使用情況百分比:研究人員受訪者使用該方法的百分比
表一:數(shù)據(jù)科學方法使用情況
更多AI內(nèi)容,請關(guān)注公眾號:AI推手
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】