KDnuggets 官方調(diào)查:數(shù)據(jù)科學(xué)家最常用的十種算法
***一期的 KDnuggets 調(diào)查展示了一份數(shù)據(jù)科學(xué)家使用度***的算法列表,這份列表中包含了很多驚喜,包括最學(xué)術(shù)的算法和面向產(chǎn)業(yè)化的算法。
哪些方法/算法是您在過(guò)去 12 個(gè)月中運(yùn)用到一個(gè)實(shí)際的數(shù)據(jù)科學(xué)相關(guān)的應(yīng)用程序中的?
這是基于 844 個(gè)投票者的結(jié)果。
排名前十的算法以及他們的投票者的比例分布如下:
圖 1 :數(shù)據(jù)科學(xué)家使用度***的 10 大算法
每個(gè)受訪者平均使用 8.1 個(gè)算法,這相比于 2011 的相似調(diào)查顯示的結(jié)果有了巨大的增長(zhǎng)。
與 2011 年關(guān)于數(shù)據(jù)分析/數(shù)據(jù)挖掘的調(diào)查相比,我們注意到最常用的方法仍然是回歸、聚類(lèi)、決策樹(shù)/Rules 和可視化。相對(duì)來(lái)說(shuō)***的增長(zhǎng)是由 (pct2016 /pct2011 – 1) 測(cè)定的以下算法:
- Boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,同比增長(zhǎng) 40%
- 文本挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,同比增長(zhǎng) 30%
- 可視化,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長(zhǎng) 27%
- 時(shí)間序列/序列分析,從 2011 年的 29.6% 至 2016 年的 37.0%,同比增長(zhǎng) 25%
- 異常/偏差檢測(cè),從 2011 年的 16.4% 至 2016 年的 19.5%,同比增長(zhǎng) 19%
- 集成方法,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長(zhǎng) 19%
- 支持向量機(jī),從 2011 年的 28.6% 至 2016 年的 33.6%,同比增長(zhǎng) 18%
- 回歸,從 2011 年的 57.9% 至 2016 年的 67.1%,同比增長(zhǎng) 16%
***算法在 2016 年的調(diào)查中有了新的上榜名單:
- K-近鄰,46%
- 主成分分析,43%
- 隨機(jī)森林,38%
- 優(yōu)化,24%
- 神經(jīng)網(wǎng)絡(luò) – 深度學(xué)習(xí),19%
- 奇異值分解,16%
***幅下降的有:
- 關(guān)聯(lián)規(guī)則,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
- 隆起造型,從 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
- 因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
- 生存分析,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
下表顯示了不同的算法類(lèi)型的使用:監(jiān)督算法、無(wú)監(jiān)督算法、元算法,以及職業(yè)類(lèi)型決定的對(duì)算法的使用。我們排除 NA(4.5%)和其他(3%)的職業(yè)類(lèi)型。
表 1:根據(jù)職業(yè)類(lèi)型顯示的不同算法使用度
我們注意到,幾乎每個(gè)人都使用監(jiān)督學(xué)習(xí)算法。
政府和產(chǎn)業(yè)業(yè)數(shù)據(jù)科學(xué)家比學(xué)生和學(xué)術(shù)研究人員使用更多不同類(lèi)型的算法,而產(chǎn)業(yè)數(shù)據(jù)科學(xué)家們更傾向于使用元算法。
接下來(lái),我們根據(jù)職業(yè)類(lèi)型分析了前 10 名的算法+深度學(xué)習(xí)使用情況。
表 2:根據(jù)職業(yè)類(lèi)型分類(lèi)的 10 大算法+深度學(xué)習(xí)使用情況
為了更明顯的看到差異,我們計(jì)算了具體職業(yè)分類(lèi)相比于平均算法使用度的一個(gè)算法偏差,即偏差(ALG,類(lèi)型)=使用(ALG,類(lèi)型)/使用(ALG,所有的)
圖 2:職業(yè)對(duì)算法的使用偏好
我們注意到,產(chǎn)業(yè)數(shù)據(jù)科學(xué)家們更傾向于使用回歸、可視化、統(tǒng)計(jì)、隨機(jī)森林和時(shí)間序列。政府/非營(yíng)利更傾向于使用可視化、主成分分析和時(shí)間序列。學(xué)術(shù)研究人員更傾向于使用主成分分析和深度學(xué)習(xí)。學(xué)生普遍使用更少的算法,但多為文本挖掘和深度學(xué)習(xí)。
接下來(lái),我們看看某一具體地域的參與度,表示整體的 KDnuggets 的用戶(hù):
- 美國(guó)/加拿大,40%
- 歐洲,32%
- 亞洲,18%
- 拉丁美洲,5%
- 非洲/中東,3.4%
- 澳洲/新西蘭,2.2%
由于在 2011 年的調(diào)查中,我們將產(chǎn)業(yè)/政府分在了一組,而將學(xué)術(shù)研究/學(xué)生分在了第二組,并計(jì)算了算法對(duì)于業(yè)界/政府的親切度:
因此親切度為 0 的算法表示它在產(chǎn)業(yè)/政府和學(xué)術(shù)研究人員或?qū)W生之間的使用情況對(duì)等。越高 IG 親切度表示算法越被產(chǎn)業(yè)界普遍使用,反之越接近「學(xué)術(shù)」。
最「產(chǎn)業(yè)」的算法是:
- 異常檢測(cè),1.61
- 生存分析,1.39
- 因子分析,0.83
- 時(shí)間序列/序列,0.69
- 關(guān)聯(lián)規(guī)則,0.5
而 uplifting modeling 又是最「產(chǎn)業(yè)的算法」,令人驚訝的發(fā)現(xiàn)是,它的使用率極低 – 只有 3.1% – 是本次調(diào)查的算法中***的。
最學(xué)術(shù)的算法是:
- 常規(guī)神經(jīng)網(wǎng)絡(luò),-0.35
- 樸素貝葉斯,-0.35
- 支持向量機(jī),-0.24
- 深度學(xué)習(xí),-0.19
- EM,-0.17
下圖顯示了所有的算法及其產(chǎn)業(yè)/學(xué)術(shù)親切度。
圖 3:KDnuggets 投票:最常被數(shù)據(jù)科學(xué)家使用的算法:產(chǎn)業(yè)界 VS 學(xué)術(shù)界
下表有關(guān)于算法的細(xì)節(jié)、兩次調(diào)查中使用算法的比例、以及像上面解釋的產(chǎn)業(yè)親切度。
接下來(lái)的圖表展示了算法的細(xì)節(jié),按列
N:根據(jù)使用度排名
- 算法:算法名稱(chēng),
- 類(lèi)型:S – 監(jiān)督,U – 無(wú)監(jiān)督,M – 元,Z – 其他,
- 在 2016 年調(diào)查中使用這種算法的調(diào)查者比例
- 在 2011 年調(diào)查中使用這種算法的調(diào)查者比例
- 變動(dòng)(%2016 年/2011% – 1),
- 產(chǎn)業(yè)親切度(如上所述)

表 3:KDnuggets 2016 調(diào)查:數(shù)據(jù)科學(xué)家使用的算法