自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="2wxqm"><tt id="2wxqm"></tt></abbr>

<kbd id="2wxqm"><i id="2wxqm"></i></kbd>

<cite id="2wxqm"></cite>

<sub id="2wxqm"></sub><cite id="2wxqm"><track id="2wxqm"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)科學(xué)家用得最多的十種數(shù)據(jù)挖掘算法

作者：佚名 2017-06-01 16:25:36

大數(shù)據(jù) 算法

產(chǎn)業(yè)數(shù)據(jù)科學(xué)家們更傾向于使用回歸、可視化、統(tǒng)計(jì)、隨機(jī)森林和時(shí)間序列。政府/非營利更傾向于使用可視化、主成分分析和時(shí)間序列。學(xué)術(shù)研究人員更傾向于使用主成分分析和深度學(xué)習(xí)。學(xué)生普遍使用更少的算法，但多為文本挖掘和深度學(xué)習(xí)。

圖 1 ：數(shù)據(jù)科學(xué)家使用度***的 10 大算法

文末有全部算法的集合列表

每個(gè)受訪者平均使用 8.1 個(gè)算法，這相比于 2011 的相似調(diào)查顯示的結(jié)果有了巨大的增長

與 2011 年關(guān)于數(shù)據(jù)分析/數(shù)據(jù)挖掘的調(diào)查相比，我們注意到最常用的方法仍然是回歸、聚類、決策樹/Rules 和可視化。相對來說***的增長是由 (pct2016 /pct2011 – 1) 測定的以下算法：

Boosting，從 2011 年的 23.5% 至 2016 年的 32.8%，同比增長 40%
文本挖掘，從 2011 年的 27.7% 至 2016 年的 35.9%，同比增長 30%
可視化，從 2011 年的 38.3% 至 2016 年的 48.7%，同比增長 27%
時(shí)間序列/序列分析，從 2011 年的 29.6% 至 2016 年的 37.0%，同比增長 25%
異常/偏差檢測，從 2011 年的 16.4% 至 2016 年的 19.5%，同比增長 19%
集成方法，從 2011 年的 28.3%至 2016 年的 33.6%，同比增長 19%
支持向量機(jī)，從 2011 年的 28.6% 至 2016 年的 33.6%，同比增長 18%
回歸，從 2011 年的 57.9% 至 2016 年的 67.1%，同比增長 16%

***算法在 2016 年的調(diào)查中有了新的上榜名單：

K-近鄰，46%
主成分分析，43%
隨機(jī)森林，38%
優(yōu)化，24%
神經(jīng)網(wǎng)絡(luò) – 深度學(xué)習(xí)，19%
奇異值分解，16%

***幅下降的有：

關(guān)聯(lián)規(guī)則，從 2011 年的 28.6% 至 2016 年的 15.3%，同比下降 47%
隆起造型，從 2011 年的 4.8% 至 2016 年的 3.1%，同比下降 36%
因素分析，從 2011 年的 18.6% 至 2016 年的 14.2%，同比下降 24%
生存分析，從 2011 年的 9.3% 至 2016 年的 7.9%，同比下降 15%

下表顯示了不同的算法類型的使用：監(jiān)督算法、無監(jiān)督算法、元算法，以及職業(yè)類型決定的對算法的使用。我們排除 NA(4.5%)和其他(3%)的職業(yè)類型。

職業(yè)類型% 投票者比例平均算法使用個(gè)數(shù)% 監(jiān)督算法使用度% 無監(jiān)督算法使用度% 元使用度%其他方法使用度

表 1：根據(jù)職業(yè)類型顯示的不同算法使用度

我們注意到，幾乎每個(gè)人都使用監(jiān)督學(xué)習(xí)算法。

政府和產(chǎn)業(yè)業(yè)數(shù)據(jù)科學(xué)家比學(xué)生和學(xué)術(shù)研究人員使用更多不同類型的算法，而產(chǎn)業(yè)數(shù)據(jù)科學(xué)家們更傾向于使用元算法。

接下來，我們根據(jù)職業(yè)類型分析了前 10 名的算法+深度學(xué)習(xí)使用情況。

表 2：根據(jù)職業(yè)類型分類的 10 大算法+深度學(xué)習(xí)使用情況

為了更明顯的看到差異，我們計(jì)算了具體職業(yè)分類相比于平均算法使用度的一個(gè)算法偏差，即偏差(ALG，類型)=使用(ALG，類型)/使用(ALG，所有的)

圖 2：職業(yè)對算法的使用偏好

我們注意到，產(chǎn)業(yè)數(shù)據(jù)科學(xué)家們更傾向于使用回歸、可視化、統(tǒng)計(jì)、隨機(jī)森林和時(shí)間序列。政府/非營利更傾向于使用可視化、主成分分析和時(shí)間序列。學(xué)術(shù)研究人員更傾向于使用主成分分析和深度學(xué)習(xí)。學(xué)生普遍使用更少的算法，但多為文本挖掘和深度學(xué)習(xí)。

接下來，我們看看某一具體地域的參與度，表示整體的 KDnuggets 的用戶：

美國/加拿大，40%
歐洲，32%
亞洲，18%
拉丁美洲，5%
非洲/中東，3.4%
澳洲/新西蘭，2.2%

由于在 2011 年的調(diào)查中，我們將產(chǎn)業(yè)/政府分在了一組，而將學(xué)術(shù)研究/學(xué)生分在了第二組，并計(jì)算了算法對于業(yè)界/政府的親切度：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)  
------------------------------- - 1  
N(Ind_Gov) / N(Aca_Stu)

因此親切度為 0 的算法表示它在產(chǎn)業(yè)/政府和學(xué)術(shù)研究人員或?qū)W生之間的使用情況對等。越高 IG 親切度表示算法越被產(chǎn)業(yè)界普遍使用，反之越接近「學(xué)術(shù)」。

最「產(chǎn)業(yè)」的算法是：

異常檢測，1.61
生存分析，1.39
因子分析，0.83
時(shí)間序列/序列，0.69
關(guān)聯(lián)規(guī)則，0.5

而 uplifting modeling 又是最「產(chǎn)業(yè)的算法」，令人驚訝的發(fā)現(xiàn)是，它的使用率極低 – 只有 3.1% – 是本次調(diào)查的算法中***的。

最學(xué)術(shù)的算法是：

常規(guī)神經(jīng)網(wǎng)絡(luò)，-0.35
樸素貝葉斯，-0.35
支持向量機(jī)，-0.24
深度學(xué)習(xí)，-0.19
EM，-0.17

下圖顯示了所有的算法及其產(chǎn)業(yè)/學(xué)術(shù)親切度。

圖 3：KDnuggets 投票：最常被數(shù)據(jù)科學(xué)家使用的算法：產(chǎn)業(yè)界 VS 學(xué)術(shù)界

下表有關(guān)于算法的細(xì)節(jié)、兩次調(diào)查中使用算法的比例、以及像上面解釋的產(chǎn)業(yè)親切度。

接下來的圖表展示了算法的細(xì)節(jié)，按列

N：根據(jù)使用度排名
算法：算法名稱，
類型：S – 監(jiān)督，U – 無監(jiān)督，M – 元，Z – 其他，
在 2016 年調(diào)查中使用這種算法的調(diào)查者比例
在 2011 年調(diào)查中使用這種算法的調(diào)查者比例
變動(%2016 年/2011% – 1)，
產(chǎn)業(yè)親切度(如上所述)

表 3：KDnuggets 2016 調(diào)查：數(shù)據(jù)科學(xué)家使用的算法

責(zé)任編輯：武曉燕來源： 36大數(shù)據(jù)

數(shù)據(jù)挖掘算法

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="xijgm"></pre>