自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學家須知的19個機器學習算法

譯文
人工智能 機器學習 算法
我們討論了機器學習算法、及其不同的分類,其中包括:回歸算法、基于實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關(guān)聯(lián)規(guī)則學習算法、人工神經(jīng)網(wǎng)絡(luò)算法、深度學習算法、降維算法、模型融合算法、監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、樸素貝葉斯分類器算法等。

那些數(shù)據(jù)科學家須知的19個機器學習算法

【51CTO.com快譯】機器學習算法介紹

在機器學習算法的領(lǐng)域,我們一般采用兩種方法來進行分類,它們是:

  • 第一種是根據(jù)學習的方式,進行算法分類。
  • 第二種是根據(jù)形式或功能的相似性,進行算法分類。

一般情況下,這兩大類不分伯仲。此次,我們主要探究的是根據(jù)相似度分類的算法、及其各種不同的類型。

按學習方式進行分類的機器學習算法

一般而言,同一種算法會根據(jù)不同的互動體驗,對一個問題采取不同的建模方式。而這并不會影響到我們對于輸入數(shù)據(jù)的調(diào)用。同時,一些算法會經(jīng)常出現(xiàn)在時下流行的機器學習、和人工智能領(lǐng)域的教科書中。

因此,面對不同的應用場景,人們首先需要考慮的是一個算法所適用的學習方式。在下文中,我們將探討機器學習算法的幾個主要學習方式,以及不同算法所適用的問題場景與用例。通過綜合考慮各種輸入數(shù)據(jù)所扮演的“角色”、和模型準備的不同流程,您將會根據(jù)自己的問題選擇出最適合的一種算法,并最終得到最佳結(jié)果。

下面先讓我們來看看三種不同的學習方式:

監(jiān)督學習

在監(jiān)督式學習下,輸入數(shù)據(jù)被稱為“訓練數(shù)據(jù)”,它們都具有已知的標簽或結(jié)果,例如“垃圾郵件”、“非垃圾郵件”、或某個時刻的股票價格等。監(jiān)督式學習通過一個訓練的過程,來建立一種預測模型。它們通過將預測結(jié)果與“訓練數(shù)據(jù)”的實際結(jié)果相比較,來不斷的修正預測結(jié)果。因此,該訓練過程會持續(xù)下去,直至模型達到了預期的水平。

  • 常見應用場景包括:分類問題和回歸問題。
  • 常見算法包括:邏輯回歸(Logistic Regression)和反向傳遞神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)

無監(jiān)督學習

在非監(jiān)督式學習中,輸入數(shù)據(jù)并不被標記,也沒有某個已知的結(jié)果。我們必須通過推導輸入數(shù)據(jù)的內(nèi)在結(jié)構(gòu),來準備相應的模型。我們可以提取出一些通用的規(guī)則,同時也可以通過某個數(shù)學過程,來減少冗余。

  • 常見的應用場景包括:聚類、降維、和關(guān)聯(lián)規(guī)則學習。
  • 常見算法包括:先驗(Apriori)算法和K-均值(k-Means)算法。

半監(jiān)督學習

在半監(jiān)督式學習中,輸入數(shù)據(jù)是被標記和未標記樣本的混合物。它同樣具有期望的預測目標。該模式必須通過學習不同的結(jié)構(gòu),來組織各種數(shù)據(jù),從而做出預測。

  • 常見應用場景包括:分類問題和回歸問題。
  • 常見算法包括:一些針對其他靈活的監(jiān)督式學習算法的延伸,這些算法試圖對未標識數(shù)據(jù)進行建模。

按相似性進行分類的算法

機器學習算法通常會按照功能的相似性進行分類,其中包括:基于(決策)樹的方法、和神經(jīng)網(wǎng)絡(luò)的啟發(fā)方法。我個人認為這是對機器學習算法最有效、最實用的分類方法。當然,也有些算法會橫跨多個類別,例如:學習矢量量化(Learning Vector Quantization)。該算法是神經(jīng)網(wǎng)絡(luò)方法和基于實例方法的結(jié)合,常被用來描述回歸與聚類的問題、以及算法的類型。此類算法的特點是不會重復地去調(diào)用相同的算法。

1.回歸算法

回歸算法關(guān)注的是對變量之間的關(guān)系進行建模。我們可以使用該模型,來對各種預測中產(chǎn)生的誤差指標予以改善。

這些方法都是統(tǒng)計學方面的“主力軍”,同時也是統(tǒng)計機器學習方面的“利器”。由于“回歸”既可以指問題的類型、也可以指算法的問題,因此在指代上比較容易混淆。最流行的回歸算法包括:

  • 普通最小二乘回歸(Ordinary Least Square Regression,OLSR)
  • 線性回歸(Linear Regression)
  • 邏輯回歸(Logistic Regression)
  • 逐步式回歸(Stepwise Regression)
  • 多元自適應回歸樣條(Multivariate Adaptive Regression Splines,MARS)
  • 本地散點平滑估計(Locally Estimated Scatterplot Smoothing,LOESS)

2.基于實例的算法

該模型使用各種實例的訓練數(shù)據(jù),來處理決策問題。其方法是構(gòu)建出一個樣本數(shù)據(jù)的數(shù)據(jù)庫。它通過將新數(shù)據(jù)與樣本數(shù)據(jù)進行比較,采用相似性的方法找到最佳的匹配、并進行預測。我們會存儲不同實例的表現(xiàn)狀態(tài),并在實例之間使用相似性來進行衡量。因此,基于實例的算法也被稱為“贏家通吃的學習”或“基于記憶的學習”。最流行的基于實例的算法包括:

  • k-近鄰(k-Nearest Neighbor,kNN)
  • 學習矢量量化(Learning Vector Quantization,LVQ)
  • 自組織映射(Self-Organizing Map,SOM)
  • 局部加權(quán)學習(Locally Weighted Learning,LWL)

3.正則化算法

該方法是其他算法(通常指回歸算法)的延伸,它采用的“懲罰”模型與其復雜度有關(guān),即:模型越是簡單、就越容易泛化(generalizing)。我將它在此單獨列舉出來的原因是:它不但廣受歡迎、功能強大,而且只是對其他方法進行了簡單修改。最流行的正則化算法包括:

  • 嶺回歸(Ridge Regression)
  • Least Absolute Shrinkage and Selection Operator,LASSO
  • 彈性網(wǎng)絡(luò)(Elastic Net)
  • 最小角度回歸(Least-Angle Regression,LARS)

4.決策樹算法

決策樹方法是基于數(shù)據(jù)屬性的實際值,來構(gòu)建的決策模型。樹狀的結(jié)構(gòu)會不斷分叉,直到根據(jù)給定的記錄作出了預測抉擇。決策樹會對分類和回歸問題的數(shù)據(jù)進行訓練。由于決策樹具有速度快、結(jié)果準的特性,因此它成為最受歡迎的機器學習算法之一。最流行的決策樹算法包括:

  • 分類與回歸樹(Classification and Regression Tree,CART)
  • Iterative Dichotomiser 3,ID3
  • C4.5和C5.0
  • 卡方自動交互檢測(Chi-squared Automatic Interaction Detection,CHAID)
  • 決策樹樁(單層決策樹,Decision Stump)
  • M5
  • 條件決策樹(Conditional Decision Trees)

5.貝葉斯算法

此類算法適用于那些貝葉斯定理的問題,例如分類與回歸。最流行的貝葉斯算法包括:

  • 樸素貝葉斯(Naive Bayes)
  • 高斯樸素貝葉斯(Gaussian Naive Bayes)
  • 多項式樸素貝葉斯(Multinomial Naive Bayes)
  • Averaged One-Dependence Estimators,AODE
  • 貝葉斯信念網(wǎng)絡(luò)(Bayesian Belief Network,BBN)
  • 貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)

6.聚類算法

聚類跟回歸一樣,既可以用來描述問題的類型,又可以指代方法的類型。此方法采用基于中心點(centroid-based)或分層級(hierarchal)等建模方法,而所有的方法都與數(shù)據(jù)固有的結(jié)構(gòu)的使用有關(guān)。其目標是將數(shù)據(jù)按照它們之間的最大共性進行分組。最流行的聚類算法包括:

  • K-均值(k-Means)
  • K-中位數(shù)(k-Medians)
  • 期望最大化(Expectation Maximisation,EM)
  • 分層聚類(Hierarchical Clustering)

7.關(guān)聯(lián)規(guī)則學習算法

關(guān)聯(lián)規(guī)則的學習方法旨在提取各種規(guī)則,即:通過觀察,最好地描述出數(shù)據(jù)變量之間的關(guān)系。這些規(guī)則能夠從大型多維數(shù)據(jù)集里,發(fā)現(xiàn)可以被組織所利用到的重要的、且實用的各種關(guān)聯(lián)。最流行的關(guān)聯(lián)規(guī)則學習算法包括:

  • 先驗算法(Apriori algorithm)
  • Eclat算法

8.人工神經(jīng)網(wǎng)絡(luò)算法

該算法是由生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所啟發(fā)的模型。它們是一類用于解決回歸和分類等問題的模式匹配。由于它結(jié)合了數(shù)以百計的算法和變量,因此它會包含一個極其龐大的子集。最流行的人工神經(jīng)網(wǎng)絡(luò)算法包括:

  • 感知(Perceptron)
  • 反向傳播(Back-Propagation)
  • Hopfield網(wǎng)絡(luò)
  • 徑向基函數(shù)網(wǎng)絡(luò)(Radial Basis Function Network,RBFN)

9.深度學習算法

深度學習算法是人工神經(jīng)網(wǎng)絡(luò)的升級版,它充分利用了廉價的計算力。它們涉及到搭建規(guī)模更為龐大、結(jié)構(gòu)更為復雜的神經(jīng)網(wǎng)絡(luò)。最流行的深度學習算法包括:

  • 深度玻爾茲曼機(Deep Boltzmann Machine,DBM)
  • 深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)
  • 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)
  • 棧式自動編碼器(Stacked Auto-Encoder)

10.降維算法

與聚類方法類似,降維算法尋找數(shù)據(jù)中的固有結(jié)構(gòu)。一般情況下,它對于可視化的三維數(shù)據(jù)比較實用。我們可以在監(jiān)督學習方法中使用它,以實現(xiàn)分類和回歸。最流行的降維算法包括:

  • 主成分分析(Principal Component Analysis,PCA)
  • 主成分回歸(Principal Component Regression,PCR)
  • 偏最小二乘回歸(Partial Least Squares Regression,PLSR)
  • Sammon Mapping
  • 多維尺度(Multidimensional Scaling,MDS)
  • 投影尋蹤(Projection Pursuit)
  • 線性判別分析(Linear Discriminant Analysis,LDA)
  • 混合判別分析(Mixture Discriminant Analysis,MDA)
  • 二次判別分析(Quadratic Discriminant Analysis,QDA)
  • 靈活判別分析(Flexible Discriminant Analysis,F(xiàn)DA)

11.模型融合算法

該算法是由多個經(jīng)過訓練的弱模型所組成。它將單獨的預測以某種方式整合成為一個更好的??梢?,模型融合算法是一類非常強大、且備受歡迎的技術(shù)。最流行的模型融合算法包括:

  • Boosting
  • Bootstrapped Aggregation (Bagging)
  • AdaBoost
  • 堆疊泛化(混合)Stacked Generalization (blending)
  • Gradient Boosting Machines (GBM)
  • Gradient Boosted Regression Trees (GBRT)
  • 隨機森林(Random Forest)

常見的機器學習算法一覽

1.樸素貝葉斯分類器算法

一般情況下,我們很難對某個網(wǎng)頁、文檔、或電子郵件進行準確的分類,特別是那些含有冗長的文字信息、且需要手動分揀的內(nèi)容。而這恰好是樸素貝葉斯分類器算法的用武之地。而且,其分類器具有為某個元素分配相似度值的功能。

例如,垃圾郵件過濾就是樸素貝葉斯算法的一個普遍的應用。此處的垃圾郵件過濾器就充當了分類器的作用,給所有的郵件分配“垃圾郵件”或“非垃圾郵件”的標簽。大體說來,它是相似度類型機器學習算法中最為流行的一種。其工作基本原理就是基于貝葉斯定理,對各種單詞予以簡單分類,實現(xiàn)對內(nèi)容的主觀分析。

2.K-均值聚類算法

K-均值是一種使用無監(jiān)督機器學習的聚類分析算法。同時,它屬于一種非確定性的迭代方法。該算法對于給定數(shù)據(jù)集里的預設(shè)數(shù)量類別(如k)進行操作。因此,K-均值算法的輸出是在聚類中,從輸入數(shù)據(jù)分離出的k個劃分簇。

3.支持向量機算法

該算法是一種使用監(jiān)督機器學習的算法,可用于分類和回歸分析。SVM(支持向量機,https://data-flair.training/blogs/svm-support-vector-machine-tutorial/)能夠?qū)θ魏涡碌臄?shù)據(jù)集進行分類。其工作原理是:通過將訓練數(shù)據(jù)集分成不同的類別,以發(fā)現(xiàn)某個線性特征,并由多個線性構(gòu)造出一些超平面。因此,SVM需要最大化各種類別之間的距離,即:標識出邊緣的最大化,以增加看不見數(shù)據(jù)的概率。SVM一般分為兩類:

  • 線性SVM – 通過某個超平面,將訓練數(shù)據(jù)線性分隔出類別。
  • 非線性SVM – 無法通過某個超平面,對訓練數(shù)據(jù)進行分隔。

4.先驗算法

該算法是一種無監(jiān)督式的機器學習算法。我們使用它從給定的數(shù)據(jù)集中產(chǎn)生關(guān)聯(lián)規(guī)則。這里的關(guān)聯(lián)規(guī)則是指:“如果A項發(fā)生,則B項也會發(fā)生”的一定概率,通常以IF_THEN的形式產(chǎn)生。

例如:如果某人買了一個iPad,那么他也會去購買一個iPad外殼來保護它。因此,該算法的基本工作原理是:如果某項經(jīng)常發(fā)生,那么該項的所有子集也會頻繁發(fā)生。反之,如果某項只是偶爾發(fā)生,那么其所有超集也極少會發(fā)生。

5.線性回歸算法

該算法能夠通過兩個變量之間的關(guān)系,展示一個變量(自變量)是如何影響另一個變量(因變量)的,即它們之間的依賴關(guān)系??v然自變量不斷變化,因變量卻時常有相似的預測因子。

6.決策樹算法

我們通常用一個圖形來表示決策樹,即:通過使用分支的方法,來說明某個決策的所有可能結(jié)果。在決策樹中,每一個分支節(jié)點都代表對于某個屬性的測試性結(jié)果。同時,葉子節(jié)點則代表特定類別的標簽,即:計算了所有屬性之后,所作出的決策。此外,我們可通過從根到葉子節(jié)點的路徑來表示某一種分類。

7.隨機森林算法

這是轉(zhuǎn)向(go-to)類型的機器學習算法。我們使用一種bagging的方法,來創(chuàng)建一組帶有數(shù)據(jù)的隨機子集的決策樹。我們需要通過隨機森林算法,針對某個模型數(shù)據(jù)集上的隨機樣本進行多次訓練,綜合所有決策樹的輸出結(jié)果,并對每一個決策樹的結(jié)果進行輪詢投票(polling),以實現(xiàn)良好的最終預測效果。

8.邏輯回歸算法

此類算法屬于一種廣義的線性回歸,它將邏輯函數(shù)應用到了某些特征的線性組合之中,通過各種預測變量,來預測出已分類的因變量結(jié)果,同時也描述出自變量的權(quán)重概率。

結(jié)論

綜上所述,我們討論了機器學習算法、及其不同的分類,其中包括:回歸算法、基于實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關(guān)聯(lián)規(guī)則學習算法、人工神經(jīng)網(wǎng)絡(luò)算法、深度學習算法、降維算法、模型融合算法、監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、樸素貝葉斯分類器算法、K-均值聚類算法、支持向量機算法、先驗算法、線性回歸和邏輯回歸。相信我們上述圖文并茂的講解方式一定能讓您有所收獲。

原文標題:Top Machine Learning Algorithms You Should Know to Become a Data Scientist ,作者:Rinu Gour

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2018-03-27 11:02:55

2017-08-21 17:25:57

數(shù)據(jù)科學家深度學習計算機視覺

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2020-12-18 07:42:30

機器學習數(shù)據(jù)科學

2020-03-20 14:40:48

數(shù)據(jù)科學Python學習

2018-05-11 14:44:30

機器學習數(shù)據(jù)科學家算法

2020-07-19 15:17:41

機器學習技術(shù)工程師

2020-03-13 14:13:48

機器學習數(shù)據(jù)科學編程

2016-09-22 14:28:33

數(shù)據(jù)科學家算法

2012-12-26 10:51:20

數(shù)據(jù)科學家

2024-04-25 16:01:17

機器學習人工智能

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2012-12-06 15:36:55

CIO

2016-03-10 13:56:42

數(shù)據(jù)科學數(shù)據(jù)科學家數(shù)據(jù)分析

2020-08-03 10:37:01

Python編程語言工具

2016-04-11 14:15:06

數(shù)據(jù)科學數(shù)據(jù)挖掘工具

2015-08-25 13:20:29

數(shù)據(jù)科學

2018-01-25 14:19:32

深度學習數(shù)據(jù)科學遷移學習

2018-10-16 14:37:34

數(shù)據(jù)科學家數(shù)據(jù)分析數(shù)據(jù)科學
點贊
收藏

51CTO技術(shù)棧公眾號