自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="ri6ey"><track id="ri6ey"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)科學家須知的19個機器學習算法

作者：陳峻編譯 2018-10-18 09:00:00

人工智能機器學習算法

我們討論了機器學習算法、及其不同的分類，其中包括：回歸算法、基于實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關(guān)聯(lián)規(guī)則學習算法、人工神經(jīng)網(wǎng)絡(luò)算法、深度學習算法、降維算法、模型融合算法、監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、樸素貝葉斯分類器算法等。

【51CTO.com快譯】機器學習算法介紹

在機器學習算法的領(lǐng)域，我們一般采用兩種方法來進行分類，它們是：

第一種是根據(jù)學習的方式，進行算法分類。
第二種是根據(jù)形式或功能的相似性，進行算法分類。

一般情況下，這兩大類不分伯仲。此次，我們主要探究的是根據(jù)相似度分類的算法、及其各種不同的類型。

按學習方式進行分類的機器學習算法

一般而言，同一種算法會根據(jù)不同的互動體驗，對一個問題采取不同的建模方式。而這并不會影響到我們對于輸入數(shù)據(jù)的調(diào)用。同時，一些算法會經(jīng)常出現(xiàn)在時下流行的機器學習、和人工智能領(lǐng)域的教科書中。

因此，面對不同的應用場景，人們首先需要考慮的是一個算法所適用的學習方式。在下文中，我們將探討機器學習算法的幾個主要學習方式，以及不同算法所適用的問題場景與用例。通過綜合考慮各種輸入數(shù)據(jù)所扮演的“角色”、和模型準備的不同流程，您將會根據(jù)自己的問題選擇出最適合的一種算法，并最終得到最佳結(jié)果。

下面先讓我們來看看三種不同的學習方式：

監(jiān)督學習

在監(jiān)督式學習下，輸入數(shù)據(jù)被稱為“訓練數(shù)據(jù)”，它們都具有已知的標簽或結(jié)果，例如“垃圾郵件”、“非垃圾郵件”、或某個時刻的股票價格等。監(jiān)督式學習通過一個訓練的過程，來建立一種預測模型。它們通過將預測結(jié)果與“訓練數(shù)據(jù)”的實際結(jié)果相比較，來不斷的修正預測結(jié)果。因此，該訓練過程會持續(xù)下去，直至模型達到了預期的水平。

常見應用場景包括：分類問題和回歸問題。
常見算法包括：邏輯回歸(Logistic Regression)和反向傳遞神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)

無監(jiān)督學習

在非監(jiān)督式學習中，輸入數(shù)據(jù)并不被標記，也沒有某個已知的結(jié)果。我們必須通過推導輸入數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，來準備相應的模型。我們可以提取出一些通用的規(guī)則，同時也可以通過某個數(shù)學過程，來減少冗余。

常見的應用場景包括：聚類、降維、和關(guān)聯(lián)規(guī)則學習。
常見算法包括：先驗(Apriori)算法和K-均值(k-Means)算法。

半監(jiān)督學習

在半監(jiān)督式學習中，輸入數(shù)據(jù)是被標記和未標記樣本的混合物。它同樣具有期望的預測目標。該模式必須通過學習不同的結(jié)構(gòu)，來組織各種數(shù)據(jù)，從而做出預測。

常見應用場景包括：分類問題和回歸問題。
常見算法包括：一些針對其他靈活的監(jiān)督式學習算法的延伸，這些算法試圖對未標識數(shù)據(jù)進行建模。

按相似性進行分類的算法

機器學習算法通常會按照功能的相似性進行分類，其中包括：基于(決策)樹的方法、和神經(jīng)網(wǎng)絡(luò)的啟發(fā)方法。我個人認為這是對機器學習算法最有效、最實用的分類方法。當然，也有些算法會橫跨多個類別，例如：學習矢量量化(Learning Vector Quantization)。該算法是神經(jīng)網(wǎng)絡(luò)方法和基于實例方法的結(jié)合，常被用來描述回歸與聚類的問題、以及算法的類型。此類算法的特點是不會重復地去調(diào)用相同的算法。

1.回歸算法

回歸算法關(guān)注的是對變量之間的關(guān)系進行建模。我們可以使用該模型，來對各種預測中產(chǎn)生的誤差指標予以改善。

這些方法都是統(tǒng)計學方面的“主力軍”，同時也是統(tǒng)計機器學習方面的“利器”。由于“回歸”既可以指問題的類型、也可以指算法的問題，因此在指代上比較容易混淆。最流行的回歸算法包括：

普通最小二乘回歸(Ordinary Least Square Regression，OLSR)
線性回歸(Linear Regression)
邏輯回歸(Logistic Regression)
逐步式回歸(Stepwise Regression)
多元自適應回歸樣條(Multivariate Adaptive Regression Splines，MARS)
本地散點平滑估計(Locally Estimated Scatterplot Smoothing，LOESS)

2.基于實例的算法

該模型使用各種實例的訓練數(shù)據(jù)，來處理決策問題。其方法是構(gòu)建出一個樣本數(shù)據(jù)的數(shù)據(jù)庫。它通過將新數(shù)據(jù)與樣本數(shù)據(jù)進行比較，采用相似性的方法找到最佳的匹配、并進行預測。我們會存儲不同實例的表現(xiàn)狀態(tài)，并在實例之間使用相似性來進行衡量。因此，基于實例的算法也被稱為“贏家通吃的學習”或“基于記憶的學習”。最流行的基于實例的算法包括：

k-近鄰(k-Nearest Neighbor，kNN)
學習矢量量化(Learning Vector Quantization，LVQ)
自組織映射(Self-Organizing Map，SOM)
局部加權(quán)學習(Locally Weighted Learning，LWL)

3.正則化算法

該方法是其他算法(通常指回歸算法)的延伸，它采用的“懲罰”模型與其復雜度有關(guān)，即：模型越是簡單、就越容易泛化(generalizing)。我將它在此單獨列舉出來的原因是：它不但廣受歡迎、功能強大，而且只是對其他方法進行了簡單修改。最流行的正則化算法包括：

嶺回歸(Ridge Regression)
Least Absolute Shrinkage and Selection Operator，LASSO
彈性網(wǎng)絡(luò)(Elastic Net)
最小角度回歸(Least-Angle Regression，LARS)

4.決策樹算法

決策樹方法是基于數(shù)據(jù)屬性的實際值，來構(gòu)建的決策模型。樹狀的結(jié)構(gòu)會不斷分叉，直到根據(jù)給定的記錄作出了預測抉擇。決策樹會對分類和回歸問題的數(shù)據(jù)進行訓練。由于決策樹具有速度快、結(jié)果準的特性，因此它成為最受歡迎的機器學習算法之一。最流行的決策樹算法包括：

分類與回歸樹(Classification and Regression Tree，CART)
Iterative Dichotomiser 3，ID3
C4.5和C5.0
卡方自動交互檢測(Chi-squared Automatic Interaction Detection，CHAID)
決策樹樁(單層決策樹，Decision Stump)
M5
條件決策樹(Conditional Decision Trees)

5.貝葉斯算法

此類算法適用于那些貝葉斯定理的問題，例如分類與回歸。最流行的貝葉斯算法包括：

樸素貝葉斯(Naive Bayes)
高斯樸素貝葉斯(Gaussian Naive Bayes)
多項式樸素貝葉斯(Multinomial Naive Bayes)
Averaged One-Dependence Estimators，AODE
貝葉斯信念網(wǎng)絡(luò)(Bayesian Belief Network，BBN)
貝葉斯網(wǎng)絡(luò)(Bayesian Network，BN)

6.聚類算法

聚類跟回歸一樣，既可以用來描述問題的類型，又可以指代方法的類型。此方法采用基于中心點(centroid-based)或分層級(hierarchal)等建模方法，而所有的方法都與數(shù)據(jù)固有的結(jié)構(gòu)的使用有關(guān)。其目標是將數(shù)據(jù)按照它們之間的最大共性進行分組。最流行的聚類算法包括：

K-均值(k-Means)
K-中位數(shù)(k-Medians)
期望最大化(Expectation Maximisation，EM)
分層聚類(Hierarchical Clustering)

7.關(guān)聯(lián)規(guī)則學習算法

關(guān)聯(lián)規(guī)則的學習方法旨在提取各種規(guī)則，即：通過觀察，最好地描述出數(shù)據(jù)變量之間的關(guān)系。這些規(guī)則能夠從大型多維數(shù)據(jù)集里，發(fā)現(xiàn)可以被組織所利用到的重要的、且實用的各種關(guān)聯(lián)。最流行的關(guān)聯(lián)規(guī)則學習算法包括：

先驗算法(Apriori algorithm)
Eclat算法

8.人工神經(jīng)網(wǎng)絡(luò)算法

該算法是由生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所啟發(fā)的模型。它們是一類用于解決回歸和分類等問題的模式匹配。由于它結(jié)合了數(shù)以百計的算法和變量，因此它會包含一個極其龐大的子集。最流行的人工神經(jīng)網(wǎng)絡(luò)算法包括：

感知(Perceptron)
反向傳播(Back-Propagation)
Hopfield網(wǎng)絡(luò)
徑向基函數(shù)網(wǎng)絡(luò)(Radial Basis Function Network，RBFN)

9.深度學習算法

深度學習算法是人工神經(jīng)網(wǎng)絡(luò)的升級版，它充分利用了廉價的計算力。它們涉及到搭建規(guī)模更為龐大、結(jié)構(gòu)更為復雜的神經(jīng)網(wǎng)絡(luò)。最流行的深度學習算法包括：

深度玻爾茲曼機(Deep Boltzmann Machine，DBM)
深度信念網(wǎng)絡(luò)(Deep Belief Networks，DBN)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)
棧式自動編碼器(Stacked Auto-Encoder)

10.降維算法

與聚類方法類似，降維算法尋找數(shù)據(jù)中的固有結(jié)構(gòu)。一般情況下，它對于可視化的三維數(shù)據(jù)比較實用。我們可以在監(jiān)督學習方法中使用它，以實現(xiàn)分類和回歸。最流行的降維算法包括：

主成分分析(Principal Component Analysis，PCA)
主成分回歸(Principal Component Regression，PCR)
偏最小二乘回歸(Partial Least Squares Regression，PLSR)
Sammon Mapping
多維尺度(Multidimensional Scaling，MDS)
投影尋蹤(Projection Pursuit)
線性判別分析(Linear Discriminant Analysis，LDA)
混合判別分析(Mixture Discriminant Analysis，MDA)
二次判別分析(Quadratic Discriminant Analysis，QDA)
靈活判別分析(Flexible Discriminant Analysis，F(xiàn)DA)

11.模型融合算法

該算法是由多個經(jīng)過訓練的弱模型所組成。它將單獨的預測以某種方式整合成為一個更好的?？梢?，模型融合算法是一類非常強大、且備受歡迎的技術(shù)。最流行的模型融合算法包括：

Boosting
Bootstrapped Aggregation (Bagging)
AdaBoost
堆疊泛化(混合)Stacked Generalization (blending)
Gradient Boosting Machines (GBM)
Gradient Boosted Regression Trees (GBRT)
隨機森林(Random Forest)

常見的機器學習算法一覽

1.樸素貝葉斯分類器算法

一般情況下，我們很難對某個網(wǎng)頁、文檔、或電子郵件進行準確的分類，特別是那些含有冗長的文字信息、且需要手動分揀的內(nèi)容。而這恰好是樸素貝葉斯分類器算法的用武之地。而且，其分類器具有為某個元素分配相似度值的功能。

例如，垃圾郵件過濾就是樸素貝葉斯算法的一個普遍的應用。此處的垃圾郵件過濾器就充當了分類器的作用，給所有的郵件分配“垃圾郵件”或“非垃圾郵件”的標簽。大體說來，它是相似度類型機器學習算法中最為流行的一種。其工作基本原理就是基于貝葉斯定理，對各種單詞予以簡單分類，實現(xiàn)對內(nèi)容的主觀分析。

2.K-均值聚類算法

K-均值是一種使用無監(jiān)督機器學習的聚類分析算法。同時，它屬于一種非確定性的迭代方法。該算法對于給定數(shù)據(jù)集里的預設(shè)數(shù)量類別(如k)進行操作。因此，K-均值算法的輸出是在聚類中，從輸入數(shù)據(jù)分離出的k個劃分簇。

3.支持向量機算法

該算法是一種使用監(jiān)督機器學習的算法，可用于分類和回歸分析。SVM(支持向量機，https://data-flair.training/blogs/svm-support-vector-machine-tutorial/)能夠?qū)θ魏涡碌臄?shù)據(jù)集進行分類。其工作原理是：通過將訓練數(shù)據(jù)集分成不同的類別，以發(fā)現(xiàn)某個線性特征，并由多個線性構(gòu)造出一些超平面。因此，SVM需要最大化各種類別之間的距離，即：標識出邊緣的最大化，以增加看不見數(shù)據(jù)的概率。SVM一般分為兩類：

線性SVM – 通過某個超平面，將訓練數(shù)據(jù)線性分隔出類別。
非線性SVM – 無法通過某個超平面，對訓練數(shù)據(jù)進行分隔。

4.先驗算法

該算法是一種無監(jiān)督式的機器學習算法。我們使用它從給定的數(shù)據(jù)集中產(chǎn)生關(guān)聯(lián)規(guī)則。這里的關(guān)聯(lián)規(guī)則是指：“如果A項發(fā)生，則B項也會發(fā)生”的一定概率，通常以IF_THEN的形式產(chǎn)生。

例如：如果某人買了一個iPad，那么他也會去購買一個iPad外殼來保護它。因此，該算法的基本工作原理是：如果某項經(jīng)常發(fā)生，那么該項的所有子集也會頻繁發(fā)生。反之，如果某項只是偶爾發(fā)生，那么其所有超集也極少會發(fā)生。

5.線性回歸算法

該算法能夠通過兩個變量之間的關(guān)系，展示一個變量(自變量)是如何影響另一個變量(因變量)的，即它們之間的依賴關(guān)系?？v然自變量不斷變化，因變量卻時常有相似的預測因子。

6.決策樹算法

我們通常用一個圖形來表示決策樹，即：通過使用分支的方法，來說明某個決策的所有可能結(jié)果。在決策樹中，每一個分支節(jié)點都代表對于某個屬性的測試性結(jié)果。同時，葉子節(jié)點則代表特定類別的標簽，即：計算了所有屬性之后，所作出的決策。此外，我們可通過從根到葉子節(jié)點的路徑來表示某一種分類。

7.隨機森林算法

這是轉(zhuǎn)向(go-to)類型的機器學習算法。我們使用一種bagging的方法，來創(chuàng)建一組帶有數(shù)據(jù)的隨機子集的決策樹。我們需要通過隨機森林算法，針對某個模型數(shù)據(jù)集上的隨機樣本進行多次訓練，綜合所有決策樹的輸出結(jié)果，并對每一個決策樹的結(jié)果進行輪詢投票(polling)，以實現(xiàn)良好的最終預測效果。

8.邏輯回歸算法

此類算法屬于一種廣義的線性回歸，它將邏輯函數(shù)應用到了某些特征的線性組合之中，通過各種預測變量，來預測出已分類的因變量結(jié)果，同時也描述出自變量的權(quán)重概率。

結(jié)論

綜上所述，我們討論了機器學習算法、及其不同的分類，其中包括：回歸算法、基于實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關(guān)聯(lián)規(guī)則學習算法、人工神經(jīng)網(wǎng)絡(luò)算法、深度學習算法、降維算法、模型融合算法、監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、樸素貝葉斯分類器算法、K-均值聚類算法、支持向量機算法、先驗算法、線性回歸和邏輯回歸。相信我們上述圖文并茂的講解方式一定能讓您有所收獲。

原文標題：Top Machine Learning Algorithms You Should Know to Become a Data Scientist ，作者：Rinu Gour

【51CTO譯稿，合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責任編輯：龐桂玉來源： 51CTO

機器學習機器學習算法數(shù)據(jù)科學家

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<big id="xlo9f"></big>

<big id="xlo9f"><span id="xlo9f"></span></big>

<blockquote id="xlo9f"><tbody id="xlo9f"></tbody></blockquote>

<p id="xlo9f"><strong id="xlo9f"></strong></p>