自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)入門(mén)必讀:6種簡(jiǎn)單實(shí)用算法及學(xué)習(xí)曲線

人工智能 機(jī)器學(xué)習(xí) 算法
大部分的機(jī)器學(xué)習(xí)算法主要用來(lái)解決兩類問(wèn)題——分類問(wèn)題和回歸問(wèn)題。在本文當(dāng)中,我們介紹一些簡(jiǎn)單但經(jīng)典實(shí)用的傳統(tǒng)機(jī)器學(xué)習(xí)算法,讓大家對(duì)機(jī)器學(xué)習(xí)算法有一個(gè)基本的感性認(rèn)識(shí)。

 01 機(jī)器學(xué)習(xí)算法

1. 分類算法

這是一種監(jiān)督學(xué)習(xí)方法。有很多算法幫助我們解決分類問(wèn)題,比如K近鄰、決策樹(shù)、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、邏輯回歸、SVM等算法。人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)也往往用來(lái)解決分類問(wèn)題。這些都是常見(jiàn)和常用的分類算法,只不過(guò)不同的算法都有其優(yōu)劣,會(huì)應(yīng)用在不同的場(chǎng)景下。

我們舉一個(gè)例子。假設(shè)我們知道某個(gè)鳥(niǎo)的各個(gè)特征,現(xiàn)在要根據(jù)這些特征確定這只鳥(niǎo)屬于哪種鳥(niǎo)類,這就是所謂的分類問(wèn)題。

首先,我們要收集能收集到的所有的鳥(niǎo)類信息,包括鳥(niǎo)的各種特征以及鳥(niǎo)的種類,其中顏色、體重、翅膀等屬性都屬于特征,而種類則是鳥(niǎo)的標(biāo)簽。

其次,我們建立的機(jī)器學(xué)習(xí)的目的就是讓用戶輸入一個(gè)鳥(niǎo)的特征,然后輸出這個(gè)鳥(niǎo)的種類,也就是對(duì)應(yīng)的標(biāo)簽。這個(gè)過(guò)程就是一個(gè)根據(jù)鳥(niǎo)的屬性分類的過(guò)程,只不過(guò)是由計(jì)算機(jī)自動(dòng)完成的。

2. 回歸算法

回歸算法也是一種有監(jiān)督學(xué)習(xí)方法。回歸算法來(lái)自于回歸分析,回歸分析是研究自變量和因變量之間關(guān)系的一種預(yù)測(cè)模型技術(shù)。這些技術(shù)應(yīng)用于預(yù)測(cè),時(shí)間序列模型和找到變量之間的關(guān)系。

舉個(gè)簡(jiǎn)單例子,我們可以通過(guò)計(jì)算得出在某些情況下服務(wù)器接收請(qǐng)求數(shù)量與服務(wù)器CPU、內(nèi)存占用壓力之間的關(guān)系。

最簡(jiǎn)單的回歸算法就是線性回歸,相信大家都對(duì)線性回歸有所了解。雖然線性回歸比較簡(jiǎn)單,但是越簡(jiǎn)單粗暴的算法在面對(duì)有些實(shí)際問(wèn)題的時(shí)候就越實(shí)用。深度學(xué)習(xí)也可以用于解決回歸問(wèn)題。

 

3. 聚類算法

聚類算法是一類無(wú)監(jiān)督學(xué)習(xí)算法。聚類是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要算法。

聚類分析以相似性為基礎(chǔ),在一個(gè)聚類中的模式比不在同一聚類中的模式具有更多的相似性,這是聚類分析的最基本原理。聚類分析的算法可以分成很多類方法,比如劃分法、層次法、基于密度的方法、基于網(wǎng)絡(luò)的方法和基于模型的方法。

最有名的聚類算法就是K-Means(K-均值)算法,是最為經(jīng)典的、基于劃分的聚類方法。該算法的主要思路是以空間中k個(gè)點(diǎn)為形心進(jìn)行聚類,將最靠近它們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各簇的形心的值,直至得到較好的聚類結(jié)果。(形心可以是實(shí)際的點(diǎn),也可以是虛擬點(diǎn))。

通過(guò)該算法我們可以將特征相似的數(shù)據(jù)聚合成為一個(gè)數(shù)據(jù)群組,而將特征相差較大的數(shù)據(jù)分開(kāi)。

4. 關(guān)聯(lián)分析算法

關(guān)聯(lián)分析是除了聚類以外的一種常用無(wú)監(jiān)督學(xué)習(xí)方法。用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。

關(guān)聯(lián)分析最典型的應(yīng)用就是購(gòu)物車(chē)分析。我們可以從用戶的訂單中尋找經(jīng)常被一起購(gòu)買(mǎi)的商品,并挖掘這些商品之間的潛在關(guān)系,這樣有助于線上、線下商家指定購(gòu)買(mǎi)與銷售策略。

很著名的關(guān)聯(lián)分析算法就是Apriori算法和FP-growth算法。Apriori算法就是根據(jù)有關(guān)頻繁項(xiàng)集特性的先驗(yàn)知識(shí)而命名的。它使用一種稱作逐層搜索的迭代方法。而FP-growth是針對(duì)Apriori算法的改進(jìn)算法,通過(guò)兩次掃描事務(wù)數(shù)據(jù)庫(kù),把每個(gè)事務(wù)所包含的頻繁項(xiàng)目按其支持度降序壓縮存儲(chǔ)到FP-tree中。

在以后發(fā)現(xiàn)頻繁模式的過(guò)程中,不需要再掃描事務(wù)數(shù)據(jù)庫(kù),而僅在FP-tree中進(jìn)行查找即可,并通過(guò)遞歸調(diào)用FP-growth的方法來(lái)直接產(chǎn)生頻繁模式,因此在整個(gè)發(fā)現(xiàn)過(guò)程中也不需產(chǎn)生候選模式。該算法克服了Apriori算法中存在的問(wèn)題,在執(zhí)行效率上也明顯好于Apriori算法,同時(shí)能生成有向關(guān)系,比Apriori更為泛用。

 

機(jī)器學(xué)習(xí)入門(mén)必讀:6種簡(jiǎn)單實(shí)用算法及學(xué)習(xí)曲線

 

5. 集成算法

前面幾節(jié)介紹了常見(jiàn)的機(jī)器學(xué)習(xí)算法,但是我們會(huì)發(fā)現(xiàn)每個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法往往只能解決特定場(chǎng)景下的特定問(wèn)題,如果問(wèn)題會(huì)變得更為復(fù)雜,就難以使用一個(gè)學(xué)習(xí)器達(dá)到目標(biāo)。這時(shí)候我們就需要集成多個(gè)學(xué)習(xí)器,協(xié)同完成機(jī)器學(xué)習(xí)任務(wù)。

所謂集成學(xué)習(xí)就是使用一系列學(xué)習(xí)器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各個(gè)學(xué)習(xí)結(jié)果進(jìn)行整合,從而獲得比使用單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。一般情況下,集成學(xué)習(xí)中的多個(gè)學(xué)習(xí)器都是同質(zhì)的“弱學(xué)習(xí)器”。

集成學(xué)習(xí)的主要思路是先通過(guò)一定的規(guī)則生成多個(gè)學(xué)習(xí)器,再采用某種集成策略進(jìn)行組合,然后綜合判斷輸出最終結(jié)果。

一般而言,通常所說(shuō)的集成學(xué)習(xí)中的多個(gè)學(xué)習(xí)器都是同質(zhì)的“弱學(xué)習(xí)器”。基于該“弱學(xué)習(xí)器”,通過(guò)樣本集擾動(dòng)、輸入特征擾動(dòng)、輸出表示擾動(dòng)、算法參數(shù)擾動(dòng)等方式生成多個(gè)學(xué)習(xí)器,進(jìn)行集成后獲得一個(gè)精度較好的“強(qiáng)學(xué)習(xí)器”。

最著名的集成算法就是Boosting類算法,包括AdaBoosting等常用算法。這類算法需要同時(shí)訓(xùn)練多個(gè)模式,基本思路就是根據(jù)訓(xùn)練時(shí)的正確率和錯(cuò)誤率調(diào)整不同學(xué)習(xí)器的權(quán)重,最終預(yù)測(cè)時(shí)使用帶權(quán)重的投票法產(chǎn)生最終結(jié)果。

還有一類集成算法為Bagging類算法,主要思路是分別訓(xùn)練幾個(gè)不同的模型,然后用模型平均的方法做出最終決策。

最著名的Bagging類算法就是隨機(jī)森林,該算法還融入了隨機(jī)子空間方法,是以決策樹(shù)為基礎(chǔ)分類器的一個(gè)集成學(xué)習(xí)模型,它包含多個(gè)由Bagging集成學(xué)習(xí)技術(shù)訓(xùn)練得到的決策樹(shù),當(dāng)輸入待分類的樣本時(shí),最終的分類結(jié)果由單個(gè)決策樹(shù)的輸出結(jié)果投票決定。

6. 強(qiáng)化算法

強(qiáng)化學(xué)習(xí)(reinforcement learning)和我們?cè)谇懊嫣岬降乃惴ú惶粯?,其主要用于?xùn)練一個(gè)可以感知環(huán)境的自制感知器,通過(guò)學(xué)習(xí)選擇能達(dá)到其目標(biāo)的最優(yōu)動(dòng)作。這個(gè)很具有普遍性的問(wèn)題應(yīng)用于學(xué)習(xí)控制移動(dòng)機(jī)器人,在工廠中學(xué)習(xí)最優(yōu)操作工序以及學(xué)習(xí)棋類對(duì)弈等。

當(dāng)某個(gè)智能體在其環(huán)境中做出每個(gè)動(dòng)作時(shí),施教者會(huì)提供獎(jiǎng)勵(lì)或懲罰信息,以表示結(jié)果狀態(tài)的正確與否。該智能體的任務(wù)就是從這個(gè)非直接的,有延遲的回報(bào)中學(xué)習(xí),以便后續(xù)的動(dòng)作產(chǎn)生較大的累積效應(yīng)。

——引用自米歇爾(Mitchell T.M.)《機(jī)器學(xué)習(xí)》

最著名的增強(qiáng)學(xué)習(xí)算法就是Q-Learning算法。由于增強(qiáng)學(xué)習(xí)算法不在本文討論范疇,并由于其本身的復(fù)雜性,我們?cè)谶@里只做簡(jiǎn)單的介紹但不做深入討論。

 

02 如何掌握機(jī)器學(xué)習(xí)

1. 學(xué)習(xí)曲線

首先,我們必須清楚機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)中的一個(gè)領(lǐng)域,所以要能夠掌握機(jī)器學(xué)習(xí),真正通過(guò)計(jì)算機(jī)把機(jī)器學(xué)習(xí)應(yīng)用起來(lái)是需要以計(jì)算機(jī)科學(xué)為基礎(chǔ)的。比如要了解基礎(chǔ)的程序設(shè)計(jì)語(yǔ)言,至少是Python或者M(jìn)ATLAB,要知道基本的數(shù)據(jù)結(jié)構(gòu),要知道基本的數(shù)據(jù)處理技術(shù),要知道基本的數(shù)據(jù)存儲(chǔ)查詢技術(shù)等。

其次,機(jī)器學(xué)習(xí)算法一般都有比較嚴(yán)密完善的數(shù)學(xué)原理,如果不能從數(shù)學(xué)的角度去理解機(jī)器學(xué)習(xí),我們是無(wú)法理解其中一些本質(zhì)核心的東西的,那就永遠(yuǎn)只能從使用模型的角度對(duì)這個(gè)領(lǐng)域淺嘗輒止了。

另外機(jī)器學(xué)習(xí)也是一個(gè)依靠經(jīng)驗(yàn)的領(lǐng)域,許多參數(shù)和方法都需要依靠日常的經(jīng)驗(yàn)積累出來(lái),從而形成一種解決問(wèn)題的思維和感覺(jué),這樣在利用機(jī)器學(xué)習(xí)技術(shù)解決現(xiàn)有問(wèn)題時(shí)會(huì)更快、更有效,往往能找到合適的解決方案。

所以機(jī)器學(xué)習(xí)是有學(xué)習(xí)曲線的,也許更像一個(gè)無(wú)限循環(huán)的S形學(xué)習(xí)曲線,一開(kāi)始學(xué)習(xí)基本的機(jī)器學(xué)習(xí)算法,做簡(jiǎn)單的實(shí)驗(yàn)非常容易入手。根據(jù)經(jīng)驗(yàn),進(jìn)一步學(xué)習(xí)更多的機(jī)器學(xué)習(xí)算法后可能會(huì)逐漸迷失在各種機(jī)器學(xué)習(xí)模型之中,學(xué)習(xí)難度陡然上升。

當(dāng)你將大多數(shù)經(jīng)典模型融會(huì)貫通之后,你又會(huì)覺(jué)得各種類型的機(jī)器學(xué)習(xí)算法變化無(wú)非幾類,于是學(xué)習(xí)難度曲線又會(huì)變得平滑。但當(dāng)你開(kāi)始解決實(shí)際問(wèn)題時(shí),就又會(huì)陷入陡峭的學(xué)習(xí)曲線中,在攀爬式的學(xué)習(xí)中不斷積累經(jīng)驗(yàn)。

總而言之,機(jī)器學(xué)習(xí)是一個(gè)需要不斷進(jìn)行理論和經(jīng)驗(yàn)積累的技術(shù),每過(guò)一個(gè)階段都會(huì)遇到相應(yīng)的瓶頸。這不是一成不變的,而是一個(gè)需要不斷學(xué)習(xí)實(shí)踐的技術(shù)。只有在不斷遇到問(wèn)題并解決問(wèn)題后才能不斷前行。

2. 技術(shù)棧

我們把深度學(xué)習(xí)的技術(shù)棧分為3個(gè)類別。第1類是基礎(chǔ)數(shù)學(xué)工具,第2類是機(jī)器學(xué)習(xí)基礎(chǔ)理論方法,第3類是機(jī)器學(xué)習(xí)的實(shí)踐工具與框架。我們?cè)谶@里對(duì)這幾類內(nèi)容做一個(gè)概述,如果讀者在學(xué)習(xí)過(guò)程當(dāng)中發(fā)現(xiàn)有不甚了解的基礎(chǔ)概念或知識(shí)時(shí),可以翻看本文尋找你需要的工具和技術(shù)并進(jìn)行了解,循環(huán)往復(fù)、溫故而知新。

基礎(chǔ)數(shù)學(xué)工具包括高等數(shù)學(xué)、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì)、離散數(shù)學(xué)、矩陣?yán)碚?、隨機(jī)過(guò)程、最優(yōu)化方法和復(fù)變函數(shù)等。沒(méi)錯(cuò),基礎(chǔ)數(shù)學(xué)工具在機(jī)器學(xué)習(xí)領(lǐng)域乃至其工程領(lǐng)域必不可少,望讀者能夠?qū)@些知識(shí)有一個(gè)較為全面的掌握。

機(jī)器學(xué)習(xí)基礎(chǔ)理論方法包括決策樹(shù)、支持向量機(jī)、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、概率圖模型、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)、增強(qiáng)學(xué)習(xí),等等。

機(jī)器學(xué)習(xí)的實(shí)踐工具與框架類目就比較繁雜了,包括基礎(chǔ)語(yǔ)言與工具、工程框架、數(shù)據(jù)存儲(chǔ)工具和數(shù)據(jù)處理工具。

基礎(chǔ)語(yǔ)言與工具有MATLAB及其工具包,Python與相應(yīng)的庫(kù)(NumPy、SciPy、Matplotlib和Scikit-learn等)。

工程框架包括TensorFlow、MXNet、Torch和PyTorch、Keras等。

數(shù)據(jù)存儲(chǔ)包括Oracle、SQL Server、MySQL、PostgreSQL等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),LevelDB、LMDB、Redis等K/V型數(shù)據(jù)庫(kù),MongoDB等文檔型數(shù)據(jù)庫(kù),Neo4j等圖形數(shù)據(jù)庫(kù),HBase、Cassandra等列數(shù)據(jù)庫(kù),數(shù)不勝數(shù)。

數(shù)據(jù)處理工具則包括批處理、實(shí)時(shí)處理兩大類。批處理工具有Hadoop,以及基于Hadoop的Hive和Pig。

實(shí)時(shí)處理工具有Storm和Hurricane實(shí)時(shí)處理系統(tǒng)。至于非常有名的Spark應(yīng)該屬于改良的批處理工具,也能用于實(shí)時(shí)處理場(chǎng)景。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2013-06-03 09:24:34

公有云計(jì)算亞馬遜EC2API

2019-08-09 10:15:14

機(jī)器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)

2024-04-29 14:54:36

機(jī)器學(xué)習(xí)過(guò)擬合模型人工智能

2020-12-16 15:56:26

機(jī)器學(xué)習(xí)人工智能Python

2020-07-28 08:06:24

機(jī)器學(xué)習(xí)技術(shù)人工智能

2013-11-29 09:37:10

云計(jì)算學(xué)習(xí)曲線云計(jì)算咨詢云計(jì)算解決方案

2016-11-15 15:02:00

機(jī)器學(xué)習(xí)算法

2020-06-18 16:05:20

機(jī)器學(xué)習(xí)人工智能算法

2019-09-23 10:59:31

機(jī)器學(xué)習(xí)算法編程

2019-09-23 11:17:46

機(jī)器學(xué)習(xí)數(shù)據(jù)技術(shù)

2020-12-17 07:57:18

機(jī)器學(xué)習(xí)算法

2023-11-02 08:32:11

機(jī)器學(xué)習(xí)人工智能

2024-05-27 00:05:00

2019-03-25 21:15:39

大數(shù)據(jù)數(shù)據(jù)科學(xué)書(shū)單

2024-12-13 09:11:12

2018-03-15 11:50:53

機(jī)器學(xué)習(xí)入門(mén)Tensorflow

2017-03-10 12:16:46

機(jī)器學(xué)習(xí)

2018-03-27 11:02:55

2024-11-29 12:00:00

Python機(jī)器學(xué)習(xí)庫(kù)

2017-05-09 08:48:44

機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)