自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最全解析:大數(shù)據(jù)和機器學(xué)習(xí)有什么區(qū)別

大數(shù)據(jù)
大數(shù)據(jù)的核心是利用數(shù)據(jù)的價值,機器學(xué)習(xí)是利用數(shù)據(jù)價值的關(guān)鍵技術(shù),對于大數(shù)據(jù)而言,機器學(xué)習(xí)是不可或缺的。相反,對于機器學(xué)習(xí)而言,越多的數(shù)據(jù)會越 可能提升模型的精確性,同時,復(fù)雜的機器學(xué)習(xí)算法的計算時間也迫切需要分布式計算與內(nèi)存計算這樣的關(guān)鍵技術(shù)。因此,機器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助。 大數(shù)據(jù)與機器學(xué)習(xí)兩者是互相促進(jìn),相依相存的關(guān)系。

[[190556]]

大數(shù)據(jù)的定義

大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!〈髷?shù)據(jù)是一個籠統(tǒng)的概念暫未發(fā)現(xiàn)和準(zhǔn)確的定義。

大數(shù)據(jù)的核心是利用數(shù)據(jù)的價值,機器學(xué)習(xí)是利用數(shù)據(jù)價值的關(guān)鍵技術(shù),對于大數(shù)據(jù)而言,機器學(xué)習(xí)是不可或缺的。相反,對于機器學(xué)習(xí)而言,越多的數(shù)據(jù)會越 可能提升模型的精確性,同時,復(fù)雜的機器學(xué)習(xí)算法的計算時間也迫切需要分布式計算與內(nèi)存計算這樣的關(guān)鍵技術(shù)。因此,機器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助。 大數(shù)據(jù)與機器學(xué)習(xí)兩者是互相促進(jìn),相依相存的關(guān)系。

機器學(xué)習(xí)與大數(shù)據(jù)緊密聯(lián)系。但是,必須清醒的認(rèn)識到,大數(shù)據(jù)并不等同于機器學(xué)習(xí),同理,機器學(xué)習(xí)也不等同于大數(shù)據(jù)。大數(shù)據(jù)中包含有分布式計算,內(nèi)存數(shù)據(jù)庫,多維分析等等多種技術(shù)。單從分析方法來看,大數(shù)據(jù)也包含以下四種分析方法:

1.大數(shù)據(jù),小分析:即數(shù)據(jù)倉庫領(lǐng)域的OLAP分析思路,也就是多維分析思想。

2.大數(shù)據(jù),大分析:這個代表的就是數(shù)據(jù)挖掘與機器學(xué)習(xí)分析法。

3.流式分析:這個主要指的是事件驅(qū)動架構(gòu)。

4.查詢分析:經(jīng)典代表是NoSQL數(shù)據(jù)庫。

也就是說,機器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已。盡管機器學(xué)習(xí)的一些結(jié)果具有很大的魔力,在某種場合下是大數(shù)據(jù)價值***的說明。但這并不代表機器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法。

機器學(xué)習(xí)的定義

從廣義上來說,機器學(xué)習(xí)是一種能夠賦予機器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測的一種方法。

首先,我們需要在計算機中存儲歷史的數(shù)據(jù)。接著,我們將這些 數(shù)據(jù)通過機器學(xué)習(xí)算法進(jìn)行處理,這個過程在機器學(xué)習(xí)中叫做“訓(xùn)練”,處理的結(jié)果可以被我們用來對新的數(shù)據(jù)進(jìn)行預(yù)測,這個結(jié)果一般稱之為“模型”。對新數(shù)據(jù) 的預(yù)測過程在機器學(xué)習(xí)中叫做“預(yù)測”。“訓(xùn)練”與“預(yù)測”是機器學(xué)習(xí)的兩個過程,“模型”則是過程的中間輸出結(jié)果,“訓(xùn)練”產(chǎn)生“模型”,“模型”指導(dǎo) “預(yù)測”。

人類在成長、生活過程中積累了很多的歷史與經(jīng)驗。人類定期地對這些經(jīng)驗進(jìn)行“歸納”,獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問題或者需要對未來進(jìn)行“推測”的時候,人類使用這些“規(guī)律”,對未知問題與未來進(jìn)行“推測”,從而指導(dǎo)自己的生活和工作。

機器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測”過程可以對應(yīng)到人類的“歸納”和“推測”過程。通過這樣的對應(yīng),我們可以發(fā)現(xiàn),機器學(xué)習(xí)的思想并不復(fù)雜,僅僅是對人類在生活中學(xué)習(xí)成長的一個模擬。由于機器學(xué)習(xí)不是基于編程形成的結(jié)果,因此它的處理過程不是因果的邏輯,而是通過歸納思想得出的相關(guān)性結(jié)論。

這也可以聯(lián)想到人類為什么要學(xué)習(xí)歷史,歷史實際上是人類過往經(jīng)驗的總結(jié)。有句話說得很好,“歷史往往不一樣,但歷史總是驚人的相似”。通過學(xué)習(xí)歷史,我們從歷史中歸納出人生與國家的規(guī)律,從而指導(dǎo)我們的下一步工作,這是具有莫大價值的。當(dāng)代一些人忽視了歷史的本來價值,而是把其作為一種宣揚功績的手段,這其實是對歷史真實價值的一種誤用。

機器學(xué)習(xí)的范圍

機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理等領(lǐng)域有著很深的聯(lián)系。

從范圍上來說,機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘是類似的,同時,機器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計算機視覺、語音識別、自然語言處理等交叉學(xué)科。因此,一般說數(shù)據(jù)挖掘時,可以等同于說機器學(xué)習(xí)。同時,我們平常所說的機器學(xué)習(xí)應(yīng)用,應(yīng)該是通用的,不僅僅局限在結(jié)構(gòu)化數(shù)據(jù),還有圖像,音頻等應(yīng)用。

模式識別

模式識別=機器學(xué)習(xí)。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念,后者則主要源自計算機學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書中,Christopher M. Bishop在開頭是這樣說的“模式識別源自工業(yè)界,而機器學(xué)習(xí)來自于計算機學(xué)科。不過,它們中的活動可以被視為同一個領(lǐng)域的兩個方面,同時在過去的10年間,它們都有了長足的發(fā)展”。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘=機器學(xué)習(xí)+數(shù)據(jù)庫。這幾年數(shù)據(jù)挖掘的概念實在是太耳熟能詳。幾乎等同于炒作。但凡說數(shù)據(jù)挖掘都會吹噓數(shù)據(jù)挖掘如何如何,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價值等等。但是,我盡管可能會挖出金子,但我也可能挖的是“石頭”啊。這個說法的意思是,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識,但不是每個數(shù)據(jù)都能挖掘出金子的,所以不要神話它。一個系統(tǒng)絕對不會因為上了一個數(shù)據(jù)挖掘模塊就變得無所不能(這是IBM最喜歡吹噓的),恰恰相反,一個擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵,而且他還必須對數(shù)據(jù)有深刻的認(rèn)識,這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善。大部分?jǐn)?shù)據(jù)挖掘中的算法是機器學(xué)習(xí)的算法在數(shù)據(jù)庫中的優(yōu)化。

統(tǒng)計學(xué)習(xí)

統(tǒng)計學(xué)習(xí)近似等于機器學(xué)習(xí)。統(tǒng)計學(xué)習(xí)是個與機器學(xué)習(xí)高度重疊的學(xué)科。因為機器學(xué)習(xí)中的大多數(shù)方法來自統(tǒng)計學(xué),甚至可以認(rèn)為,統(tǒng)計學(xué)的發(fā)展促進(jìn)機器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機算法,就是源自統(tǒng)計學(xué)科。但是在某種程度上兩者是有分別的,這個分別在于:統(tǒng)計學(xué)習(xí)者重點關(guān)注的是統(tǒng)計模型的發(fā)展與優(yōu)化,偏數(shù)學(xué),而機器學(xué)習(xí)者更關(guān)注的是能夠解決問題,偏實踐,因此機器學(xué)習(xí)研究者會重點研究學(xué)習(xí)算法在計算機上執(zhí)行的效率與準(zhǔn)確性的提升。

計算機視覺

計算機視覺=圖像處理+機器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機器學(xué)習(xí)模型中的輸入,機器學(xué)習(xí)則負(fù)責(zé)從圖像中識別出相關(guān)的模式。計算機視覺相關(guān)的應(yīng)用非常的多,例如百度識圖、手寫字符識別、車牌識別等等應(yīng)用。這個領(lǐng)域是應(yīng)用前景非常火熱的,同時也是研究的熱門方向。隨著機器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展,大大促進(jìn)了計算機圖像識別的效果,因此未來計算機視覺界的發(fā)展前景不可估量。

語音識別

語音識別=語音處理+機器學(xué)習(xí)。語音識別就是音頻處理技術(shù)與機器學(xué)習(xí)的結(jié)合。語音識別技術(shù)一般不會單獨使用,一般會結(jié)合自然語言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋果的語音助手siri等。

自然語言處理

自然語言處理=文本處理+機器學(xué)習(xí)。自然語言處理技術(shù)主要是讓機器理解人類的語言的一門領(lǐng)域。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學(xué)習(xí)等技術(shù)。作為唯一由人類自身創(chuàng)造的符號,自然語言處理一直是機器學(xué)習(xí)界不斷研究的方向。按照百度機器學(xué)習(xí)專家余凱的說法“聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的”。如何利用機器學(xué)習(xí)技術(shù)進(jìn)行自然語言的的深度理解,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點。

機器學(xué)習(xí)的方法

[[190559]]

 

1、回歸算法

在大部分機器學(xué)習(xí)課程中,回歸算法都是介紹的***個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統(tǒng)計學(xué)遷移到機器學(xué)習(xí)中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學(xué)習(xí)那些強大的算法?;貧w算法有兩個重要的子類:即線性回歸和邏輯回歸。

線性回歸就是我們常見的直線函數(shù)。如何擬合出一條直線***匹配我所有的數(shù)據(jù)?一般使用“最小二乘法”來求解。“最小二乘法”的思想是這樣的,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實值,而觀測到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將***問題轉(zhuǎn)化為求函數(shù)極值問題。函數(shù)極值在數(shù)學(xué)上我們一般會采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量太大。

計算機科學(xué)界專門有一個學(xué)科叫“數(shù)值計算”,專門用來提升計算機進(jìn)行各類計算時的準(zhǔn)確性和效率問題。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。從嚴(yán)格意義上來說,由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子,因此梯度下降法在后面的算法實現(xiàn)中也有應(yīng)用。

邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質(zhì)上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是***預(yù)測出的結(jié)果是數(shù)字,例如房價。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此廣告等等。

實現(xiàn)方面的話,邏輯回歸只是對對線性回歸的計算結(jié)果加上了一個Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個概率可以做預(yù)測,例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。從直觀上來說,邏輯回歸是畫出了一條分類線,見下圖。

假設(shè)我們有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點),有些是惡性的(圖中的紅色點)。這里腫瘤的紅藍(lán)色可以被稱作數(shù)據(jù)的“標(biāo)簽”。同時每個數(shù)據(jù)包括兩個“特征”:患者的年齡與腫瘤的大小。我們將這兩個特征與標(biāo)簽映射到這個二維空間上,形成了我上圖的數(shù)據(jù)。

當(dāng)我有一個綠色的點時,我該判斷這個腫瘤是惡性的還是良性的呢?根據(jù)紅藍(lán)點我們訓(xùn)練出了一個邏輯回歸模型,也就是圖中的分類線。這時,根據(jù)綠點出現(xiàn)在分類線的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色,也就是說屬于惡性腫瘤。

邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過那樣的模型在處理數(shù)據(jù)量較大的時候效率會很低),這意味著當(dāng)兩類之間的界線不是線性時,邏輯回歸的表達(dá)能力就不足。下面的兩個算法是機器學(xué)習(xí)界***大且重要的算法,都可以擬合出非線性的分類線。

2、神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)算法是80年代機器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落。現(xiàn)在,攜著“深度學(xué)習(xí)”之勢,神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為***大的機器學(xué)習(xí)算法之一。

神經(jīng)網(wǎng)絡(luò)的誕生起源于對大腦工作機理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機器學(xué)習(xí)的實驗,發(fā)現(xiàn)在視覺與語音的識別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個熱潮。BP算法的發(fā)明人之一是前面介紹的機器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)。

具體說來,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理是什么?簡單來說,就是分解與整合。在著名的Hubel-Wiesel試驗中,學(xué)者們研究貓的視覺分析機理是這樣的。

比方說,一個正方形,分解為四個折線進(jìn)入視覺處理的下一層中。四個神經(jīng)元分別處理一個折線。每個折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個面。于是,一個復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合,***得出了看到的是正方形的結(jié)論。這就是大腦視覺識別的機理,也是神經(jīng)網(wǎng)絡(luò)工作的機理。

讓我們看一個簡單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號,隱藏層負(fù)責(zé)對數(shù)據(jù)的分解與處理,***的結(jié)果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認(rèn)為是模擬了一個神經(jīng)元,若干個處理單元組成了一個層,若干個層再組成了一個網(wǎng)絡(luò),也就是"神經(jīng)網(wǎng)絡(luò)"。

在神經(jīng)網(wǎng)絡(luò)中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測結(jié)果作為輸出傳輸?shù)较乱粋€層次。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。

下圖會演示神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的一個著名應(yīng)用,這個程序叫做LeNet,是一個基于多個隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)。通過LeNet可以識別多種手寫數(shù)字,并且達(dá)到很高的識別精度與擁有較好的魯棒性。

右下方的方形中顯示的是輸入計算機的圖像,方形上方的紅色字樣“answer”后面顯示的是計算機的輸出。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個隱藏層的輸出,可以看出,隨著層次的不斷深入,越深的層次處理的細(xì)節(jié)越低,例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了。LeNet的發(fā)明人就是前文介紹過的機器學(xué)習(xí)的大牛Yann LeCun(圖1右者)。

進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。

3、SVM(支持向量機)

支持向量機算法是誕生于統(tǒng)計學(xué)習(xí)界,同時在機器學(xué)習(xí)界大放光彩的經(jīng)典算法。

支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù),則支持向量機算法最多算是一種更好的線性分類技術(shù)。

但是,通過跟高斯“核”的結(jié)合,支持向量機可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果。“核”事實上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。

我們?nèi)绾卧诙S平面劃分出一個圓形的分類界線?在二維平面可能會很困難,但是通過“核”可以將二維空間映射到三維空間,然后使用一個線性平面就可以達(dá)成類似效果。也就是說,二維平面劃分出的非線性分類界線可以等價于三維平面的線性分類界線。于是,我們可以通過在三維空間中進(jìn)行簡單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果。

支持向量機是一種數(shù)學(xué)成分很濃的機器學(xué)習(xí)算法(相對的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。在算法的核心步驟中,有一步證明,即將數(shù)據(jù)從低維映射到高維不會帶來***計算復(fù)雜性的提升。于是,通過支持向量機算法,既可以保持計算效率,又可以獲得非常好的分類效果。因此支持向量機在90年代后期一直占據(jù)著機器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。

4、聚類算法

前面的算法中的一個顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對其他未知數(shù)據(jù)預(yù)測標(biāo)簽。在下面的算法中,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的,而算法的目的則是通過訓(xùn)練,推測出這些數(shù)據(jù)的標(biāo)簽。這類算法有一個統(tǒng)稱,即無監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。

讓我們還是拿一個二維的數(shù)據(jù)來說,某一個數(shù)據(jù)包含兩個特征。我希望通過聚類算法,給他們中不同的種類打上標(biāo)簽,我該怎么做呢?簡單來說,聚類算法就是計算種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個族群。

聚類算法中最典型的代表就是K-Means算法。

5、降維算法

降維算法也是一種無監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實表示的是數(shù)據(jù)的特征量的大小,例如,房價包含房子的長、寬、面積與房間數(shù)量四個特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜?,長與寬事實上與面積表示的信息重疊了,例如面積=長 × 寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時在計算上也能帶來加速。

剛才說的降維過程中減少的維度屬于肉眼可視的層次,同時壓縮也不會帶來信息的損失(因為信息冗余了)。如果肉眼不可視,或者沒有冗余的特征,降維算法也能工作,不過這樣會帶來一些信息的損失。但是,降維算法可以從數(shù)學(xué)上證明,從高維壓縮到的低維中***程度地保留了數(shù)據(jù)的信息。因此,使用降維算法仍然有很多的好處。

降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學(xué)習(xí)其他算法的效率。通過降維算法,可以將具有幾千個特征的數(shù)據(jù)壓縮至若干個特征。另外,降維算法的另一個好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。

6、推薦算法

推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。推薦算法有兩個主要的類別:

一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個物品都得有若干個標(biāo)簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大,但是由于每個物品都需要貼標(biāo)簽,因此工作量較大。

另一類是基于用戶相似度的推薦,則是將與目標(biāo)用戶興趣相同的其他用戶購買的東西推薦給目標(biāo)用戶,例如小A歷史上買了物品B和C,經(jīng)過算法分析,發(fā)現(xiàn)另一個與小A近似的用戶小D購買了物品E,于是將物品E推薦給小A。

兩類推薦都有各自的優(yōu)缺點,在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法。

7、梯度下降法

梯度下降法 是一個***化算法,通常也稱為最速下降法。最速下降法是求解無約束優(yōu)化問題最簡單和最古老的方法之一,雖然現(xiàn)在已經(jīng)不具有實用性,但是許多有效算法都是以它為基礎(chǔ)進(jìn)行改進(jìn)和修正而得到的。最速下降法是用負(fù)梯度方向為搜索方向的,最速下降法越接近目標(biāo)值,步長越小,前進(jìn)越慢。好比將函數(shù)比作一座山,我們站在某個山坡上,往四周看,從哪個方向向下走一小步,能夠下降的最快;當(dāng)然解決問題的方法有很多,梯度下降只是其中一個,還有一種方法叫Normal Equation

8、牛頓法

牛頓法是一種非線性最小二乘***化方法。其利用了目標(biāo)函數(shù)的泰勒展開式把非線性函數(shù)的最小二乘化問題化為每次迭代的線性函數(shù)的最小二乘化問題。牛頓法的缺點在于:若初始點距離極小值點過遠(yuǎn),迭代步長過大會導(dǎo)致迭代下一代的函數(shù)值不一定小于上一代的函數(shù)值。牛頓法在二階導(dǎo)數(shù)的作用下,從函數(shù)的凸性出發(fā),直接搜索怎樣到達(dá)極值點,也就是說在選擇方向時,不僅考慮當(dāng)前坡度是否夠大,還會考慮你走了一步之后,坡度是否會變得更大。

從收斂速度來看,梯度下降是線性收斂,牛頓法是超線性的,至少二階收斂~,當(dāng)目標(biāo)函數(shù)是凸函數(shù)時,梯度下降法的解釋全局***解。一般情況下,其解不保證是全局***解。當(dāng)目標(biāo)函數(shù)不是凸函數(shù)時,可以將目標(biāo)函數(shù)近似轉(zhuǎn)化成凸函數(shù)。或者用一些智能優(yōu)化算法例如模擬退火,以一定的概率跳出局部極值,但是這些算法都不保證能找到最小值。

9、BP算法

BP算法是學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層。若輸出層的實際輸出與期望的輸出(教師信號)不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權(quán)值的依據(jù)。這種信號正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。

10、SMO算法

SMO算法是針對求解SVM問題的Lagrange對偶問題,一個二次規(guī)劃式,開發(fā)的高效算法。傳統(tǒng)的二次規(guī)劃算法的計算開銷正比于訓(xùn)練集的規(guī)模,而SMO基于問題本身的特性(KKT條件約束)對這個特殊的二次規(guī)劃問題的求解過程進(jìn)行優(yōu)化。對偶問題中我們***求解的變量只有Lagrange乘子向量,這個算法的基本思想就是每次都只選取一對,固定向量其他維度的元素的值,然后進(jìn)行優(yōu)化,直至收斂。

 

除了以上算法之外,機器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹等等算法。但是上面列的10個算法是使用最多,影響最廣,種類最全的典型。機器學(xué)習(xí)界的一個特色就是算法眾多,發(fā)展百花齊放。

下面做一個總結(jié),按照訓(xùn)練的數(shù)據(jù)有無標(biāo)簽,可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法,但推薦算法較為特殊,既不屬于監(jiān)督學(xué)習(xí),也不屬于非監(jiān)督學(xué)習(xí),是單獨的一類。

監(jiān)督學(xué)習(xí)算法:

線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM

無監(jiān)督學(xué)習(xí)算法:

聚類算法,降維算法

特殊算法:

推薦算法

除了這些算法以外,有一些算法的名字在機器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)。但他們本身并不算是一個機器學(xué)習(xí)算法,而是為了解決某個子問題而誕生的。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴?,用于大幅度提高?xùn)練過程。其中的代表有:梯度下降法,主要運用在線型回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),推薦算法中;牛頓法,主要運用在線型回歸中;BP算法,主要運用在神經(jīng)網(wǎng)絡(luò)中;SMO算法,主要運用在SVM中。

機器學(xué)習(xí)與大數(shù)據(jù)的結(jié)合產(chǎn)生了巨大的價值?;跈C器學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)能夠“預(yù)測”。對人類而言,積累的經(jīng)驗越豐富,閱歷也廣泛,對未來的判斷越準(zhǔn)確。例如常說的“經(jīng)驗豐富”的人比“初出茅廬”的小伙子更有工作上的優(yōu)勢,就在于經(jīng)驗豐富的人獲得的規(guī)律比他人更準(zhǔn)確。而在機器學(xué)習(xí)領(lǐng)域,根據(jù)著名的一個實驗,有效的證實了機器學(xué)習(xí)界一個理論:即機器學(xué)習(xí)模型的數(shù)據(jù)越多,機器學(xué)習(xí)的預(yù)測的效率就越好。

成功的機器學(xué)習(xí)應(yīng)用不是擁有***的算法,而是擁有最多的數(shù)據(jù)!

在大數(shù)據(jù)的時代,有好多優(yōu)勢促使機器學(xué)習(xí)能夠應(yīng)用更廣泛。例如隨著物聯(lián)網(wǎng)和移動設(shè)備的發(fā)展,我們擁有的數(shù)據(jù)越來越多,種類也包括圖片、文本、視頻等非結(jié)構(gòu)化數(shù)據(jù),這使得機器學(xué)習(xí)模型可以獲得越來越多的數(shù)據(jù)。同時大數(shù)據(jù)技術(shù)中的分布式計算Map-Reduce使得機器學(xué)習(xí)的速度越來越快,可以更方便的使用。種種優(yōu)勢使得在大數(shù)據(jù)時代,機器學(xué)習(xí)的優(yōu)勢可以得到***的發(fā)揮。 

責(zé)任編輯:龐桂玉 來源: 馬哥Linux運維
相關(guān)推薦

2016-12-07 19:55:33

大數(shù)據(jù)深度學(xué)習(xí)

2021-02-25 10:07:42

人工智能AI機器學(xué)習(xí)

2017-11-17 08:17:48

2020-05-06 14:19:53

大數(shù)據(jù)數(shù)據(jù)科學(xué)機器學(xué)習(xí)

2020-06-02 10:28:17

機器學(xué)習(xí)技術(shù)人工智能

2021-12-09 23:16:47

數(shù)據(jù)科學(xué)數(shù)據(jù)工程機器學(xué)習(xí)

2019-04-23 08:23:51

統(tǒng)計學(xué)機器學(xué)習(xí)人工智能

2022-08-11 15:35:52

人工智能機器學(xué)習(xí)深度學(xué)習(xí)

2018-01-16 00:11:18

數(shù)據(jù)中心云計算大數(shù)據(jù)

2021-08-05 10:07:50

人工智能AI機器學(xué)習(xí)

2021-12-17 14:40:02

while(1)for(;;)語言

2024-03-05 18:59:59

前端開發(fā)localhost

2022-08-02 08:23:37

SessionCookies

2024-05-27 00:40:00

2022-02-27 15:33:22

安全CASBSASE

2024-09-09 13:10:14

2021-05-16 14:26:08

RPAIPACIO

2020-03-09 20:56:19

LoRaLoRaWAN無線技術(shù)

2022-09-07 18:32:57

并發(fā)編程線程

2020-11-09 14:07:53

PyQtQt編程
點贊
收藏

51CTO技術(shù)棧公眾號