自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法

人工智能 機(jī)器學(xué)習(xí) 算法
機(jī)器是怎樣學(xué)習(xí)的,都學(xué)到了什么?人類(lèi)又是怎樣教會(huì)機(jī)器學(xué)習(xí)的?本文通過(guò)案例給你講清楚各類(lèi)算法的原理和應(yīng)用。

機(jī)器是怎樣學(xué)習(xí)的,都學(xué)到了什么?人類(lèi)又是怎樣教會(huì)機(jī)器學(xué)習(xí)的?本文通過(guò)案例給你講清楚各類(lèi)算法的原理和應(yīng)用。

機(jī)器學(xué)習(xí),一言以蔽之就是人類(lèi)定義一定的計(jì)算機(jī)算法,讓計(jì)算機(jī)根據(jù)輸入的樣本和一些人類(lèi)的干預(yù)來(lái)總結(jié)和歸納其特征和特點(diǎn),并用這些特征和特點(diǎn)和一定的學(xué)習(xí)目標(biāo)形成映射關(guān)系,進(jìn)而自動(dòng)化地做出相應(yīng)反應(yīng)的過(guò)程。

這個(gè)反應(yīng)可能是做出相應(yīng)的標(biāo)記或判斷,也可能是輸出一段內(nèi)容——圖片、程序代碼、文本、聲音,而機(jī)器自己學(xué)到的內(nèi)容我們可以描述為一個(gè)函數(shù)、一段程序、一組策略等相對(duì)復(fù)雜的關(guān)系描述。

[[242208]] 

算法這種東西在最初出現(xiàn)的時(shí)候是一種確定性的機(jī)器指令執(zhí)行序列,也就是說(shuō),機(jī)器需要怎么做早就在程序一開(kāi)始就設(shè)定好。雖然說(shuō)在程序執(zhí)行的過(guò)程中可以依靠有限的參數(shù)對(duì)程序執(zhí)行過(guò)程所涉及的對(duì)象,執(zhí)行次數(shù),執(zhí)行分支條件等進(jìn)行設(shè)定,但是基本行為邏輯已經(jīng)大抵確定。

在這個(gè)過(guò)程中,機(jī)器——計(jì)算機(jī)是非常被動(dòng)的,它老老實(shí)實(shí)地嚴(yán)格執(zhí)行程序員賦予它們的指令執(zhí)行序列,沒(méi)有任何“學(xué)習(xí)”的行為。這也沒(méi)辦法,因?yàn)樽铋_(kāi)始的圖靈機(jī)模型在設(shè)計(jì)的時(shí)候就是期望計(jì)算機(jī)以這種方式。

機(jī)器學(xué)習(xí)從學(xué)習(xí)的種類(lèi)來(lái)說(shuō),最常見(jiàn)的我們習(xí)慣分作兩種:

  • 一種叫“無(wú)監(jiān)督學(xué)習(xí)”(Unsupervised Learning)
  • 一種叫“有監(jiān)督學(xué)習(xí)”(Supervised Learning)

所謂“無(wú)監(jiān)督學(xué)習(xí)”,是指人們?cè)讷@得訓(xùn)練的向量數(shù)據(jù)后在沒(méi)有標(biāo)簽的情況下嘗試找出其內(nèi)部蘊(yùn)含關(guān)系的一種挖掘工作,這個(gè)過(guò)程中使用者除了可能要設(shè)置一些必要的“超參數(shù)”(Hyper-parameter)以外不用對(duì)這些樣本做任何的標(biāo)記甚至是過(guò)程干預(yù);“有監(jiān)督學(xué)習(xí)”與此不同,每一個(gè)樣本都有著明確的標(biāo)簽,最后我們只是要總結(jié)出這些訓(xùn)練樣本向量與標(biāo)簽的映射關(guān)系。

所以在這兩種方式下,處理的邏輯有很大的區(qū)別,對(duì)于初學(xué)的朋友需要格外注意。

一、 聚類(lèi)

聚類(lèi)——英文為Clustering,它就是我們說(shuō)的典型的“無(wú)監(jiān)督學(xué)習(xí)”的一種,就是把物理對(duì)象或抽象對(duì)象的集合分組為由彼此類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程。

聚類(lèi)這種行為我們不要覺(jué)得很神秘,也不要覺(jué)得這個(gè)東西是機(jī)器學(xué)習(xí)所獨(dú)有的,恰恰相反,聚類(lèi)的行為本源還是人自身。我們學(xué)習(xí)的所有的數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)的算法或者思想的來(lái)源都是人類(lèi)自己的思考方式,只不過(guò)我們把它教給機(jī)器讓它們代勞,讓他們成為我們肢體和能力的延伸而不是讓他們替我們做創(chuàng)造和思考。

聚類(lèi)是一種什么現(xiàn)象呢?我們?nèi)祟?lèi)在認(rèn)識(shí)客觀世界的過(guò)程中其實(shí)一直遇到容量性的問(wèn)題,我們遇到的每一棵樹(shù)、每一朵花、每一只昆蟲(chóng)、每一頭動(dòng)物、每一個(gè)人、每一棟建筑……每個(gè)個(gè)體之間其實(shí)都不同,有的差距還相當(dāng)大。那么我們?nèi)嗽谡J(rèn)知和記憶這些客觀事物的過(guò)程中就會(huì)異常痛苦,因?yàn)榱繉?shí)在是大到無(wú)法承受的地步。

因此人類(lèi)才會(huì)在“自底向上”的認(rèn)識(shí)世界的過(guò)程中“偷懶”性地選擇了歸納歸類(lèi)的方式,注意“偷懶”的這種方式是人類(lèi)與生俱來(lái)的方法。

我們?cè)谛r(shí)候被父母用看圖說(shuō)話的方式來(lái)教咿呀學(xué)語(yǔ)的時(shí)候就有過(guò)類(lèi)似的體會(huì)了,圖片上畫(huà)了一只猴子,于是我們就認(rèn)識(shí)了,這是一只猴子;圖片上畫(huà)了一輛汽車(chē),于是我們就了解了,這是一輛汽車(chē)……

等我們上街或者去動(dòng)物園的時(shí)候再看,猴子也不是畫(huà)上的猴子,而且眾多猴子之間也長(zhǎng)得各式各樣,每個(gè)都不同,我們會(huì)把它們當(dāng)成一個(gè)一個(gè)的新事物去認(rèn)識(shí)嗎?我們看汽車(chē)也同樣,大小,顏色,樣式,甚至是喇叭的聲音也是形形色色五花八門(mén),它們?cè)谖覀冄劾锸且粋€(gè)個(gè)新的事物嗎?不,它們都還是汽車(chē)。

這些事物之間確實(shí)有所不同,但是它們對(duì)我們的認(rèn)知帶來(lái)了很大的困擾嗎?并沒(méi)有。我們無(wú)論如何是不會(huì)把猴子和汽車(chē)當(dāng)成一類(lèi)事物去認(rèn)知的,猴子彼此之間是不同,但是體格、毛發(fā)、行為舉止,種種形態(tài)讓我們認(rèn)為這些不同種類(lèi)的猴子都還是猴子一個(gè)大類(lèi)的動(dòng)物,別說(shuō)是和汽車(chē)混為一談,就是跟狗、馬匹、熊這些脊椎動(dòng)物我們也能輕易地分開(kāi)。

[[242209]] 

人類(lèi)天生具備這種歸納和總結(jié)的能力,能夠把認(rèn)知的事物相似地放到一起來(lái)作為一類(lèi)事物做認(rèn)識(shí),它們之間可以有彼此的不同,但是有一個(gè)我們心里的“限度”,只要在這個(gè)限度內(nèi),特征稍有區(qū)別無(wú)關(guān)大礙,它們?nèi)匀贿€是這一類(lèi)事物。

在這一類(lèi)事物的內(nèi)部,同樣有這種現(xiàn)象,一部分個(gè)體之間比較相近,而另一部分個(gè)體之間比較相近,這兩部分個(gè)體彼此之間我們?nèi)诉€是能夠明顯認(rèn)知到差別,那么這個(gè)部分的事物又會(huì)在大類(lèi)別的內(nèi)部重新劃分成兩個(gè)不同的部分進(jìn)行認(rèn)知。比如汽車(chē)直觀從樣子上可以分成小轎車(chē)、卡車(chē)、面包車(chē)等種類(lèi),蟲(chóng)子們也被人輕易地從外型上區(qū)別為飛蟲(chóng)、爬蟲(chóng)、毛毛蟲(chóng)……

在沒(méi)有人特意教給我們不同小種群的稱(chēng)謂與特性之前,我們自然具備的這種由我們主觀的認(rèn)知能力,以特征形態(tài)的相同或近似將它們劃在一個(gè)概念下,特征形態(tài)的不同劃在不同的概念下,這本身就是聚類(lèi)的思維方式。

比較常用的聚類(lèi)算法有K-Means、DBSCAN等幾種,基本思路都是利用每個(gè)向量之間的“距離”——這里指的是空間中的歐氏距離或者曼哈頓距離。從遠(yuǎn)近來(lái)進(jìn)行彼此是否更適于從屬與同一類(lèi)別來(lái)做的分類(lèi)判斷。

假如有三個(gè)1維樣本,一個(gè)180,一個(gè)179,一個(gè)150,這三個(gè)向量如果要分成兩類(lèi)的話,應(yīng)該是180和179這兩個(gè)分在一個(gè)類(lèi)別,150單一個(gè)類(lèi)別。原因就是180和179兩個(gè)的距離為1,而180和179距離150分別為30和29個(gè)單位——非常遠(yuǎn),就是從肉眼感官上來(lái)看也是這樣。用機(jī)器來(lái)做學(xué)習(xí)的話,它也能夠通過(guò)算法自動(dòng)去感知到這些向量之間的距離,然后將它們彼此之間那些靠得近的分在一起以區(qū)別于其他類(lèi)簇。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

在用機(jī)器做聚類(lèi)學(xué)習(xí)的時(shí)候,我們每種算法都對(duì)應(yīng)有相應(yīng)的計(jì)算原則,可以把輸入的各種看上去彼此“相近”的向量分在一個(gè)群組中。然后下一步,人們通常更有針對(duì)性地去研究每一組聚在一起的對(duì)象所擁有的共性以及那些遠(yuǎn)離各個(gè)群組的孤立點(diǎn)——這種孤立點(diǎn)研究在刑偵、特殊疾病排查等方面都有應(yīng)用。

在這個(gè)過(guò)程中,從獲得到具體的樣本向量,到得出聚類(lèi)結(jié)果,人們是不用進(jìn)行干預(yù)的,這就是“非監(jiān)督”一詞的由來(lái)。

二、回歸

回歸是一種解題方法,或者說(shuō)“學(xué)習(xí)”方法,也是機(jī)器學(xué)習(xí)中一塊比較重要的概念。

回歸的英文是Regression,單詞原型的regress大概的意思是“回退,退化,倒退。”其實(shí)Regression——回歸分析的意思是借用里面“倒退,倒推”的含義。簡(jiǎn)單說(shuō)就是“由果索因”的過(guò)程,是一種歸納的思想——當(dāng)我看到大量的事實(shí)所呈現(xiàn)的樣態(tài),我推斷出原因或客觀蘊(yùn)含的關(guān)系是如何的;當(dāng)我看到大量的觀測(cè)而來(lái)的向量(數(shù)字)是某種樣態(tài),我設(shè)計(jì)一種假說(shuō)來(lái)描述出它們之間蘊(yùn)含的關(guān)系是如何的。

在機(jī)器學(xué)習(xí)領(lǐng)域,最常用的回歸是兩大類(lèi)——一類(lèi)是線性回歸,一類(lèi)是非線性回歸。

所謂線性回歸,就是在觀察和歸納樣本的過(guò)程中認(rèn)為向量和最終的函數(shù)值呈現(xiàn)線性的關(guān)系。而后設(shè)計(jì)這種關(guān)系為:

y = f(x) = wx + b

這里的w和x分別是1×n和n×1的矩陣,wb則指的是這兩個(gè)矩陣的內(nèi)積。具象一點(diǎn)說(shuō),例如,如果你在一個(gè)實(shí)驗(yàn)中觀察到一名病患的幾個(gè)指標(biāo)呈現(xiàn)線性關(guān)系(注意這個(gè)是大前提,如果你觀察到的不是線性關(guān)系而用線性模型來(lái)建模的話,是會(huì)得到欠擬合的結(jié)果的)。

拿到的x是一個(gè)5維的向量,分別代表一名患者的年齡、身高、體重、血壓、血脂這幾個(gè)指標(biāo)值,y標(biāo)簽是描述他們血糖程度的指標(biāo)值,x和y都是觀測(cè)到的值。在拿到大量樣本(就是大量的x和y)后,我猜測(cè)向量 (年齡,身高,體重,血壓,血脂) 和與其有關(guān)聯(lián)關(guān)系的血糖程度y值有這樣的關(guān)系:

y=w1×年齡+w2×身高+w3×體重+w4×血壓+w5×血脂+b

那么就把每一名患者的 (年齡,身高,體重,血壓,血脂) 具體向量值帶入,并把其血糖程度y值也帶入。這樣一來(lái),在所有的患者數(shù)據(jù)輸入后,會(huì)出現(xiàn)一系列的六元一次方程,未知數(shù)是w1~w5和b——也就是w矩陣的內(nèi)容和偏置b的內(nèi)容。而下面要做的事情就是要把w矩陣的內(nèi)容和偏置b的內(nèi)容求出一個(gè)最“合適”的解來(lái)。這個(gè)“合適”的概念就是要得到一個(gè)全局范圍內(nèi)由f(x)映射得到的y和我真實(shí)觀測(cè)到的那個(gè)y的差距的加和,寫(xiě)出來(lái)是這種方式:

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

怎么理解這個(gè)Loss的含義呢?右面的

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法

表示加和,相當(dāng)于做一個(gè)一個(gè)循環(huán),i是循環(huán)變量,從1做到n,覆蓋訓(xùn)練集當(dāng)中的每一個(gè)樣本向量。加和的內(nèi)容是wxi+b和yi的差值,每一個(gè)訓(xùn)練向量xi在通過(guò)我們剛剛假設(shè)的關(guān)系f(x)=wx+b映射后與實(shí)際觀測(cè)值yi的差距值。取絕對(duì)值的含義就是指這個(gè)差距不論是比觀測(cè)值大或者觀測(cè)值小,都是一樣的差距。將全局范圍內(nèi)這n個(gè)差距值都加起來(lái)我們管他叫總差距值好了,就是這個(gè) 的含義。

那么顯而易見(jiàn),這個(gè)映射關(guān)系中如果w和b給的理想的話,應(yīng)該這個(gè)差距值是0,因?yàn)槊總€(gè)x經(jīng)過(guò)映射都“嚴(yán)絲合縫”地和觀測(cè)值一致了——這種狀況太理想了,在實(shí)際應(yīng)用中是見(jiàn)不到的。不過(guò),Loss越小就說(shuō)明這個(gè)映射關(guān)系描述越精確,這個(gè)還是很直觀的。那么想辦法把Loss描述成:

Loss=f(w, b)

再使用相應(yīng)的方法找出保證Loss盡可能小的w和b的取值,就算是大功告成了。我們后面會(huì)講計(jì)算機(jī)怎么來(lái)求這一類(lèi)的解——放心,有辦法的,即便不用聯(lián)立解方程。一旦得到一個(gè)誤差足夠小的w和b并能夠在驗(yàn)證用的數(shù)據(jù)集上有滿足當(dāng)前需求的精度表現(xiàn)后就可以了。例如,預(yù)測(cè)病患的血糖誤差為誤差平均小于等于0.3為容忍上線,訓(xùn)練后在驗(yàn)證集上的表現(xiàn)為誤差平均為0.2,那就算是合格了。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

請(qǐng)注意,在傳統(tǒng)的機(jī)器學(xué)習(xí)中回歸、分類(lèi)這些算法里都有一個(gè)要把獲取到的數(shù)據(jù)集分成訓(xùn)練集合驗(yàn)證集的過(guò)程。用訓(xùn)練集數(shù)據(jù)來(lái)做訓(xùn)練,歸納關(guān)系用;用驗(yàn)證集數(shù)據(jù)來(lái)做驗(yàn)證,避免過(guò)擬合現(xiàn)象,如果你不太明白過(guò)擬合是什么意思也沒(méi)關(guān)系后面我們會(huì)講的,不必著急。數(shù)據(jù)集的劃分三七開(kāi)也可以,二八開(kāi)也沒(méi)什么不行,現(xiàn)在生產(chǎn)環(huán)境中大致用的都是這樣一種比例,反正訓(xùn)練集一側(cè)用數(shù)據(jù)多的那部分。

由于這種假設(shè)中輸入的x向量與標(biāo)簽值y是一種線性關(guān)系y=f(x)=wx+b,所以才叫做線性回歸。最常見(jiàn)的形式是y=f(x)=ax+b這種形式,也就是x是一個(gè)一維向量,w也是一個(gè)一維向量的情況。如果是呈現(xiàn)其他關(guān)系比如指數(shù)關(guān)系,對(duì)數(shù)關(guān)系,那么這種時(shí)候你用線性回歸去做擬合會(huì)發(fā)現(xiàn)它的損失函數(shù)非常大,在驗(yàn)證集上表現(xiàn)出來(lái)的誤差也非常大,這是一種欠擬合現(xiàn)象,我們后面同樣會(huì)講,大家先技術(shù)這樣一個(gè)名詞。

非線性回歸之中在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最多的當(dāng)屬邏輯回歸。它和線性回歸都叫回歸,但是邏輯回歸看上去更像分類(lèi)。我們先在回歸這一節(jié)提一下這種回歸的工作方式。與前面我們說(shuō)的線性回歸不同,在這種模型中觀察者假設(shè)的前提是y只有兩種值,一種是1,一種是0,或者說(shuō)“是”或“否”的這種判斷。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

這里面的wx+b和前面線性回歸中所說(shuō)的wx+b是一個(gè)概念,都是指一個(gè)w矩陣和x做了內(nèi)積再和偏置b做了一個(gè)加和。如果設(shè)z=wx+b那么這個(gè)回歸的分類(lèi)模型表達(dá)式就可以改寫(xiě)為:

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

函數(shù)圖像為:

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

橫軸是z,縱軸是y,一個(gè)多維的x經(jīng)過(guò)這樣兩次映射后最后投射在y上是一個(gè)取值只有1和0二項(xiàng)分布。也就是我們前面說(shuō)的產(chǎn)生了一個(gè)“是”或“否”的分類(lèi)。

訓(xùn)練的過(guò)程跟普通線性回歸也是一樣的,只不過(guò)損失函數(shù)的形式不同。但是,它的損失函數(shù)的含義仍舊是表示這種擬合殘差與待定系數(shù)的關(guān)系,并通過(guò)相應(yīng)的手段進(jìn)行迭代式的優(yōu)化,最后通過(guò)逐步調(diào)整待定系數(shù)減小殘差。邏輯回歸的表達(dá)式的定義本源是來(lái)自于伯努利分布的,后面我們也會(huì)有相對(duì)詳細(xì)的說(shuō)明,這里先做一個(gè)感性認(rèn)識(shí)。

三、分類(lèi)

分類(lèi)是我們?cè)诶脵C(jī)器學(xué)習(xí)中使用的最多的一大類(lèi)算法,我們通常也喜歡把分類(lèi)算法叫“分類(lèi)器”。

這個(gè)說(shuō)法其實(shí)也非常形象,在我們看來(lái),這就是一個(gè)黑盒子,有個(gè)入口,有個(gè)出口。我們?cè)谌肟趤G進(jìn)去一個(gè)“樣本”,在出口期望得到一個(gè)分類(lèi)的“標(biāo)簽”。

比如,一個(gè)分類(lèi)器可以進(jìn)行圖片內(nèi)容的分類(lèi)標(biāo)簽,我們?cè)?ldquo;入口”丟進(jìn)去一張老虎的照片,在“出口”得到“老虎”這樣一個(gè)描述標(biāo)簽;而當(dāng)我們?cè)?ldquo;入口”丟進(jìn)去一張飛機(jī)的照片,在“出口”得到“飛機(jī)”這樣一個(gè)描述標(biāo)簽,這就是一個(gè)分類(lèi)器最為基本的分類(lèi)工作過(guò)程。

[[242217]] 

一個(gè)分類(lèi)器模型在它誕生(初始化)的時(shí)候其實(shí)是不具備這種功能的,而要讓它具備這種功能只有通過(guò)給予它大量的圖片以及圖片所對(duì)應(yīng)的標(biāo)簽分類(lèi),讓它自己進(jìn)行充分地總結(jié)和歸納,才能具備這樣一種能力。

在剛剛看到的邏輯回歸這種方式中我們已然看到了一些端倪。邏輯回歸和普通的線性回歸不同,它的擬合是一種非線性的方式。而最終輸出“標(biāo)簽值”雖然是一種實(shí)數(shù)變量,而最終分類(lèi)的結(jié)果卻期望是一種確定的值“是”(1)或“不是”(0)。其他各種分類(lèi)器的輸出通常也是離散的變量,體現(xiàn)出來(lái)也多是非線性的分類(lèi)特點(diǎn)。

我們?cè)诰帉?xiě)代碼教會(huì)分類(lèi)器怎么做學(xué)習(xí)的時(shí)候,其實(shí)是在教它如何建立一種輸入到輸出的映射邏輯,以及讓它自己調(diào)整這種邏輯關(guān)系,使得邏輯更為合理。

而合理與否的判斷也非常明確,那就是召回率和精確率兩個(gè)指標(biāo)——召回率指的是檢索出的相關(guān)樣本和樣本庫(kù)(待測(cè)對(duì)象庫(kù))中所有的相關(guān)樣本的比率,衡量的是分類(lèi)器的查全率。精確率是檢索出的相關(guān)樣本數(shù)與檢索出的樣本總數(shù)的比率,衡量的是分類(lèi)器的查準(zhǔn)率。

具體來(lái)說(shuō),譬如有一個(gè)1000個(gè)樣本的訓(xùn)練集,是1000張照片,里面有200張是貓,200張是狗,600張是兔子,一共分成三類(lèi)。我們將每個(gè)照片向量化后,加上它的標(biāo)簽

  • “貓”——“0”
  • “狗”——“1”
  • “兔子”——“2”

這相當(dāng)于一個(gè)x和y的對(duì)應(yīng)關(guān)系,把它們輸入到訓(xùn)練集去訓(xùn)練(但是這個(gè)地方的標(biāo)簽0、1、2并不是實(shí)數(shù)定義,而是離散化的標(biāo)簽定義,通常習(xí)慣用one-hot獨(dú)熱編碼的方式來(lái)表示)。經(jīng)過(guò)多輪訓(xùn)練之后,分類(lèi)器將邏輯關(guān)系調(diào)整到了一個(gè)相對(duì)穩(wěn)定的程度,然后用這個(gè)分類(lèi)器再對(duì)這200張貓,200張狗,600張兔子進(jìn)行分類(lèi)的時(shí)候。發(fā)現(xiàn):

200張貓的圖片中,有180張可以正確識(shí)別為貓,而有20張誤判為狗。

200張狗的圖片可以全部判斷正確為狗。

600張兔子的圖片中,有550張可以正確識(shí)別為兔子,還有30張被誤判為貓,20張誤判為狗。

你可不要覺(jué)得奇怪,在所有的機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)訓(xùn)練的工程中,誤判率幾乎是沒(méi)有辦法消滅的,只能用盡可能科學(xué)的手段將誤判率降低。不要太難為機(jī)器,其實(shí)人都沒(méi)辦法保證所有的信息100%正確判斷,尤其是在圖片大小、圖片清晰程度、光線明暗懸殊的情況下,不是嗎?那就更別說(shuō)機(jī)器了,它更做不到。

我們還是來(lái)解釋召回率和精確率的問(wèn)題,就剛才這個(gè)例子來(lái)說(shuō),一共1000張圖片中,200張是貓,但是只能正確識(shí)別出180張,所以貓的召回率是180÷200=90%,600張兔子中正確識(shí)別550張,所以兔子的召回率是550÷600≈91.7%,就這樣計(jì)算。

而在1000中圖片中,當(dāng)我檢索狗的時(shí)候會(huì)檢索出240張狗的圖片,其中有200張確實(shí)是狗,有20張是被誤判的貓,還有20張是被誤判的兔子,所以240張狗的圖片中正確的僅有200張而已,那么狗的精確率為200÷240≈83.3%。怎么樣,這兩個(gè)概念不難理解吧。

分類(lèi)的訓(xùn)練過(guò)程和回歸的訓(xùn)練過(guò)程一樣,都是極為套路化的程序。

  • 第一,輸入樣本和分類(lèi)標(biāo)簽。
  • 第二,建立映射假說(shuō)的某個(gè)y=f(x)的模型。
  • 第三,求解出全局的損失函數(shù)Loss和待定系數(shù)w的映射關(guān)系,Loss=g(w)。
  • 第四,通過(guò)迭代優(yōu)化逐步降低Loss,最終找到一個(gè)w能滿足召回率和精確率滿足當(dāng)前場(chǎng)景需要。注意這說(shuō)的尤其指的是在驗(yàn)證數(shù)據(jù)集上的表現(xiàn)。

大家請(qǐng)注意這4個(gè)步驟,我們從前面最簡(jiǎn)單的機(jī)器學(xué)習(xí)的例子中已經(jīng)總結(jié)出來(lái)一個(gè)最為有概括性的科學(xué)性流程。這種流程廣泛使用,并且在其它機(jī)器學(xué)習(xí)的場(chǎng)景中也是可以順利落地的。

分類(lèi)器的訓(xùn)練和工作過(guò)程就是這個(gè)樣子了,聽(tīng)起來(lái)分類(lèi)器的工作過(guò)程非常簡(jiǎn)單,但是要知道人的智能行為其實(shí)就是一種非常精妙或者稱(chēng)為完美的分類(lèi)器。他能夠處理極為復(fù)雜,極為抽象的輸入內(nèi)容——不管是文字、聲音、圖像,甚至是冷、熱、刺痛感、瘙癢感這種難以名狀的刺激,并且能夠在相當(dāng)短的時(shí)間內(nèi)進(jìn)行合理的輸出——例如對(duì)答、附和、評(píng)論,亦或是尖叫、大笑等各種喜怒哀樂(lè)的反應(yīng)與表現(xiàn)。

從定義的角度上來(lái)說(shuō),人其實(shí)就是一種極為復(fù)雜的且極為智能的分類(lèi)器。而我們?cè)诠I(yè)上使用的分類(lèi)器則通常是非常片面的,偏門(mén)的,只研究一種或幾個(gè)事物的“專(zhuān)業(yè)性”的分類(lèi)器,這和我們?nèi)祟?lèi)的分類(lèi)能力區(qū)別就太大了。

[[242218]] 

四、綜合應(yīng)用

到現(xiàn)在為止,我們看到的絕大多數(shù)的機(jī)器學(xué)習(xí)的應(yīng)用環(huán)境都非常單純——向量清洗到位,邊界劃定清晰。

例如,垃圾郵件的分揀,能夠通過(guò)郵件內(nèi)容的輸入來(lái)判斷郵件是否為垃圾郵件;新聞的自動(dòng)分類(lèi),能夠通過(guò)欣慰?jī)?nèi)容的分類(lèi)來(lái)判斷新聞的類(lèi)別或描述內(nèi)容的屬性;攝像頭對(duì)車(chē)牌號(hào)的OCR電子識(shí)別手寫(xiě)識(shí)別,這些應(yīng)用可以通過(guò)輸入一個(gè)圖像來(lái)得到其中蘊(yùn)含的文字信息向量,諸如此類(lèi)等等,這些都是早些年應(yīng)用比較成熟的領(lǐng)域,在這種應(yīng)用場(chǎng)景中機(jī)器通過(guò)學(xué)習(xí)能夠取代一些純粹的體力勞動(dòng)。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

在近幾年,隨著計(jì)算機(jī)能力的提升,尤其是GPU并行計(jì)算的普及化,使得很多原來(lái)高密度計(jì)算的場(chǎng)景變得門(mén)檻越來(lái)越低,人們?cè)谏逃妙I(lǐng)域已經(jīng)開(kāi)始尋找用深度學(xué)習(xí)的網(wǎng)絡(luò)來(lái)做一些原來(lái)不可想象的事情。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

例如這種使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)照片進(jìn)行風(fēng)格處理,拿一張輸入的普通照片,再拿一張有著較強(qiáng)藝術(shù)風(fēng)格的繪畫(huà)作品,然后通過(guò)卷積網(wǎng)絡(luò)進(jìn)行處理,最后由計(jì)算機(jī)“創(chuàng)作”出一幅內(nèi)容基于照片但是風(fēng)格基于繪畫(huà)作品的新作出來(lái)。而這種事情在幾年前是難以想象的,因?yàn)檫@看上去太“智能”了,太有“創(chuàng)造力”了。

還有類(lèi)似這種,我們輸入一張照片,然后讓計(jì)算機(jī)根據(jù)這張照片的風(fēng)格和內(nèi)容,憑空創(chuàng)造一張很像但不一樣的照片出來(lái)。注意哦,這個(gè)跟Photoshop的功能可是完全不同的,它是全自動(dòng)。在這些圖中,右側(cè)的圖都是源圖,左側(cè)的圖都是計(jì)算機(jī)生成的圖,有水波紋、云朵、花叢、還有隨意的藝術(shù)涂鴉。怎么樣,有不少真的是可以以假亂真了吧。這都是使用深度神經(jīng)網(wǎng)絡(luò)處理的結(jié)果。

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

輕松看懂機(jī)器學(xué)習(xí)!3個(gè)案例詳解聚類(lèi)、回歸、分類(lèi)算法 

那么除此之外,像語(yǔ)音識(shí)別以及視頻中存在物體的檢出,這些內(nèi)容也是屬于近幾年研究比較熱門(mén)并逐漸趨于成熟的應(yīng)用領(lǐng)域。實(shí)際上,在實(shí)現(xiàn)層面有很多種實(shí)現(xiàn)方式可以完成像這樣的應(yīng)用。

而在學(xué)術(shù)領(lǐng)域,也有一類(lèi)新興的基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的研究領(lǐng)域,叫做“對(duì)抗學(xué)習(xí)”可以實(shí)現(xiàn)類(lèi)似的方式。在深度學(xué)習(xí)領(lǐng)域我們會(huì)使用“生成對(duì)抗網(wǎng)絡(luò)”(Generative Adversial Network),這種網(wǎng)絡(luò)的特點(diǎn)就是可以進(jìn)行復(fù)雜內(nèi)容的生成,而非生成一個(gè)標(biāo)簽這么簡(jiǎn)單。 

責(zé)任編輯:龐桂玉 來(lái)源: 今日頭條
相關(guān)推薦

2016-12-01 07:41:37

機(jī)器學(xué)習(xí)常用算法

2017-12-16 11:50:56

機(jī)器學(xué)習(xí)常用算法

2021-08-30 20:12:11

MySQL事務(wù)隔離

2023-07-13 12:21:18

2020-12-24 06:54:45

Python機(jī)器學(xué)習(xí)多類(lèi)分類(lèi)邏輯回歸

2024-12-20 16:00:00

Python文本分類(lèi)聚類(lèi)

2017-05-23 17:38:05

機(jī)器學(xué)習(xí)算法集群

2022-03-17 17:08:05

機(jī)器學(xué)習(xí)算法類(lèi)型

2022-01-24 20:40:55

JavastreamLambda

2021-11-07 15:04:39

機(jī)器學(xué)習(xí)人工智能數(shù)據(jù)

2021-03-10 14:21:33

人工智能機(jī)器學(xué)習(xí)算法

2019-01-23 11:45:47

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2011-07-25 15:39:49

SQL SERVER數(shù)聚類(lèi)算法順序聚類(lèi)算法

2011-07-26 10:16:14

SQL Server數(shù)據(jù)挖掘

2020-05-26 18:35:00

機(jī)器學(xué)習(xí)人工智能AI

2018-02-08 09:29:17

2020-12-19 10:54:25

機(jī)器學(xué)習(xí)線性回歸算法

2020-12-23 07:54:56

Python機(jī)器學(xué)習(xí)邏輯回歸算法

2024-12-09 09:44:34

機(jī)器學(xué)習(xí)模型分類(lèi)器

2020-08-21 10:35:17

機(jī)器學(xué)習(xí)IT領(lǐng)導(dǎo)者人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)