帶著問(wèn)題學(xué) ML:什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是個(gè)難以接受的東西。如果有案例就好了,那就 lets go~
Q:什么是機(jī)器學(xué)習(xí)?
機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)有像人一樣的學(xué)習(xí)能力的技術(shù),是從數(shù)據(jù)中尋找有用的知識(shí)的數(shù)據(jù)挖掘技術(shù)。
比如呢?運(yùn)用機(jī)器學(xué)習(xí)技術(shù),類似今日頭條給我推我喜歡看的,并看不完的短視頻,(害得我卸載了…)。比如說(shuō),淘寶知道你喜歡的衣服款式,老是在猜你喜歡那里出現(xiàn)你喜歡的。
Q:那機(jī)器學(xué)習(xí)的數(shù)據(jù)種類不同吧?
是的,很不一樣。根據(jù)所學(xué)習(xí)的數(shù)據(jù)種類,可以分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等。
Q:什么是監(jiān)督學(xué)習(xí)?
監(jiān)督學(xué)習(xí),就是計(jì)算機(jī)在有結(jié)果標(biāo)記的數(shù)據(jù)學(xué)習(xí)后,能預(yù)測(cè)數(shù)據(jù)結(jié)果的學(xué)習(xí)過(guò)程。
比如,預(yù)測(cè)數(shù)值型數(shù)據(jù)的回歸,預(yù)測(cè)標(biāo)稱型數(shù)據(jù)的分類等。太抽象了...
對(duì)應(yīng)的比如,圖像處理,垃圾郵件的分類和攔截等。
Q:什么是無(wú)監(jiān)督學(xué)習(xí)?
無(wú)監(jiān)督學(xué)習(xí),就是計(jì)算機(jī)在沒(méi)有結(jié)果標(biāo)志的數(shù)據(jù)學(xué)習(xí)后,能獲取有用數(shù)據(jù)的學(xué)習(xí)過(guò)程。
自然還有個(gè)半監(jiān)督學(xué)習(xí),介于兩者之間。
比如,預(yù)測(cè)腫瘤的良性惡性、視頻分析等
Q:什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí),跟無(wú)監(jiān)督學(xué)習(xí)類似,沒(méi)有結(jié)果標(biāo)志的數(shù)據(jù)學(xué)習(xí)后,又跟監(jiān)督學(xué)習(xí)一樣,能預(yù)測(cè)數(shù)據(jù)結(jié)果。
這個(gè)'四不像',被認(rèn)為人類的主要學(xué)習(xí)模式之一。
自然也很復(fù)雜,涉及到的算法很多。下面聊聊常見(jiàn)的算法。
Q:監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)中有哪些典型的問(wèn)題?
在機(jī)器學(xué)習(xí)中有很多典型的問(wèn)題,比如回歸、分類、異常檢測(cè)、聚類和降維等。自然每個(gè)問(wèn)題,延伸出就是算法,所以也有對(duì)應(yīng)的算法。
Q:什么是回歸問(wèn)題?
回歸,都對(duì)線性回歸有印象吧?;貧w是數(shù)學(xué)模型,用于統(tǒng)計(jì)的一種方法。是對(duì)一組因變量 Yn 和另一組自變量 Xn 之間關(guān)系的統(tǒng)計(jì)分析。
比如記得以前用 SPSS 的時(shí)候,回歸統(tǒng)計(jì)人的體表面積與身高、體重有關(guān)系。從案例看出,回歸多半用在監(jiān)督學(xué)習(xí)。
Q:什么是分類問(wèn)題?
分類包括有監(jiān)督分類和無(wú)監(jiān)督分類。
有監(jiān)督分類,就是大家一直知道的。術(shù)語(yǔ)表達(dá),是指對(duì)于指定的模式進(jìn)行識(shí)別的有監(jiān)督識(shí)別問(wèn)題。這類分類問(wèn)題,也可以想回歸問(wèn)題那樣,被看作是函數(shù)近似問(wèn)題。對(duì),在經(jīng)過(guò)已知樣本數(shù)據(jù)的訓(xùn)練,只能對(duì)未知樣本估計(jì)分類,無(wú)法對(duì)分類近似分類。
無(wú)監(jiān)督分類,沒(méi)有任何先驗(yàn)條件,僅僅根據(jù)數(shù)據(jù),(盲目)的分類。其分類結(jié)果肯定是不同緯度的分類,但不能確定分類的類別屬性。
Q:什么是異常檢測(cè)問(wèn)題?
異常檢測(cè),簡(jiǎn)單說(shuō),就是從一堆數(shù)據(jù)中區(qū)分異常值和正常值。術(shù)語(yǔ)表達(dá),對(duì)數(shù)據(jù)集中其他項(xiàng)目的項(xiàng)目、事件等識(shí)別。比如文本錯(cuò)誤問(wèn)題。
Q:什么是聚類問(wèn)題?
聚類,和分類問(wèn)題相似。但屬于一種無(wú)監(jiān)督學(xué)習(xí)。是把相似的樣本分成不同的組別或者更多子集。關(guān)鍵詞:相似,所以相同組別(子集)的樣本具有相似的性質(zhì),不同組別(子集)的樣本之間具有不同的性質(zhì)。在聚類問(wèn)題中,如何計(jì)算樣本之間的相似度是很重要的。
Q:什么是降維問(wèn)題?
降維,其目的很直接,提取關(guān)鍵信息。術(shù)語(yǔ)表達(dá),是降低樣本的個(gè)數(shù),得到一組變量的過(guò)程。自然,根據(jù)樣本種類的不同,(我們上面介紹 監(jiān)督學(xué)習(xí) 和 無(wú)監(jiān)督學(xué)習(xí) ,可以復(fù)習(xí)下)降維的問(wèn)題也要分為 監(jiān)督降維 和 無(wú)監(jiān)督降維。降維有兩種方法:特征選擇和特征提取。
特征選擇,是假定樣本數(shù)據(jù)中包含大量冗余和無(wú)關(guān)數(shù)據(jù),從而找出主要數(shù)據(jù)的方法。
特征提取,是從高維數(shù)據(jù)中提取關(guān)鍵信息,轉(zhuǎn)為低維數(shù)據(jù)進(jìn)而求解的方法。過(guò)程中伴隨著除去數(shù)據(jù),創(chuàng)建新數(shù)據(jù)。
廣泛用在圖像識(shí)別領(lǐng)域。
***學(xué)習(xí)腦圖來(lái)一張:
【本文為51CTO專欄作者“李強(qiáng)強(qiáng)”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)通過(guò)51CTO聯(lián)系作者獲取授權(quán)】