帶著問題學(xué)Machine Learning:什么是機器學(xué)習(xí)
機器學(xué)習(xí)是個難以接受的東西。如果有案例就好了,那就 lets go~
Q:什么是機器學(xué)習(xí)?
機器學(xué)習(xí)就是讓計算機有像人一樣的學(xué)習(xí)能力的技術(shù),是從數(shù)據(jù)中尋找有用的知識的數(shù)據(jù)挖掘技術(shù)。
比如呢?運用機器學(xué)習(xí)技術(shù),類似今日頭條給我推我喜歡看的,并看不完的短視頻,(害得我卸載了…)。比如說,淘寶知道你喜歡的衣服款式,老是在猜你喜歡那里出現(xiàn)你喜歡的。
Q:那機器學(xué)習(xí)的數(shù)據(jù)種類不同吧?
是的,很不一樣。根據(jù)所學(xué)習(xí)的數(shù)據(jù)種類,可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等。
Q:什么是監(jiān)督學(xué)習(xí)?
監(jiān)督學(xué)習(xí),就是計算機在有結(jié)果標(biāo)記的數(shù)據(jù)學(xué)習(xí)后,能預(yù)測數(shù)據(jù)結(jié)果的學(xué)習(xí)過程。
比如,預(yù)測數(shù)值型數(shù)據(jù)的回歸,預(yù)測標(biāo)稱型數(shù)據(jù)的分類等。太抽象了…
對應(yīng)的比如,圖像處理,垃圾郵件的分類和攔截等
Q:什么是無監(jiān)督學(xué)習(xí)?
無監(jiān)督學(xué)習(xí),就是計算機在沒有結(jié)果標(biāo)志的數(shù)據(jù)學(xué)習(xí)后,能獲取有用數(shù)據(jù)的學(xué)習(xí)過程。
自然還有個半監(jiān)督學(xué)習(xí),介于兩者之間。
比如,預(yù)測腫瘤的良性惡性、視頻分析等
Q:什么是強化學(xué)習(xí)?
強化學(xué)習(xí),跟無監(jiān)督學(xué)習(xí)類似,沒有結(jié)果標(biāo)志的數(shù)據(jù)學(xué)習(xí)后,又跟監(jiān)督學(xué)習(xí)一樣,能預(yù)測數(shù)據(jù)結(jié)果。
這個’四不像’,被認為人類的主要學(xué)習(xí)模式之一。
自然也很復(fù)雜,涉及到的算法很多。下面聊聊常見的算法。
Q:監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中有哪些典型的問題?
在機器學(xué)習(xí)中有很多典型的問題,比如回歸、分類、異常檢測、聚類和降維等。自然每個問題,延伸出就是算法,所以也有對應(yīng)的算法。
Q:什么是回歸問題?
回歸,都對線性回歸有印象吧。回歸是數(shù)學(xué)模型,用于統(tǒng)計的一種方法。是對一組因變量 Yn 和另一組自變量 Xn 之間關(guān)系的統(tǒng)計分析。
比如記得以前用 SPSS 的時候,回歸統(tǒng)計人的體表面積與身高、體重有關(guān)系。從案例看出,回歸多半用在監(jiān)督學(xué)習(xí)。
Q:什么是分類問題?
分類包括有監(jiān)督分類和無監(jiān)督分類。
有監(jiān)督分類,就是大家一直知道的。術(shù)語表達,是指對于指定的模式進行識別的有監(jiān)督識別問題。這類分類問題,也可以想回歸問題那樣,被看作是函數(shù)近似問題。對,在經(jīng)過已知樣本數(shù)據(jù)的訓(xùn)練,只能對未知樣本估計分類,無法對分類近似分類。
無監(jiān)督分類,沒有任何先驗條件,僅僅根據(jù)數(shù)據(jù),(盲目)的分類。其分類結(jié)果肯定是不同緯度的分類,但不能確定分類的類別屬性。
Q:什么是異常檢測問題?
異常檢測,簡單說,就是從一堆數(shù)據(jù)中區(qū)分異常值和正常值。術(shù)語表達,對數(shù)據(jù)集中其他項目的項目、事件等識別。比如文本錯誤問題。
Q:什么是聚類問題?
聚類,和分類問題相似。但屬于一種無監(jiān)督學(xué)習(xí)。是把相似的樣本分成不同的組別或者更多子集。關(guān)鍵詞:相似,所以相同組別(子集)的樣本具有相似的性質(zhì),不同組別(子集)的樣本之間具有不同的性質(zhì)。在聚類問題中,如何計算樣本之間的相似度是很重要的。
Q:什么是降維問題?
降維,其目的很直接,提取關(guān)鍵信息。術(shù)語表達,是降低樣本的個數(shù),得到一組變量的過程。自然,根據(jù)樣本種類的不同,(我們上面介紹 監(jiān)督學(xué)習(xí) 和 無監(jiān)督學(xué)習(xí) ,可以復(fù)習(xí)下)降維的問題也要分為 監(jiān)督降維 和 無監(jiān)督降維。降維有兩種方法:特征選擇和特征提取。
特征選擇,是假定樣本數(shù)據(jù)中包含大量冗余和無關(guān)數(shù)據(jù),從而找出主要數(shù)據(jù)的方法。
特征提取,是從高維數(shù)據(jù)中提取關(guān)鍵信息,轉(zhuǎn)為低維數(shù)據(jù)進而求解的方法。過程中伴隨著除去數(shù)據(jù),創(chuàng)建新數(shù)據(jù)。
廣泛用在圖像識別領(lǐng)域。