7大分類,40多個(gè)關(guān)鍵概念,入門機(jī)器學(xué)習(xí)要掌握的概念都在這里了
不知道大家有沒(méi)有這樣的感覺(jué):在我們學(xué)習(xí)的時(shí)候,經(jīng)常學(xué)了就忘,忘了再學(xué),彷佛進(jìn)入了死循環(huán)。明明都學(xué)了,結(jié)果就是記不住。有時(shí)候都想往自己的腦袋里植入一個(gè)儲(chǔ)存器,想學(xué)什么就往腦子里復(fù)制,這樣多好。
機(jī)器學(xué)習(xí)就是這樣一個(gè)例子。很多時(shí)候,我們?cè)趯W(xué)習(xí)過(guò)程中迷失了方向,從而失去了繼續(xù)學(xué)習(xí)的動(dòng)力。許多概念需要系統(tǒng)化。但是今天,我想為大家介紹機(jī)器學(xué)習(xí)的所有概念,這些概念將有助于你更快地了解這個(gè)領(lǐng)域。這篇文章將適合那些剛剛?cè)腴T并且已經(jīng)在實(shí)踐中開始使用機(jī)器學(xué)習(xí)的人。
概述:
- 動(dòng)機(jī)
- 分類
- 問(wèn)題類型
- 類
- 性能分析
- 算法
- 調(diào)試
廢話不多說(shuō),讓我們直接開始吧!
機(jī)器學(xué)習(xí)概念
這些概念中的每一個(gè)都會(huì)引出其他更小的衍生概念。在這里,我會(huì)為每一個(gè)術(shù)語(yǔ)給出最短和最簡(jiǎn)單的定義:
1、動(dòng)機(jī)
動(dòng)機(jī)對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)很重要,因?yàn)樗纬闪四P团c數(shù)據(jù)進(jìn)行比較的過(guò)程。機(jī)器學(xué)習(xí)的動(dòng)機(jī)有兩種方法:
- 預(yù)測(cè)。非線性模型認(rèn)為,海帶的預(yù)測(cè)變量可以作為判別結(jié)果的輸入,但不是每種方式的輸入都會(huì)影響預(yù)測(cè)。例如,以預(yù)測(cè)為導(dǎo)向的觀點(diǎn)最適合回答這樣一個(gè)問(wèn)題:我的車是被高估還是低估了?如果對(duì)此應(yīng)用推論,模型的可解釋性將大大降低。
- 推斷。線性模型來(lái)區(qū)分影響預(yù)測(cè)的每個(gè)輸入的方式。例如,它會(huì)給你一個(gè)精確的答案:如果我的車能在沒(méi)有車頂?shù)那闆r下行駛,它會(huì)花多少錢?通過(guò)比較模型的預(yù)測(cè)結(jié)果,推斷比非線性預(yù)測(cè)更容易理解。
2、分類
與其他方法一樣,訓(xùn)練機(jī)器學(xué)習(xí)算法的方法也各不相同,而且各有優(yōu)缺點(diǎn):
- 監(jiān)督學(xué)習(xí)。任務(wù)驅(qū)動(dòng)型方法,在這個(gè)過(guò)程中,計(jì)算機(jī)由“老師”提供示例輸入及其期望的輸出,目標(biāo)是學(xué)習(xí)將輸入映射到輸出的一般規(guī)則。
- 無(wú)監(jiān)督學(xué)習(xí)。數(shù)據(jù)驅(qū)動(dòng)型方法,目標(biāo)是通過(guò)對(duì)數(shù)據(jù)中的底層結(jié)構(gòu)或分布進(jìn)行建模來(lái)了解更多有關(guān)數(shù)據(jù)的信息。它可以是兩種類型:發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,也可以是達(dá)到目的的方法(特征學(xué)習(xí))。
- 強(qiáng)化學(xué)習(xí)。此類別基于從錯(cuò)誤中學(xué)習(xí),該錯(cuò)誤使用獎(jiǎng)勵(lì)和懲罰系統(tǒng)訓(xùn)練算法。
3、問(wèn)題類型
如果要深入研究機(jī)器學(xué)習(xí)類別,還有五種其他類型的問(wèn)題:
- 回歸。我們需要預(yù)測(cè)連續(xù)響應(yīng)值的監(jiān)督問(wèn)題。回歸擬合數(shù)據(jù)并給出映射的所有特征點(diǎn)的答案,如果預(yù)測(cè)值趨向于一個(gè)連續(xù)的值,那么它就會(huì)下降。例如:給出區(qū)域名稱、土地面積等作為特征,并預(yù)測(cè)土地的預(yù)期成本。
- 分類。監(jiān)督問(wèn)題,其主要目的是分離數(shù)據(jù)。如果預(yù)測(cè)值趨向于是/否、正/負(fù)等類別,那么它就屬于機(jī)器學(xué)習(xí)中的分類問(wèn)題。例如,給定一個(gè)句子來(lái)預(yù)測(cè)它是否定的還是正面的。
- 集群。無(wú)監(jiān)督問(wèn)題,我們將相似的事物組合到一個(gè)給定數(shù)量的簇中。對(duì)于這些分?jǐn)?shù),我們不會(huì)給出答案。示例:給定3、4、8、9,并且簇的數(shù)目為2,那么機(jī)器學(xué)習(xí)系統(tǒng)可以將給定的集合分成簇1–3,4和簇2–8,9。
- 密度估計(jì)。它是在觀測(cè)數(shù)據(jù)的基礎(chǔ)上,對(duì)一個(gè)不可觀測(cè)的潛在概率密度函數(shù)的估計(jì)。查找輸入在某個(gè)空間中的分布。
- 降維。通過(guò)將輸入映射到低維空間來(lái)簡(jiǎn)化輸入。
4、類
機(jī)器學(xué)習(xí)算法可分為參數(shù)或非參數(shù):
- 參數(shù)化-有固定數(shù)量的參數(shù),分兩步完成:
第一步:假設(shè)我們的函數(shù)(f)的函數(shù)形式或形狀,即:f是線性的,因此我們將選擇一個(gè)線性模型。
第二步:選擇一個(gè)程序來(lái)適應(yīng)或訓(xùn)練我們的模型。這意味著估計(jì)線性函數(shù)中的β參數(shù)。一種常見(jiàn)的方法是(普通)最小二乘法。
- 非參數(shù)化-使用靈活數(shù)量的參數(shù),參數(shù)的數(shù)量通常隨著它從更多數(shù)據(jù)中學(xué)習(xí)而增長(zhǎng)。由于這些方法并不能將f的估計(jì)問(wèn)題簡(jiǎn)化為少量的參數(shù),因此需要大量的觀測(cè)數(shù)據(jù)來(lái)獲得f的精確估計(jì)。例如薄板樣條模型。
5、性能分析
算法的性能分析是計(jì)算該算法所需的空間和時(shí)間的過(guò)程。算法的性能分析采用以下措施:
- 混淆矩陣-通常用于描述分類模型(或“分類器”)在已知真實(shí)值的一組測(cè)試數(shù)據(jù)上的性能的表。
- 準(zhǔn)確度。正確預(yù)測(cè)的一部分,當(dāng)數(shù)據(jù)集不平衡時(shí)(即不同類別中的樣本數(shù)量變化很大)不可靠
- f1分?jǐn)?shù)-測(cè)試準(zhǔn)確性的另一個(gè)衡量標(biāo)準(zhǔn),其計(jì)算依據(jù)是:1)精度-在分類器標(biāo)記為陽(yáng)性的所有示例中,哪個(gè)分?jǐn)?shù)是正確的?2) 回憶一下。在所有的正面例子中,分類器提取了什么分?jǐn)?shù)?
- ROC曲線-接收器工作特性。真陽(yáng)性率(回憶/敏感性)vs假陽(yáng)性率(1-特異性)
- 偏差-方差權(quán)衡-一組預(yù)測(cè)模型的特性,其中參數(shù)估計(jì)偏差較低的模型在樣本間的參數(shù)估計(jì)方差較高,反之亦然。
- 均方誤差(MSE)-測(cè)量誤差或偏差平方的平均值-即估計(jì)值與估計(jì)值之間的差值。
- 錯(cuò)誤率。在分類環(huán)境下,應(yīng)用估計(jì)模型的錯(cuò)誤率函數(shù)是訓(xùn)練觀測(cè)值的函數(shù)。
6、算法
機(jī)器學(xué)習(xí)真正有趣的部分來(lái)了!以下內(nèi)容能夠幫助你如何將機(jī)器學(xué)習(xí)付諸實(shí)踐:
- 決策樹學(xué)習(xí)-通過(guò)一種算法方法來(lái)構(gòu)建,該方法根據(jù)不同的條件識(shí)別數(shù)據(jù)集的分割方法。
- 關(guān)聯(lián)規(guī)則學(xué)習(xí)-一種基于規(guī)則的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)數(shù)據(jù)集中變量或特征之間的重要關(guān)系。
- 人工神經(jīng)網(wǎng)絡(luò)-一種信息處理模型,其靈感來(lái)源于生物神經(jīng)系統(tǒng),如大腦,處理信息的方式。
- 深度學(xué)習(xí)-網(wǎng)絡(luò)能夠在無(wú)監(jiān)督的情況下從非結(jié)構(gòu)化或未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。它教計(jì)算機(jī)通過(guò)層過(guò)濾輸入,學(xué)習(xí)如何預(yù)測(cè)和分類信息。
- 歸納邏輯編程-使用邏輯編程作為統(tǒng)一的表示,例如,背景知識(shí)和假設(shè)。
- 支持向量機(jī)-分析用于分類和回歸分析的數(shù)據(jù)。
- 聚類-將一組對(duì)象分組的任務(wù),使同一組(稱為群集)中的對(duì)象彼此之間(在某種意義上)比其他組(簇)中的對(duì)象更相似(在某種意義上)。
- 貝葉斯網(wǎng)絡(luò)-通過(guò)有向無(wú)環(huán)圖表示一組變量及其條件依賴關(guān)系的概率圖形模型。
- 強(qiáng)化學(xué)習(xí)-通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí)。
- 特征學(xué)習(xí)-允許從原始數(shù)據(jù)中發(fā)現(xiàn)特征檢測(cè)或分類所需的表示。
- 相似性和度量學(xué)習(xí)-學(xué)習(xí)度量?jī)蓚€(gè)對(duì)象的相似性函數(shù)。
- 稀疏字典學(xué)習(xí)-旨在尋找輸入數(shù)據(jù)的稀疏表示形式的基本元素的線性組合。
- 遺傳算法-一個(gè)受自然選擇過(guò)程啟發(fā)的元啟發(fā)式算法。
- 基于規(guī)則的機(jī)器學(xué)習(xí)-一種數(shù)據(jù)驅(qū)動(dòng)的方法,使用標(biāo)記的文本語(yǔ)料庫(kù)和他們的情感來(lái)預(yù)測(cè)。
- 學(xué)習(xí)分類器系統(tǒng)-結(jié)合發(fā)現(xiàn)組件和學(xué)習(xí)組件。
7、調(diào)試
調(diào)試是為學(xué)習(xí)算法選擇一組最佳超參數(shù)的問(wèn)題。這是它的組成部分:
交叉驗(yàn)證—一種用于評(píng)估統(tǒng)計(jì)分析結(jié)果如何概括為獨(dú)立數(shù)據(jù)集的技術(shù)。一輪交叉驗(yàn)證涉及將數(shù)據(jù)樣本劃分為互補(bǔ)的子集,對(duì)一個(gè)子集(稱為訓(xùn)練集)執(zhí)行分析,并對(duì)另一個(gè)子集(稱為驗(yàn)證集或測(cè)試集)進(jìn)行分析驗(yàn)證。
方法:Leave-p-out交叉驗(yàn)證,Leave-one-out交叉驗(yàn)證,k倍交叉驗(yàn)證,Holdout方法和重復(fù)隨機(jī)采樣驗(yàn)證。
超參數(shù)-一個(gè)參數(shù),其值用于控制學(xué)習(xí)過(guò)程。相反,其他參數(shù)的值(通常是節(jié)點(diǎn)權(quán)重)是通過(guò)訓(xùn)練得出的??梢允褂靡韵路椒▽?duì)其進(jìn)行優(yōu)化:
1)網(wǎng)格搜索。傳統(tǒng)方式只是簡(jiǎn)單地窮舉搜索學(xué)習(xí)算法的超參數(shù)空間的手動(dòng)指定子集。
2)隨機(jī)搜索。它只是簡(jiǎn)單地對(duì)參數(shù)設(shè)置進(jìn)行采樣,發(fā)現(xiàn)在高維空間中,進(jìn)行固定次數(shù)要比窮舉搜索更為有效。
3)基于梯度的優(yōu)化。對(duì)于特定的學(xué)習(xí)算法,可以計(jì)算相對(duì)于超參數(shù)的梯度,然后使用梯度下降優(yōu)化超參數(shù)。
正則化(提前停止)-提前停止規(guī)則可指導(dǎo)學(xué)習(xí)者開始過(guò)度擬合之前可以運(yùn)行多少次迭代,然后停止算法。
過(guò)度擬合。當(dāng)模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的細(xì)節(jié)和噪聲時(shí),會(huì)在一定程度上影響新數(shù)據(jù)上模型的性能,因此會(huì)發(fā)生這種情況。
欠擬合(Underfitting)。模型從訓(xùn)練數(shù)據(jù)中“學(xué)習(xí)不足”的情況下,導(dǎo)致泛化率低和預(yù)測(cè)不可靠。
引導(dǎo)。它是使用替換隨機(jī)抽樣并屬于更廣泛的重采樣方法的任何測(cè)試或度量。自舉法將準(zhǔn)確性的度量(偏差,方差,置信區(qū)間,預(yù)測(cè)誤差等)分配給樣本估計(jì)。
套袋(bagging)。它是一種集成的機(jī)器學(xué)習(xí)算法,結(jié)合了許多決策樹的預(yù)測(cè)。
總結(jié)
以上內(nèi)容基本上包含了機(jī)器學(xué)習(xí)的全部知識(shí)點(diǎn),溫故而知新,學(xué)過(guò)的東西如果不回過(guò)來(lái)看一下,說(shuō)不定哪天就徹底忘記了。希望以上內(nèi)容能給大家提供幫助~