最強(qiáng)總結(jié),機(jī)器學(xué)習(xí)中必會(huì)的 15 個(gè)關(guān)鍵術(shù)語(yǔ)?。?/h1>
1.算法
算法是一系列明確的步驟或規(guī)則,用于解決特定問(wèn)題或完成特定任務(wù)。
在機(jī)器學(xué)習(xí)中,算法用于從數(shù)據(jù)中學(xué)習(xí)模式,并做出預(yù)測(cè)或決策。
示例:線性回歸、決策樹(shù)、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等都是常見(jiàn)的機(jī)器學(xué)習(xí)算法。例如,線性回歸根據(jù)歷史數(shù)據(jù)預(yù)測(cè)連續(xù)值(如房?jī)r(jià))。
2.模型
模型是通過(guò)機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中學(xué)習(xí)到的數(shù)學(xué)表示。它能夠?qū)π聰?shù)據(jù)進(jìn)行預(yù)測(cè)或分類(lèi)。
示例:決策樹(shù)模型可以根據(jù)輸入特征來(lái)決定輸出類(lèi)別;神經(jīng)網(wǎng)絡(luò)模型可以識(shí)別圖像中的物體。
3.訓(xùn)練數(shù)據(jù)
訓(xùn)練數(shù)據(jù)是指用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集。
它由輸入輸出對(duì)組成,可幫助模型學(xué)習(xí)所需的任務(wù)。
訓(xùn)練數(shù)據(jù)越多樣化、越有代表性,模型的性能就越好。
示例:對(duì)于預(yù)測(cè)房?jī)r(jià)的模型,訓(xùn)練數(shù)據(jù)可能包括房屋特征(如大小、臥室數(shù)量)及其相應(yīng)的價(jià)格。
4.測(cè)試數(shù)據(jù)
測(cè)試數(shù)據(jù)是一個(gè)單獨(dú)的數(shù)據(jù)集,用于評(píng)估機(jī)器學(xué)習(xí)模型在未知數(shù)據(jù)上的表現(xiàn)。
這有助于防止過(guò)度擬合,即模型在訓(xùn)練數(shù)據(jù)上可能表現(xiàn)良好,但在新數(shù)據(jù)上卻表現(xiàn)不佳。
示例:訓(xùn)練垃圾郵件過(guò)濾器后,你可以在以前從未見(jiàn)過(guò)的電子郵件上對(duì)其進(jìn)行測(cè)試,以檢查其準(zhǔn)確性。
5.特征
特征是模型用來(lái)進(jìn)行預(yù)測(cè)的數(shù)據(jù)的單個(gè)可測(cè)量屬性。
在機(jī)器學(xué)習(xí)的背景下,選擇正確的特征對(duì)于構(gòu)建良好的模型至關(guān)重要。
示例:在預(yù)測(cè)房?jī)r(jià)時(shí),特征可能包括臥室數(shù)量、面積和位置。
6.標(biāo)簽
標(biāo)簽是與每個(gè)訓(xùn)練樣本關(guān)聯(lián)的目標(biāo)值或類(lèi)別。
在監(jiān)督學(xué)習(xí)中,模型使用這些標(biāo)簽來(lái)學(xué)習(xí)輸入和輸出之間的關(guān)系。
示例:在預(yù)測(cè)電子郵件是否為垃圾郵件的模型中,標(biāo)簽將是“垃圾郵件”或“非垃圾郵件”。
7.過(guò)度擬合
過(guò)度擬合是指模型對(duì)訓(xùn)練數(shù)據(jù)(包括噪聲和異常值)的學(xué)習(xí)過(guò)于深入,導(dǎo)致新數(shù)據(jù)上的表現(xiàn)不佳。
這意味著模型與訓(xùn)練數(shù)據(jù)的擬合程度過(guò)高,使其通用性較差。
示例:由于過(guò)度擬合,模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)完美,但在測(cè)試數(shù)據(jù)上表現(xiàn)不佳。
8.欠擬合
當(dāng)模型過(guò)于簡(jiǎn)單,無(wú)法捕捉數(shù)據(jù)中的模式時(shí),就會(huì)發(fā)生欠擬合,從而導(dǎo)致訓(xùn)練和測(cè)試數(shù)據(jù)的性能不佳。
示例:使用線性回歸來(lái)擬合一個(gè)明顯非線性的關(guān)系,導(dǎo)致預(yù)測(cè)誤差較大。
9.準(zhǔn)確性
準(zhǔn)確性是衡量分類(lèi)模型正確預(yù)測(cè)的比例。計(jì)算方法是正確預(yù)測(cè)的數(shù)量除以總預(yù)測(cè)數(shù)量。
示例:如果一個(gè)模型能夠正確識(shí)別 100 封電子郵件中的 90 封是否為垃圾郵件,則其準(zhǔn)確率為 90%。
10.精確率和召回率
精確率和召回率是評(píng)價(jià)分類(lèi)模型的重要指標(biāo),尤其是在不平衡的數(shù)據(jù)集中。
- 精確率:在所有被模型預(yù)測(cè)為正類(lèi)的樣本中,實(shí)際為正類(lèi)的比例。
- 召回率:在所有實(shí)際為正類(lèi)的樣本中,模型正確預(yù)測(cè)為正類(lèi)的比例。
示例:在疾病篩查中,高精確率意味著大多數(shù)被診斷為患病的人確實(shí)患??;高召回率意味著大多數(shù)實(shí)際患病的人被成功識(shí)別。
11.學(xué)習(xí)率
學(xué)習(xí)率是一個(gè)超參數(shù),它控制模型權(quán)重相對(duì)于損失梯度的更新程度。
較高的學(xué)習(xí)率可能會(huì)導(dǎo)致模型收斂過(guò)快而錯(cuò)過(guò)最優(yōu)解,而較低的學(xué)習(xí)率則可能導(dǎo)致訓(xùn)練過(guò)程過(guò)慢。
示例:在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)率決定了模型在訓(xùn)練期間從錯(cuò)誤中學(xué)習(xí)的速度。
12.epoch
一個(gè) epoch 是指在模型訓(xùn)練過(guò)程中對(duì)整個(gè)訓(xùn)練數(shù)據(jù)集進(jìn)行一次完整的遍歷。
多個(gè) epoch 可以讓模型更好地學(xué)習(xí),因?yàn)樗鼤?huì)在每次遍歷中調(diào)整其權(quán)重。
示例:如果有1000個(gè)訓(xùn)練樣本,1個(gè)epoch意味著模型已經(jīng)看過(guò)所有1000個(gè)樣本一次。
13.超參數(shù)
超參數(shù)是在訓(xùn)練之前設(shè)置的參數(shù),用于控制學(xué)習(xí)過(guò)程和模型結(jié)構(gòu)。
與模型參數(shù)不同,超參數(shù)不能通過(guò)訓(xùn)練直接學(xué)習(xí)到。
示例:學(xué)習(xí)率、批量大?。╞atch size)、神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的神經(jīng)元數(shù)量等都是常見(jiàn)的超參數(shù)。
14.損失函數(shù)
損失函數(shù)用于衡量模型預(yù)測(cè)值與真實(shí)值之間的差距。
訓(xùn)練過(guò)程中,模型通過(guò)最小化損失函數(shù)來(lái)進(jìn)行優(yōu)化。
示例:均方誤差(MSE)常用于回歸任務(wù),交叉熵?fù)p失常用于分類(lèi)任務(wù)。
15.正則化
正則化是一種技術(shù),用于防止模型過(guò)度擬合。
它通過(guò)在損失函數(shù)中添加懲罰項(xiàng),限制模型的復(fù)雜度。
示例:
- L1正則化:通過(guò)加上權(quán)重絕對(duì)值的和,促使一些權(quán)重變?yōu)榱悖瑢?shí)現(xiàn)特征選擇。
- L2正則化:通過(guò)加上權(quán)重平方和,限制權(quán)重的大小,防止過(guò)度擬合。