機(jī)器學(xué)習(xí)模型性能的十個(gè)指標(biāo)
原創(chuàng)盡管大模型非常強(qiáng)大, 但是解決實(shí)踐的問題也可以不全部依賴于大模型。一個(gè)不太確切的類比,解釋現(xiàn)實(shí)中的物理現(xiàn)象,未必要用到量子力學(xué)。有些相對(duì)簡單的問題,或許一個(gè)統(tǒng)計(jì)分布就足夠了。對(duì)機(jī)器學(xué)習(xí)而言, 也不用言必深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò),關(guān)鍵在于明確問題的邊界。
那么在使用ML解決相對(duì)簡單問題的時(shí)候,如何評(píng)估一個(gè)機(jī)器學(xué)習(xí)模型的性能呢?這里給出了10個(gè)相對(duì)常用的評(píng)價(jià)指標(biāo),希望對(duì)產(chǎn)研同學(xué)有所幫助。
1. 準(zhǔn)確率
準(zhǔn)確率是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)基礎(chǔ)評(píng)價(jià)指標(biāo),通常用于快速地了解模型的性能。通過簡單地計(jì)算模型正確預(yù)測的實(shí)例數(shù)量與數(shù)據(jù)集中總實(shí)例數(shù)量的比例,準(zhǔn)確率提供了一個(gè)直觀的方式來衡量模型的準(zhǔn)確性。
圖片
然而,準(zhǔn)確率作為一個(gè)評(píng)價(jià)指標(biāo),在處理不平衡數(shù)據(jù)集時(shí)可能會(huì)顯得力不從心。不平衡數(shù)據(jù)集是指某一類別的實(shí)例數(shù)量明顯超過其他類別的數(shù)據(jù)集。在這種情況下,模型可能會(huì)傾向于預(yù)測數(shù)量較多的類別,從而導(dǎo)致準(zhǔn)確率的虛高。
此外,準(zhǔn)確率無法提供關(guān)于假陽性和假陰性的信息。假陽性是指模型錯(cuò)誤地將負(fù)類實(shí)例預(yù)測為正類實(shí)例的情況,而假陰性則是指模型錯(cuò)誤地將正類實(shí)例預(yù)測為負(fù)類實(shí)例的情況。在評(píng)估模型性能時(shí),區(qū)分假陽性和假陰性是非常重要的,因?yàn)樗鼈儗?duì)模型的性能有著不同的影響。
綜上所述,雖然準(zhǔn)確率是一個(gè)簡單易懂的評(píng)價(jià)指標(biāo),但在處理不平衡數(shù)據(jù)集時(shí),我們需要更加謹(jǐn)慎地解釋準(zhǔn)確率的結(jié)果。
2. 精確度
精確度是一個(gè)重要的評(píng)價(jià)指標(biāo),它專注于衡量模型對(duì)正樣本的預(yù)測準(zhǔn)確性。與準(zhǔn)確率不同,精確度計(jì)算的是模型預(yù)測為正樣本的實(shí)例中,實(shí)際為正樣本的比例。換句話說,精確度回答了一個(gè)問題:“當(dāng)模型預(yù)測一個(gè)實(shí)例為正樣本時(shí),這個(gè)預(yù)測有多少概率是準(zhǔn)確的?”一個(gè)高精確度的模型意味著,當(dāng)它預(yù)測一個(gè)實(shí)例為正樣本時(shí),這個(gè)實(shí)例很有可能確實(shí)是正樣本。
圖片
在某些應(yīng)用中,如醫(yī)療診斷或欺詐檢測,模型的精確度尤為重要。在這些場景中,假陽性(即錯(cuò)誤地將負(fù)樣本預(yù)測為正樣本)的后果可能是非常嚴(yán)重的。例如,在醫(yī)療診斷中,一個(gè)假陽性的診斷可能導(dǎo)致不必要的治療或檢查,給患者帶來不必要的心理和生理壓力。在欺詐檢測中,假陽性可能會(huì)導(dǎo)致無辜的用戶被錯(cuò)誤地標(biāo)記為欺詐行為者,從而影響用戶體驗(yàn)和公司的聲譽(yù)。
因此,在這些應(yīng)用中,確保模型具有高的精確度至關(guān)重要。只有通過提高精確度,我們才能降低假陽性的風(fēng)險(xiǎn),從而減少誤判帶來的負(fù)面影響。
3. 召回率
召回率是一個(gè)重要的評(píng)價(jià)指標(biāo),用于衡量模型對(duì)所有實(shí)際正樣本的正確預(yù)測能力。具體來說,召回率計(jì)算的是模型預(yù)測為真陽性的實(shí)例與實(shí)際正樣本總數(shù)的比率。這個(gè)指標(biāo)回答了一個(gè)問題:“在所有實(shí)際為正樣本的實(shí)例中,模型正確預(yù)測了多少?”
與精確度不同,召回率關(guān)注的是模型對(duì)實(shí)際正樣本的查全能力。即使模型對(duì)某個(gè)正樣本的預(yù)測概率較低,只要該樣本實(shí)際上是正樣本,并且被模型正確預(yù)測為正樣本,那么這個(gè)預(yù)測就會(huì)計(jì)入召回率的計(jì)算中。因此,召回率更關(guān)注模型是否能夠找到盡可能多的正樣本,而不僅僅是預(yù)測概率較高的那些。
圖片
在某些應(yīng)用場景中,召回率的重要性尤為突出。比如在疾病檢測中,如果模型遺漏了實(shí)際患病的患者,可能會(huì)導(dǎo)致病情的延誤和惡化,給患者帶來嚴(yán)重后果。又比如在客戶的流失預(yù)測中,如果模型沒有正確識(shí)別出可能流失的客戶,企業(yè)可能會(huì)失去采取挽留措施的機(jī)會(huì),從而損失重要客戶。
因此,在這些場景中,召回率成為了一個(gè)至關(guān)重要的指標(biāo)。一個(gè)具有高召回率的模型能夠更好地找到實(shí)際的正樣本,減少遺漏的風(fēng)險(xiǎn),從而避免可能產(chǎn)生的嚴(yán)重后果。
4. F1 評(píng)分
F1評(píng)分是一個(gè)綜合性的評(píng)價(jià)指標(biāo),旨在在準(zhǔn)確率和召回率之間尋求平衡。它實(shí)際上是準(zhǔn)確率和召回率的調(diào)和平均值,將這兩個(gè)指標(biāo)合并為一個(gè)單一的分?jǐn)?shù),從而提供了一種同時(shí)考慮假陽性和假陰性的評(píng)估方式。
圖片
在許多實(shí)際應(yīng)用中,我們往往需要在準(zhǔn)確率和召回率之間做出權(quán)衡。準(zhǔn)確率關(guān)注模型預(yù)測的正確性,而召回率則關(guān)注模型是否能夠找到所有實(shí)際的正樣本。然而,過分強(qiáng)調(diào)其中一個(gè)指標(biāo)往往會(huì)損害另一個(gè)指標(biāo)的性能。例如,為了提高召回率,模型可能會(huì)增加對(duì)正樣本的預(yù)測,但這同時(shí)也可能增加假陽性的數(shù)量,從而降低準(zhǔn)確率。
F1評(píng)分正是為了解決這一問題而設(shè)計(jì)的。它綜合考慮了準(zhǔn)確率和召回率,避免了我們?yōu)榱藘?yōu)化一個(gè)指標(biāo)而犧牲另一個(gè)指標(biāo)的情況。通過計(jì)算準(zhǔn)確率和召回率的調(diào)和平均值,F(xiàn)1評(píng)分在兩者之間取得了一個(gè)平衡點(diǎn),使得我們能夠在不偏袒任何一方的情況下評(píng)估模型的性能。
因此,當(dāng)你需要一個(gè)指標(biāo)來綜合考慮準(zhǔn)確率和召回率,并且不希望偏袒其中一個(gè)指標(biāo)時(shí),F(xiàn)1評(píng)分是一個(gè)非常有用的工具。它提供了一個(gè)單一的分?jǐn)?shù),簡化了模型性能的評(píng)估過程,并且?guī)椭覀兏玫乩斫饽P驮趯?shí)際應(yīng)用中的表現(xiàn)。
5. ROC-AUC
ROC-AUC是一種在二進(jìn)制分類問題中廣泛使用的性能度量方法。它衡量的是ROC曲線下的面積,而ROC曲線則描繪了在不同閾值下,真陽性率(也稱為敏感度或召回率)與假陽性率之間的關(guān)系。
圖片
ROC曲線提供了一種直觀的方式來觀察模型在各種閾值設(shè)置下的性能。通過改變閾值,我們可以調(diào)整模型的真陽性率和假陽性率,從而獲得不同的分類結(jié)果。ROC曲線越靠近左上角,表明模型在區(qū)分正負(fù)樣本方面的性能越好。
而AUC(曲線下的面積)則提供了一個(gè)量化的指標(biāo)來評(píng)估模型的辨別能力。AUC值介于0和1之間,越接近1表示模型的辨別能力越強(qiáng)。一個(gè)高的AUC分?jǐn)?shù)意味著模型能夠很好地區(qū)分正樣本和負(fù)樣本,即模型對(duì)于正樣本的預(yù)測概率高于負(fù)樣本的預(yù)測概率。
因此,當(dāng)我們想要評(píng)估模型在區(qū)分類別方面的能力時(shí),ROC-AUC是一個(gè)非常有用的度量指標(biāo)。相比其他指標(biāo),ROC-AUC具有一些獨(dú)特的優(yōu)勢。它不受閾值選擇的影響,可以綜合考慮模型在各種閾值下的性能。此外,ROC-AUC還對(duì)于類別不平衡問題相對(duì)穩(wěn)健,即使在正負(fù)樣本數(shù)量不均衡的情況下,仍然能夠給出有意義的評(píng)估結(jié)果。
ROC-AUC是一種非常有價(jià)值的性能度量方法,尤其適用于二進(jìn)制分類問題。通過觀察和比較不同模型的ROC-AUC得分,我們可以更加全面地了解模型的性能,并選擇出具有更好辨別能力的模型。
6. PR-AUC
PR-AUC(精度-召回曲線下的面積)是一種性能度量方法,與ROC-AUC類似,但關(guān)注點(diǎn)略有不同。PR-AUC測量的是精度-召回曲線下的面積,該曲線描繪了在不同閾值下精確性與召回率之間的關(guān)系。
圖片
與ROC-AUC相比,PR-AUC更注重精確性和召回率之間的權(quán)衡。精確性衡量的是模型預(yù)測為正樣本的實(shí)例中實(shí)際為正樣本的比例,而召回率衡量的是在所有實(shí)際為正樣本的實(shí)例中,模型正確預(yù)測為正樣本的比例。在不平衡的數(shù)據(jù)集中,或者當(dāng)假陽性比假陰性更受關(guān)注時(shí),精確性和召回率之間的權(quán)衡尤為重要。
在不平衡的數(shù)據(jù)集中,一個(gè)類別的樣本數(shù)量可能遠(yuǎn)遠(yuǎn)超過另一個(gè)類別的樣本數(shù)量。這種情況下,ROC-AUC可能無法準(zhǔn)確反映模型的性能,因?yàn)樗饕P(guān)注真陽性率和假陽性率之間的關(guān)系,而不直接考慮類別的不平衡性。相比之下,PR-AUC通過精確性和召回率的權(quán)衡來更全面地評(píng)估模型的性能,在不平衡數(shù)據(jù)集上更能體現(xiàn)模型的效果。
此外,當(dāng)假陽性比假陰性更受關(guān)注時(shí),PR-AUC也是一個(gè)更合適的度量指標(biāo)。因?yàn)樵谀承?yīng)用場景中,錯(cuò)誤地將負(fù)樣本預(yù)測為正樣本(假陽性)可能會(huì)帶來更大的損失或負(fù)面影響。例如,在醫(yī)療診斷中,錯(cuò)誤地將健康人診斷為患病者可能會(huì)導(dǎo)致不必要的治療和焦慮。在這種情況下,我們更希望模型具有高的精確性,以減少假陽性的數(shù)量。
綜上所述,PR-AUC是一種適用于不平衡數(shù)據(jù)集或關(guān)注假陽性的場景的性能度量方法。它可以幫助我們更好地了解模型在精確性和召回率之間的權(quán)衡,并選擇合適的模型以滿足實(shí)際需求。
7. FPR/TNR
假陽性率(FPR)是一個(gè)重要指標(biāo),用于衡量模型在所有實(shí)際陰性樣本中錯(cuò)誤地預(yù)測為正樣本的比例。它是特異性的補(bǔ)充指標(biāo),與真陰性率(TNR)相對(duì)應(yīng)。當(dāng)我們想要評(píng)估模型避免誤報(bào)的能力時(shí),F(xiàn)PR成為一個(gè)關(guān)鍵要素。誤報(bào)可能會(huì)導(dǎo)致不必要的擔(dān)憂或資源浪費(fèi),因此,了解模型的FPR對(duì)于確定其在實(shí)際應(yīng)用中的可靠性至關(guān)重要。通過降低FPR,我們可以提高模型的精確性和準(zhǔn)確性,從而確保僅在實(shí)際存在正樣本時(shí)發(fā)出陽性預(yù)測。
圖片
另一方面,真陰性率(TNR),也被稱為特異性,是一種衡量模型正確識(shí)別陰性樣本的指標(biāo)。它計(jì)算的是模型預(yù)測為真陰性的實(shí)例占實(shí)際總陰性的比例。在評(píng)估模型時(shí),我們往往關(guān)注模型對(duì)于正樣本的識(shí)別能力,但同樣重要的是模型在識(shí)別負(fù)樣本方面的表現(xiàn)。高TNR意味著模型能夠準(zhǔn)確地識(shí)別出陰性樣本,即在實(shí)際為負(fù)樣本的實(shí)例中,模型預(yù)測為負(fù)樣本的比例較高。這對(duì)于避免誤判和提高模型的整體性能至關(guān)重要。
8. 馬修斯相關(guān)系數(shù)(MCC)
MCC(Matthews 相關(guān)系數(shù))是一個(gè)在二元分類問題中使用的度量值,它為我們提供了一種綜合考慮了真陽性、真陰性、假陽性和假陰性關(guān)系的評(píng)估方式。與其他的度量方法相比,MCC的優(yōu)點(diǎn)在于它是一個(gè)范圍在-1到1之間的單一值,其中-1表示模型的預(yù)測與實(shí)際結(jié)果完全不一致,1表示模型的預(yù)測與實(shí)際結(jié)果完全一致。
圖片
更為重要的是,MCC提供了一個(gè)平衡度量二元分類質(zhì)量的方式。在二元分類問題中,我們通常會(huì)關(guān)注模型對(duì)于正樣本和負(fù)樣本的識(shí)別能力,而MCC則同時(shí)考慮了這兩個(gè)方面。它不僅關(guān)注模型正確預(yù)測正樣本的能力(即真陽性),還關(guān)注模型正確預(yù)測負(fù)樣本的能力(即真陰性)。同時(shí),MCC也將假陽性和假陰性納入考量,從而更全面地評(píng)估模型的性能。
在實(shí)際應(yīng)用中,MCC特別適用于處理不平衡數(shù)據(jù)集的情況。因?yàn)樵诓黄胶鈹?shù)據(jù)集中,一個(gè)類別的樣本數(shù)量遠(yuǎn)大于另一個(gè)類別,這往往會(huì)導(dǎo)致模型偏向于預(yù)測數(shù)量較多的類別。然而,MCC能夠平衡地考慮所有四個(gè)指標(biāo)(真陽性、真陰性、假陽性和假陰性),因此對(duì)于不平衡數(shù)據(jù)集,它通常能提供一個(gè)更為準(zhǔn)確和全面的性能評(píng)估。
總的來說,MCC是一種強(qiáng)大且全面的二元分類性能度量工具。它不僅綜合考慮了所有可能的預(yù)測結(jié)果,還提供了一個(gè)直觀的、范圍明確的數(shù)值來度量預(yù)測與實(shí)際結(jié)果的一致性。無論是在平衡還是不平衡的數(shù)據(jù)集上,MCC都是一個(gè)有用的度量指標(biāo),能夠幫助我們更深入地理解模型的性能。
9. 交叉熵?fù)p失
交叉熵?fù)p失是一種在分類問題中常用的性能度量指標(biāo),尤其適用于模型的輸出為概率值的情況。該損失函數(shù)用于量化模型預(yù)測的概率分布與實(shí)際標(biāo)簽分布之間的差異。
圖片
在分類問題中,模型的目標(biāo)通常是預(yù)測樣本屬于不同類別的概率。交叉熵?fù)p失正是用于評(píng)估模型預(yù)測概率與實(shí)際二進(jìn)制結(jié)果之間的一致性。它通過對(duì)預(yù)測概率進(jìn)行對(duì)數(shù)運(yùn)算,并與實(shí)際標(biāo)簽進(jìn)行比較,得出損失值。因此,交叉熵?fù)p失也被稱為對(duì)數(shù)損失。
交叉熵?fù)p失的優(yōu)勢在于它能夠很好地衡量模型對(duì)于概率分布的預(yù)測準(zhǔn)確性。當(dāng)模型的預(yù)測概率分布與實(shí)際標(biāo)簽分布相近時(shí),交叉熵?fù)p失的值較低;反之,當(dāng)預(yù)測概率分布與實(shí)際標(biāo)簽分布差異較大時(shí),交叉熵?fù)p失的值較高。因此,較低的交叉熵?fù)p失值意味著模型的預(yù)測更加準(zhǔn)確,即模型具有更好的校準(zhǔn)性能。
在實(shí)際應(yīng)用中,我們通常追求更低的交叉熵?fù)p失值,因?yàn)檫@代表著模型對(duì)于分類問題的預(yù)測更加準(zhǔn)確和可靠。通過優(yōu)化交叉熵?fù)p失,我們可以提升模型的性能,并使其在實(shí)際應(yīng)用中具備更好的泛化能力。因此,交叉熵?fù)p失是評(píng)估分類模型性能的重要指標(biāo)之一,它能夠幫助我們進(jìn)一步了解模型的預(yù)測準(zhǔn)確性以及是否需要進(jìn)一步優(yōu)化模型的參數(shù)和結(jié)構(gòu)。
10. 科恩卡帕系數(shù)
科恩卡帕系數(shù)是一種用于測量模型預(yù)測與實(shí)際標(biāo)簽之間一致性的統(tǒng)計(jì)工具,它尤其適用于分類任務(wù)的評(píng)估。與其他度量方法相比,它不僅計(jì)算模型預(yù)測與實(shí)際標(biāo)簽之間的簡單一致性,還對(duì)可能偶然發(fā)生的一致性進(jìn)行了校正,因此提供了一個(gè)更為準(zhǔn)確和可靠的評(píng)估結(jié)果。
在實(shí)際應(yīng)用中,特別是當(dāng)涉及多個(gè)評(píng)分者對(duì)同一組樣本進(jìn)行分類評(píng)分時(shí),科恩卡帕系數(shù)非常有用。在這種情況下,我們不僅需要關(guān)注模型預(yù)測與實(shí)際標(biāo)簽的一致性,還需要考慮不同評(píng)分者之間的一致性。因?yàn)槿绻u(píng)分者之間存在顯著的不一致性,那么模型性能的評(píng)估結(jié)果可能會(huì)受到評(píng)分者主觀性的影響,從而導(dǎo)致評(píng)估結(jié)果的不準(zhǔn)確。
通過使用科恩卡帕系數(shù),可以校正這種可能偶然發(fā)生的一致性,從而更準(zhǔn)確地評(píng)估模型性能。具體來說,它計(jì)算了一個(gè)介于-1和1之間的值,其中1表示完全一致性,-1表示完全不一致性,而0表示隨機(jī)一致性。因此,一個(gè)較高的Kappa值意味著模型預(yù)測與實(shí)際標(biāo)簽之間的一致性超過了偶然期望的一致性,這表明模型具有較好的性能。
圖片
科恩卡帕系數(shù)可以幫助我們更準(zhǔn)確地評(píng)估分類任務(wù)中模型預(yù)測與實(shí)際標(biāo)簽之間的一致性,同時(shí)校正可能偶然發(fā)生的一致性。在涉及多個(gè)評(píng)分者的場景中,它尤其重要,因?yàn)樗軌蛱峁┮粋€(gè)更為客觀和準(zhǔn)確的評(píng)估結(jié)果。
小結(jié)
機(jī)器學(xué)習(xí)模型評(píng)價(jià)的指標(biāo)有很多,本文給出了其中一些主要的指標(biāo):
- 準(zhǔn)確率(Accuracy):正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例。
- 精確率(Precision):正真(True Positive,TP)樣本占所有預(yù)測為正(TP和FP)樣本的比例,體現(xiàn)了模型對(duì)正樣本的識(shí)別能力。
- 召回率(Recall):正真(True Positive,TP)樣本占所有真實(shí)為正(TP和FN)樣本的比例,體現(xiàn)了模型發(fā)現(xiàn)正樣本的能力。
- F1值:精確率和召回率的調(diào)和平均值,同時(shí)考慮了精確率和召回率。
- ROC-AUC:ROC曲線下的面積,ROC曲線是真正率(True Positive Rate,TPR)與假正率(False Positive Rate,F(xiàn)PR)的函數(shù)。AUC越大,模型的分類性能越好。
- PR-AUC:精度-召回曲線下的面積,它專注于精確性和召回率之間的權(quán)衡,更適合不平衡的數(shù)據(jù)集。
- FPR/TNR:FPR衡量模型誤報(bào)能力,TNR衡量模型正確識(shí)別負(fù)樣本的能力。
- 交叉熵?fù)p失:用于評(píng)估模型預(yù)測概率與實(shí)際標(biāo)簽之間的差異。較低的值表示更好的模型校準(zhǔn)和準(zhǔn)確性。
- 馬修斯相關(guān)系數(shù)(MCC):一個(gè)綜合考慮了真陽性、真陰性、假陽性和假陰性關(guān)系的度量值,提供了二元分類質(zhì)量的平衡度量。
- 科恩卡帕系數(shù)(cohen's kappa): 評(píng)估分類任務(wù)模型性能的重要工具,能準(zhǔn)確測量預(yù)測與標(biāo)簽的一致性,并校正偶然一致性,尤其在多個(gè)評(píng)分者場景中更具優(yōu)勢。
以上各個(gè)指標(biāo)各有特點(diǎn),適用于不同的問題場景。在實(shí)際應(yīng)用中,可能需要結(jié)合多個(gè)指標(biāo)來全面評(píng)價(jià)模型的性能。