作者 | 陳峻
審校 | 重樓
引言
如今,基于互聯(lián)網(wǎng)服務(wù)的欺詐案例時(shí)常登頂媒體頭條,而使用在線服務(wù)和數(shù)字交易的金融行業(yè)尤其成為了重災(zāi)區(qū)。網(wǎng)絡(luò)洗錢、保險(xiǎn)欺詐、網(wǎng)銀盜用、虛假銀行交易等復(fù)雜金融欺詐行為層出不窮,我們亟待通過(guò)行之有效的欺詐識(shí)別與檢測(cè)的手段,來(lái)保護(hù)個(gè)人和組織免受巨大的經(jīng)濟(jì)損失。
作為一種自適應(yīng)性強(qiáng)、可擴(kuò)展性高的技術(shù),機(jī)器學(xué)習(xí)算法具有從數(shù)據(jù)中學(xué)習(xí)、發(fā)現(xiàn)復(fù)雜模式的能力,因此被廣泛地應(yīng)用于各種科學(xué)領(lǐng)域。而檢測(cè)金融欺詐正是其能夠大顯身手的新賽道。
模型介紹
目前,被用于金融欺詐檢測(cè)的典型算法包括:邏輯回歸(LR)、支持向量機(jī)(SVM)、K-近鄰(KNN)、奈夫貝葉斯(NB)、決策樹(DT)、隨機(jī)森林(RF)和增強(qiáng)奈夫貝葉斯 (TAN)等。其中,
- SVM使用最佳超平面對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類
- KNN根據(jù)K-Nearest Neighbors對(duì)交易進(jìn)行分類
- NB使用概率學(xué)習(xí)來(lái)估計(jì)類別的概率
- DT通過(guò)生成決策樹以進(jìn)行基于特征的分類
- RF結(jié)合決策樹以減少過(guò)擬合
- TAN通過(guò)樹狀依賴結(jié)構(gòu)來(lái)增強(qiáng)NB以捕捉特征相關(guān)性
這些模型為識(shí)別和檢測(cè)金融欺詐提供了多種方法,有助于建立出強(qiáng)大的實(shí)時(shí)欺詐檢測(cè)系統(tǒng)。當(dāng)然,它們各有利弊,在為具體應(yīng)用選擇算法時(shí),我們需要考慮數(shù)據(jù)集的大小、特征空間、處理需求、以及可解釋性等因素。
為此,一種改進(jìn)的集合機(jī)器學(xué)習(xí)(Ensemble Machine Learning)技術(shù)應(yīng)運(yùn)而生。它能夠?qū)⒍鄠€(gè)單獨(dú)的算法模型組合在一起,通過(guò)重點(diǎn)優(yōu)化模型的各項(xiàng)參數(shù)、提高性能指標(biāo),以及整合深度學(xué)習(xí)(如Bagging、Boosting和Stacking),進(jìn)而創(chuàng)建出可以修復(fù)識(shí)別到的錯(cuò)誤、并減少假陰性的強(qiáng)大欺詐檢測(cè)系統(tǒng)。
集合學(xué)習(xí)檢測(cè)模型
既然是組合,那么我們便可以綜合選配各種機(jī)器學(xué)習(xí)分類器。而每一種分類器都會(huì)以其獨(dú)特的優(yōu)勢(shì)發(fā)揮應(yīng)有的作用。
如上圖所示,一個(gè)典型的金融欺詐類識(shí)別與檢測(cè)模型會(huì)包括如下組件:
- SVM,擅長(zhǎng)為類別分離確定適當(dāng)?shù)某矫?/span>
- LR,對(duì)事件概率進(jìn)行建模
- RF,能夠建立穩(wěn)健的決策樹
- KNN,根據(jù)近鄰中的多數(shù)類進(jìn)行分類
- Bagging,會(huì)使用KNN作為基本分類器,以進(jìn)一步豐富集合
- Boosting,使用RF作為基礎(chǔ)分類器
- 最下方的投票分類器(Voting Classifier)可以綜合上述分類器的各種預(yù)測(cè)結(jié)果
由于采用了集合機(jī)器學(xué)習(xí)的協(xié)同方式,因此該模型在檢測(cè)金融領(lǐng)域少數(shù)類別的數(shù)據(jù),以及解決類別不平衡方面,具有出色的表現(xiàn)。其根本意愿在于,集合模型有助于聚集不同的弱學(xué)習(xí)算法,以增強(qiáng)其整體識(shí)別與檢測(cè)能力,進(jìn)而提高相關(guān)決策的可解釋性和透明度。此外,與深度學(xué)習(xí)架構(gòu)相比,集合式計(jì)算的密集度較低,因此也更適合金融領(lǐng)域本來(lái)就計(jì)算資源有限的場(chǎng)景。
檢測(cè)模型的評(píng)估
我們?cè)撊绾蝸?lái)評(píng)估機(jī)器學(xué)習(xí)系統(tǒng)對(duì)于具體金融欺詐的檢測(cè)效果呢?通常,業(yè)界會(huì)采用如下基本流程:
- 首先,選擇一個(gè)包含了合法交易和欺詐交易記錄的數(shù)據(jù)集。
- 由于數(shù)據(jù)集中存在著各種無(wú)序、原始、殘缺、以及重復(fù)的實(shí)例,系統(tǒng)的檢測(cè)很容易出現(xiàn)誤差,因此我們需要進(jìn)行數(shù)據(jù)預(yù)處理,使其適合模型的訓(xùn)練和測(cè)試。
- 接著,鑒于欺詐交易只占整體交易數(shù)據(jù)的一小部分,我們需要對(duì)不平衡的數(shù)據(jù)集進(jìn)行采樣。
- 然后,系統(tǒng)將整理好的采樣數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本,使用其中的訓(xùn)練樣本對(duì)已選的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,并使用這兩種樣本來(lái)觀察訓(xùn)練模型的行為。
- 在獲得準(zhǔn)確率、精確度、召回率、F1分?jǐn)?shù)等選定評(píng)估參數(shù)的結(jié)果后,對(duì)系統(tǒng)的整體能力進(jìn)行分析和比較。
模型評(píng)估標(biāo)準(zhǔn)
在評(píng)估模型的清晰度和理解度時(shí),業(yè)界通常會(huì)使用混淆矩陣(Confusion Matrix)。如下圖所示,該矩陣由真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性(FP)和假陰性(FN)四個(gè)直觀的象限組成:
基于上述矩陣,目前被業(yè)界廣泛認(rèn)可的是模型評(píng)估標(biāo)準(zhǔn)通常包括:準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)四個(gè)方面的指標(biāo)。其中:
- 準(zhǔn)確率,是所有正確預(yù)測(cè)(TP + TN)與樣本中預(yù)測(cè)或條目總數(shù)(TP + TN + FN + FP)之比。
- 精確度,是TP與模型所做的所有正面預(yù)測(cè)(TP + FP)之比。換句話說(shuō),它是模型做出的正面預(yù)測(cè)的準(zhǔn)確度。
- 召回率,是用來(lái)衡量機(jī)器學(xué)習(xí)模型識(shí)別正向類所有實(shí)例的能力指標(biāo)。它是正確預(yù)測(cè)到的陽(yáng)性觀察結(jié)果(TP)與實(shí)際陽(yáng)性觀察結(jié)果總數(shù)(TP+FN)的比率。
- F1分?jǐn)?shù),是將精確度和召回率的結(jié)果合并為一個(gè)平衡的平均值指標(biāo)。
評(píng)估模型的準(zhǔn)確率
目前,有專家將集合學(xué)習(xí)模型與里面包含的LR、RF、KNN、Bagging、Boosting模型進(jìn)行了逐一比較。就同樣的數(shù)據(jù)集測(cè)試樣本而言,其結(jié)果的精確度、召回率和F1分?jǐn)?shù)如下表所示:
LR | RF | KNN | Bagging | Boosting | 集合學(xué)習(xí)模型 | |
精確度 | 0.945938 | 0.999891 | 0.999174 | 0.999 | 0.999092 | 0.999601 |
召回 | 0.944256 | 0.99989 | 0.999173 | 0.999 | 0.999092 | 0.9996 |
F1分?jǐn)?shù) | 0.944204 | 0.99989 | 0.999173 | 0.999 | 0.999092 | 0.9996 |
可見(jiàn),集合學(xué)習(xí)模型能夠很好地捕捉到相關(guān)數(shù)據(jù),對(duì)其進(jìn)行精確預(yù)測(cè),從而實(shí)現(xiàn)了對(duì)特定數(shù)據(jù)的高靈敏度,并保持了穩(wěn)定的較低誤判率。
下表則更全面地向您展示了將各種典型機(jī)器學(xué)習(xí)算法,被運(yùn)用到實(shí)時(shí)金融欺詐場(chǎng)景的準(zhǔn)確率綜合比較:
金融欺詐場(chǎng)景 | 機(jī)器學(xué)習(xí)算法 | 準(zhǔn)確率 |
信用卡欺詐檢測(cè) | 卷積神經(jīng)網(wǎng)絡(luò) | 99% |
信用卡欺詐檢測(cè) | 長(zhǎng)短期記憶 | 99.5% |
欺詐性信用卡識(shí)別 | 直覺(jué)貝葉斯 | 96.1% |
欺詐性信用卡識(shí)別 | KNN | 95.89% |
欺詐性信用卡識(shí)別 | 隨機(jī)森林 | 97.58% |
欺詐性信用卡識(shí)別 | 序列卷積神經(jīng)網(wǎng)絡(luò) | 92.3% |
銀行B2C 在線交易 | 卷積神經(jīng)網(wǎng)絡(luò) | 91% |
信用卡交易數(shù)據(jù)集 | 分布式深度神經(jīng)網(wǎng)絡(luò) | 99.9422% |
評(píng)估模型效率
除了準(zhǔn)確率維度,我們也應(yīng)該評(píng)估模型的計(jì)算效率。這往往涉及到在檢測(cè)過(guò)程中,模型所需的訓(xùn)練和測(cè)試時(shí)間,以及這些過(guò)程對(duì)內(nèi)存和存儲(chǔ)等系統(tǒng)資源的利用率。
算法訓(xùn)練 | 在訓(xùn)練樣本上測(cè)試 | 在測(cè)試樣本上測(cè)試 | ||||
時(shí)間(毫秒) | 內(nèi)存使用量(MiB) | 時(shí)間(毫秒) | 內(nèi)存使用量(MiB) | 時(shí)間(毫秒) | 內(nèi)存使用量(MiB) | |
LR | 3.5 | 1190.03-1190.64 | 2.9 | 1190.65-1190.65 | 2.5 | 1190.77-1190.77 |
RF | 1135 | 1295.93-1296.31 | 19.9 | 1296.31-1296.31 | 8.28 | 1296.31-1296.33 |
KNN | 0.597 | 1190.77-1288.20 | 1431 | 1288.20-1294.43 | 355 | 1295.43-1295.89 |
Bagging | 9.23 | 1147.86-1841.64 | 10179 | 1841.89-819.89 | 2331 | 820.93-1342.43 |
Boosting | 883 | 1341.71-1454.40 | 14.8 | 1454.46-1458.23 | 6.05 | 1456.50-1456.86 |
集合學(xué)習(xí)模型 | 2049 | 1455.36-2282.86 | 11681 | 2282.89-2158.89 | 2928 | 2155.05-2028.86 |
注意:上表中的內(nèi)存使用值是以兆字節(jié)(MiB)為單位,換算系數(shù)關(guān)系為1 MiB等于1.04858 MB。
總體而言,不同算法的訓(xùn)練和測(cè)試時(shí)間各不相同。其中,LR、SVM和KNN算法的訓(xùn)練時(shí)間較長(zhǎng),但測(cè)試時(shí)間較短;而其他模型則呈現(xiàn)出相反的趨勢(shì)。
小結(jié)
綜合上述,通過(guò)利用各種計(jì)算學(xué)習(xí)算法,我們不但可以提高金融欺詐檢測(cè)的準(zhǔn)確性和效率,而且能夠盡早地發(fā)現(xiàn)潛在的欺詐活動(dòng),進(jìn)而及時(shí)采取預(yù)防和抵御的措施,以減少其影響。
同時(shí),隨著信用卡欺詐技術(shù)的不斷發(fā)展,能夠有效綜合各種算法優(yōu)勢(shì)的集合機(jī)器學(xué)習(xí)檢測(cè)模型,已為我們進(jìn)一步開發(fā)更具擴(kuò)展性和適應(yīng)性的欺詐檢測(cè)系統(tǒng),奠定了基礎(chǔ)。從而在保證金融系統(tǒng)安全的同時(shí),持續(xù)維護(hù)了消費(fèi)者對(duì)于多元化互聯(lián)網(wǎng)金融交易的信心。
作者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。