自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于機(jī)器學(xué)習(xí)的金融欺詐檢測(cè)模型

原創(chuàng) 精選
人工智能 機(jī)器學(xué)習(xí)
如今,基于互聯(lián)網(wǎng)服務(wù)的欺詐案例時(shí)常登頂媒體頭條,而使用在線服務(wù)和數(shù)字交易的金融行業(yè)尤其成為了重災(zāi)區(qū)。

作者 | 陳峻

審校 | 重樓

引言

如今,基于互聯(lián)網(wǎng)服務(wù)的欺詐案例時(shí)常登頂媒體頭條,而使用在線服務(wù)和數(shù)字交易的金融行業(yè)尤其成為了重災(zāi)區(qū)。網(wǎng)絡(luò)洗錢、保險(xiǎn)欺詐、網(wǎng)銀盜用、虛假銀行交易等復(fù)雜金融欺詐行為層出不窮,我們亟待通過(guò)行之有效的欺詐識(shí)別與檢測(cè)的手段,來(lái)保護(hù)個(gè)人和組織免受巨大的經(jīng)濟(jì)損失。

作為一種自適應(yīng)性強(qiáng)、可擴(kuò)展性高的技術(shù),機(jī)器學(xué)習(xí)算法具有從數(shù)據(jù)中學(xué)習(xí)、發(fā)現(xiàn)復(fù)雜模式的能力,因此被廣泛地應(yīng)用于各種科學(xué)領(lǐng)域。而檢測(cè)金融欺詐正是其能夠大顯身手的新賽道。

模型介紹

目前,被用于金融欺詐檢測(cè)的典型算法包括:邏輯回歸(LR)、支持向量機(jī)(SVM)、K-近鄰(KNN)、奈夫貝葉斯(NB)、決策樹(DT)、隨機(jī)森林(RF)和增強(qiáng)奈夫貝葉斯 (TAN)等。其中,

  • SVM使用最佳超平面對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類
  • KNN根據(jù)K-Nearest Neighbors對(duì)交易進(jìn)行分類
  • NB使用概率學(xué)習(xí)來(lái)估計(jì)類別的概率
  • DT通過(guò)生成決策樹以進(jìn)行基于特征的分類
  • RF結(jié)合決策樹以減少過(guò)擬合
  • TAN通過(guò)樹狀依賴結(jié)構(gòu)來(lái)增強(qiáng)NB以捕捉特征相關(guān)性

這些模型為識(shí)別和檢測(cè)金融欺詐提供了多種方法,有助于建立出強(qiáng)大的實(shí)時(shí)欺詐檢測(cè)系統(tǒng)。當(dāng)然,它們各有利弊,在為具體應(yīng)用選擇算法時(shí),我們需要考慮數(shù)據(jù)集的大小、特征空間、處理需求、以及可解釋性等因素。

為此,一種改進(jìn)的集合機(jī)器學(xué)習(xí)(Ensemble Machine Learning)技術(shù)應(yīng)運(yùn)而生。它能夠?qū)⒍鄠€(gè)單獨(dú)的算法模型組合在一起,通過(guò)重點(diǎn)優(yōu)化模型的各項(xiàng)參數(shù)、提高性能指標(biāo),以及整合深度學(xué)習(xí)(如Bagging、Boosting和Stacking),進(jìn)而創(chuàng)建出可以修復(fù)識(shí)別到的錯(cuò)誤、并減少假陰性的強(qiáng)大欺詐檢測(cè)系統(tǒng)。

集合學(xué)習(xí)檢測(cè)模型

既然是組合,那么我們便可以綜合選配各種機(jī)器學(xué)習(xí)分類器。而每一種分類器都會(huì)以其獨(dú)特的優(yōu)勢(shì)發(fā)揮應(yīng)有的作用。

如上圖所示,一個(gè)典型的金融欺詐類識(shí)別與檢測(cè)模型會(huì)包括如下組件:

  • SVM,擅長(zhǎng)為類別分離確定適當(dāng)?shù)某矫?/span>
  • LR,對(duì)事件概率進(jìn)行建模
  • RF,能夠建立穩(wěn)健的決策樹
  • KNN,根據(jù)近鄰中的多數(shù)類進(jìn)行分類
  • Bagging,會(huì)使用KNN作為基本分類器,以進(jìn)一步豐富集合
  • Boosting,使用RF作為基礎(chǔ)分類器
  • 最下方的投票分類器(Voting Classifier)可以綜合上述分類器的各種預(yù)測(cè)結(jié)果

由于采用了集合機(jī)器學(xué)習(xí)的協(xié)同方式,因此該模型在檢測(cè)金融領(lǐng)域少數(shù)類別的數(shù)據(jù),以及解決類別不平衡方面,具有出色的表現(xiàn)。其根本意愿在于,集合模型有助于聚集不同的弱學(xué)習(xí)算法,以增強(qiáng)其整體識(shí)別與檢測(cè)能力,進(jìn)而提高相關(guān)決策的可解釋性和透明度。此外,與深度學(xué)習(xí)架構(gòu)相比,集合式計(jì)算的密集度較低,因此也更適合金融領(lǐng)域本來(lái)就計(jì)算資源有限的場(chǎng)景。

檢測(cè)模型的評(píng)估

我們?cè)撊绾蝸?lái)評(píng)估機(jī)器學(xué)習(xí)系統(tǒng)對(duì)于具體金融欺詐的檢測(cè)效果呢?通常,業(yè)界會(huì)采用如下基本流程:

  • 首先,選擇一個(gè)包含了合法交易和欺詐交易記錄的數(shù)據(jù)集。
  • 由于數(shù)據(jù)集中存在著各種無(wú)序、原始、殘缺、以及重復(fù)的實(shí)例,系統(tǒng)的檢測(cè)很容易出現(xiàn)誤差,因此我們需要進(jìn)行數(shù)據(jù)預(yù)處理,使其適合模型的訓(xùn)練和測(cè)試。
  • 接著,鑒于欺詐交易只占整體交易數(shù)據(jù)的一小部分,我們需要對(duì)不平衡的數(shù)據(jù)集進(jìn)行采樣。
  • 然后,系統(tǒng)將整理好的采樣數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本,使用其中的訓(xùn)練樣本對(duì)已選的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,并使用這兩種樣本來(lái)觀察訓(xùn)練模型的行為。
  • 在獲得準(zhǔn)確率、精確度、召回率、F1分?jǐn)?shù)等選定評(píng)估參數(shù)的結(jié)果后,對(duì)系統(tǒng)的整體能力進(jìn)行分析和比較。

模型評(píng)估標(biāo)準(zhǔn)

在評(píng)估模型的清晰度和理解度時(shí),業(yè)界通常會(huì)使用混淆矩陣(Confusion Matrix)。如下圖所示,該矩陣由真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性(FP)和假陰性(FN)四個(gè)直觀的象限組成:

基于上述矩陣,目前被業(yè)界廣泛認(rèn)可的是模型評(píng)估標(biāo)準(zhǔn)通常包括:準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)四個(gè)方面的指標(biāo)。其中:

  • 準(zhǔn)確率,是所有正確預(yù)測(cè)(TP + TN)與樣本中預(yù)測(cè)或條目總數(shù)(TP + TN + FN + FP)之比。
  • 精確度,是TP與模型所做的所有正面預(yù)測(cè)(TP + FP)之比。換句話說(shuō),它是模型做出的正面預(yù)測(cè)的準(zhǔn)確度。
  • 召回率,是用來(lái)衡量機(jī)器學(xué)習(xí)模型識(shí)別正向類所有實(shí)例的能力指標(biāo)。它是正確預(yù)測(cè)到的陽(yáng)性觀察結(jié)果(TP)與實(shí)際陽(yáng)性觀察結(jié)果總數(shù)(TP+FN)的比率。
  • F1分?jǐn)?shù),是將精確度和召回率的結(jié)果合并為一個(gè)平衡的平均值指標(biāo)。

評(píng)估模型的準(zhǔn)確率

目前,有專家將集合學(xué)習(xí)模型與里面包含的LR、RF、KNN、Bagging、Boosting模型進(jìn)行了逐一比較。就同樣的數(shù)據(jù)集測(cè)試樣本而言,其結(jié)果的精確度、召回率和F1分?jǐn)?shù)如下表所示:


LR

RF

KNN

Bagging

Boosting

集合學(xué)習(xí)模型

精確度

0.945938

0.999891

0.999174

0.999

0.999092

0.999601

召回

0.944256

0.99989

0.999173

0.999

0.999092

0.9996

F1分?jǐn)?shù)

0.944204

0.99989

0.999173

0.999

0.999092

0.9996

可見(jiàn),集合學(xué)習(xí)模型能夠很好地捕捉到相關(guān)數(shù)據(jù),對(duì)其進(jìn)行精確預(yù)測(cè),從而實(shí)現(xiàn)了對(duì)特定數(shù)據(jù)的高靈敏度,并保持了穩(wěn)定的較低誤判率。

下表則更全面地向您展示了將各種典型機(jī)器學(xué)習(xí)算法,被運(yùn)用到實(shí)時(shí)金融欺詐場(chǎng)景的準(zhǔn)確率綜合比較:

金融欺詐場(chǎng)景

機(jī)器學(xué)習(xí)算法

準(zhǔn)確率

信用卡欺詐檢測(cè)

卷積神經(jīng)網(wǎng)絡(luò)

99%

信用卡欺詐檢測(cè)

長(zhǎng)短期記憶

99.5%

欺詐性信用卡識(shí)別

直覺(jué)貝葉斯

96.1%

欺詐性信用卡識(shí)別

KNN

95.89%

欺詐性信用卡識(shí)別

隨機(jī)森林

97.58%

欺詐性信用卡識(shí)別

序列卷積神經(jīng)網(wǎng)絡(luò)

92.3%

銀行B2C 在線交易

卷積神經(jīng)網(wǎng)絡(luò)

91%

信用卡交易數(shù)據(jù)集

分布式深度神經(jīng)網(wǎng)絡(luò)

99.9422%

評(píng)估模型效率

除了準(zhǔn)確率維度,我們也應(yīng)該評(píng)估模型的計(jì)算效率。這往往涉及到在檢測(cè)過(guò)程中,模型所需的訓(xùn)練和測(cè)試時(shí)間,以及這些過(guò)程對(duì)內(nèi)存和存儲(chǔ)等系統(tǒng)資源的利用率。


算法訓(xùn)練


在訓(xùn)練樣本上測(cè)試

在測(cè)試樣本上測(cè)試


時(shí)間(毫秒)

內(nèi)存使用量(MiB)

時(shí)間(毫秒)

內(nèi)存使用量(MiB)

時(shí)間(毫秒)

內(nèi)存使用量(MiB)

LR

3.5

1190.03-1190.64

2.9

1190.65-1190.65

2.5

1190.77-1190.77

RF

1135

1295.93-1296.31

19.9

1296.31-1296.31

8.28

1296.31-1296.33

KNN

0.597

1190.77-1288.20

1431

1288.20-1294.43

355

1295.43-1295.89

Bagging

9.23

1147.86-1841.64

10179

1841.89-819.89

2331

820.93-1342.43

Boosting

883

1341.71-1454.40

14.8

1454.46-1458.23

6.05

1456.50-1456.86

集合學(xué)習(xí)模型

2049

1455.36-2282.86

11681

2282.89-2158.89

2928

2155.05-2028.86

注意:上表中的內(nèi)存使用值是以兆字節(jié)(MiB)為單位,換算系數(shù)關(guān)系為1 MiB等于1.04858 MB。

總體而言,不同算法的訓(xùn)練和測(cè)試時(shí)間各不相同。其中,LRSVMKNN算法的訓(xùn)練時(shí)間較長(zhǎng),但測(cè)試時(shí)間較短;而其他模型則呈現(xiàn)出相反的趨勢(shì)。

小結(jié)

綜合上述,通過(guò)利用各種計(jì)算學(xué)習(xí)算法,我們不但可以提高金融欺詐檢測(cè)的準(zhǔn)確性和效率,而且能夠盡早地發(fā)現(xiàn)潛在的欺詐活動(dòng),進(jìn)而及時(shí)采取預(yù)防和抵御的措施,以減少其影響。

同時(shí),隨著信用卡欺詐技術(shù)的不斷發(fā)展,能夠有效綜合各種算法優(yōu)勢(shì)的集合機(jī)器學(xué)習(xí)檢測(cè)模型,已為我們進(jìn)一步開發(fā)更具擴(kuò)展性和適應(yīng)性的欺詐檢測(cè)系統(tǒng),奠定了基礎(chǔ)。從而在保證金融系統(tǒng)安全的同時(shí),持續(xù)維護(hù)了消費(fèi)者對(duì)于多元化互聯(lián)網(wǎng)金融交易的信心。

作者介紹

陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。


責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2017-04-11 12:45:29

Python機(jī)器學(xué)習(xí)信用卡欺詐檢測(cè)

2017-04-11 21:13:58

機(jī)器學(xué)習(xí)數(shù)據(jù)分析pandas

2017-02-16 08:25:35

2022-03-28 09:00:00

SQL數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)

2024-02-26 14:34:53

2018-09-17 15:30:05

機(jī)器學(xué)習(xí)密度異常值

2020-12-07 10:09:43

機(jī)器學(xué)習(xí)金融行業(yè)深度學(xué)習(xí)

2020-11-13 09:58:19

機(jī)器學(xué)習(xí)金融行業(yè)深度學(xué)習(xí)

2020-02-15 16:48:28

機(jī)器學(xué)習(xí)算法人工智能

2017-04-06 09:20:10

機(jī)器學(xué)習(xí)模型信用卡詐騙

2020-07-29 08:34:30

機(jī)器學(xué)習(xí)安全工具

2021-10-22 09:40:59

開源技術(shù) 工具

2023-06-12 07:50:45

2023-07-06 09:53:39

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2017-11-02 14:24:08

深度學(xué)習(xí)模型金融領(lǐng)域

2022-01-22 00:17:07

物聯(lián)網(wǎng)網(wǎng)絡(luò)安全漏洞

2018-08-30 14:58:12

機(jī)器學(xué)習(xí)磁盤故障

2017-08-25 14:05:01

機(jī)器學(xué)習(xí)算法模型

2019-06-25 10:09:42

Web攻擊機(jī)器學(xué)習(xí)網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)