自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

螞蟻信貸圖風(fēng)控實踐

人工智能 算法
本文主要介紹圖近線、在線、離線風(fēng)控體系,以及圖分析、圖計算,在螞蟻消費、網(wǎng)商信貸業(yè)務(wù)上的應(yīng)用。圖風(fēng)控技術(shù)規(guī)?;臉I(yè)務(wù)落地,一開始我們只是簡單的嘗試,效率比較低,因為信貸場景較為嚴謹,上線需要進行離線測算、旁路驗證。這就需要保證離線在線的數(shù)據(jù)源頭一致、計算語義一致,實現(xiàn)圖仿真功能。否則只能通過離線表JOIN的方式進行構(gòu)圖,很難支持3-6個月的圖回測。

一、信貸圖風(fēng)控業(yè)務(wù)背景及案例

首先簡單介紹我們的業(yè)務(wù)場景。

1、業(yè)務(wù)背景

我們做的信貸圖風(fēng)控主要用于反騙貸和反套現(xiàn)的防控:

  • 騙貸是指黑產(chǎn)惡意騙取貸款,無還款意愿。這種情況導(dǎo)致了較高的資金風(fēng)險,業(yè)界來看占整體逾期貸款的30%-40%左右。
  • 套現(xiàn)是指用戶通過虛假的交易場景,將信貸額度套取成現(xiàn)金。這種行為違反了信用卡、花唄等消費貸的使用規(guī)范,無法管控資金使用范圍,另外也容易造成多頭借貸,引起金融風(fēng)險。

常見的套現(xiàn)騙貸手法包括:

  • 掃碼模式:線下店鋪開通收款碼,保存本地或到店進行掃碼的方式,讓套現(xiàn)人使用花唄支付,進行套現(xiàn)。
  • 淘寶模式:中介在網(wǎng)上開店,上架商品,套現(xiàn)人使用花唄支付完成虛擬網(wǎng)購,從而信用額度。
  • 預(yù)下單模式:使用三方APP,下單后不支付,然后告訴套現(xiàn)人三方賬號密碼,由套現(xiàn)人登錄后使用花唄支付,完成套現(xiàn)。

圖片

基于信貸的業(yè)務(wù)特色,我們設(shè)計了事前、事中到事后的全面防控,各環(huán)節(jié)的主要內(nèi)容為:

  • 事前:提前感知、認知風(fēng)險。包括對商戶進行風(fēng)險分析、對用戶進行風(fēng)險等級評級,這部分工作會用到近線的圖分析功能。
  • 事中:當(dāng)用戶申請貸款、或要用貸款去付錢時,基于交易請求實時分析和計算,進行風(fēng)險策略和模型應(yīng)用及圖譜的交叉驗證。
  • 事后:對信貸業(yè)務(wù)進行全面的風(fēng)險分析,如分析資金使用、套現(xiàn)可能性、挖掘團伙。

2、業(yè)務(wù)應(yīng)用全局視角

我們基于事前、事中、事后的業(yè)務(wù)體系,設(shè)計了對應(yīng)的技術(shù)框架。

圖片

  • 事前:T+1調(diào)度進行圖跑批計算、由事件驅(qū)動的近線計算。
  • 事中:基于請求在線實時計算,使用了圖數(shù)據(jù)庫的能力,保證查詢性能。
  • 事后:近線的消息監(jiān)控、T+1的全量分析,以及交互式圖分析。

上述模塊會用到的圖技術(shù)包括:圖的多度關(guān)系聚合特征(Traversal&Aggregate)、模式匹配(Pattern Matching)、圖社區(qū)檢測算法(Community Detection)、圖學(xué)習(xí)、圖推理等。

3、花唄反套現(xiàn)案例

下面我們通過花唄反套現(xiàn)的案例來說明事后和事中的防控。

圖片

事后

由于風(fēng)控場景的Y標(biāo)稀缺,如果依賴人工專家打標(biāo),對于專家未識別到的套現(xiàn)模式會出現(xiàn)無法覆蓋的情況。所以我們通過T+1的離線數(shù)據(jù)和實時數(shù)據(jù)開發(fā)了風(fēng)險大圖,基于“近朱者赤近墨者黑”的思想,將Pattern Matching中識別到的黑、灰種子,進一步在圖上擴散傳播,從識別更多風(fēng)險用戶,并將風(fēng)險由單點轉(zhuǎn)換為社團。

事中

傳統(tǒng)事中實時風(fēng)控計算,多使用Flink產(chǎn)出統(tǒng)計型特征,它無法刻畫多度關(guān)系。另外,如果圖Pattern全部依賴專家定義存在效率和覆蓋度的問題。所以我們使用了在線子圖,包括買家子圖、賣家子圖、買賣家連通子圖,作為神經(jīng)網(wǎng)絡(luò)的輸入并在線打分,從而進行實時的防控。

二、圖風(fēng)控規(guī)模化落地

1、微貸圖平臺

圖片

圖風(fēng)控技術(shù)規(guī)?;臉I(yè)務(wù)落地,一開始我們只是簡單的嘗試,效率比較低,因為信貸場景較為嚴謹,上線需要進行離線測算、旁路驗證。這就需要保證離線在線的數(shù)據(jù)源頭一致、計算語義一致,實現(xiàn)圖仿真功能。否則只能通過離線表JOIN的方式進行構(gòu)圖,很難支持3-6個月的圖回測。

我們通過技術(shù)驗證后,沉淀了一套能力,包括:

  • 圖建模:離線、近線、在線的圖資產(chǎn)統(tǒng)一。
  • 圖交互式分析:專家使用圖交互式分析進行研判。
  • 圖仿真回測:基于分析的case進行3-6個月的圖仿真回測。
  • 圖計算服務(wù)上線:圖特征和圖算子的一鍵發(fā)布上線。

統(tǒng)一圖資產(chǎn)在分析,仿真和上線的語義一致、三線一體,保證了圖風(fēng)控規(guī)?;男省?/span>

2、規(guī)模化效率瓶頸

圖片

做完規(guī)?;螅覀儼l(fā)現(xiàn)業(yè)務(wù)流程前面的模塊都是離線T+1跑批、或基于事件觸發(fā),都是自動的。只有最后這一步需要人的分析,這個環(huán)節(jié)對人工的依賴,阻礙的圖的大規(guī)模應(yīng)用,所以我們下一步的工作是自動挖掘風(fēng)險。

三、子圖挖掘

圖片

我們之前的業(yè)務(wù)分析測算,都基于專家給出了明確的風(fēng)險模式后進行處置,但其實這樣的流程周期很長,效率較低。所以我們目前正在自動挖掘風(fēng)險模式,然后推薦給專家分析。

1、總體技術(shù)方案

圖片

整體技術(shù)方案分為以下幾步:

  • 基于離線T+1及實時數(shù)據(jù)構(gòu)建底圖。
  • 計算圖中每個節(jié)點的表征向量,然后計算p-value值及各種業(yè)務(wù)指標(biāo)
  • 篩選節(jié)點,并基于種子節(jié)點進行擴散,獲得重要風(fēng)險子圖
  • 在子圖中進行風(fēng)險模式的挖掘,獲得風(fēng)險模式(Pattern)的候選集,并進行回測
  • 回測結(jié)果符合預(yù)期指標(biāo)的風(fēng)險模式,交由業(yè)務(wù)方進行交互分析,并決定是否采用上線
  • 通過這一套流程,我們把挖掘風(fēng)險模式,結(jié)合算法和算力做到了自動化。

在這套流程中,有兩個比較大的挑戰(zhàn):

  • 信息混雜問題:底圖數(shù)據(jù)龐大,噪聲較多。
  • 算力復(fù)雜問題:子圖同構(gòu)算法復(fù)雜度為指數(shù)級。

2、信息混雜問題

圖片

對于信息混雜問題,當(dāng)我們基于原始大圖進行挖掘時,首先圖的規(guī)模比較大,難以進行挖掘。另外,圖中有許多噪音,比如我們每天購買咖啡、早餐,當(dāng)我們基于頻繁度進行挖掘時,這種模式很容易被挖掘出來,但沒有提供風(fēng)險信息,應(yīng)該被剔除。

我們的做法是基于完整的底圖,計算節(jié)點表征向量。然后根據(jù)節(jié)點p-value和業(yè)務(wù)指標(biāo),計算節(jié)點的重要度,最后裁剪低于一點重要度的節(jié)點,我們目前通常挖掘的圖在10億規(guī)模左右。這樣做可以剔除噪聲,并且提升挖掘的效率。

3、算力復(fù)雜問題

算力復(fù)雜度主要來源于組合爆炸,比如某種邊的類型只有10萬條,但它對應(yīng)的pattern可能有11 億個,而我們的挖掘,每增加一度都需要反復(fù)驗證對應(yīng)的業(yè)務(wù)指標(biāo),所以計算量非常大。

圖片

對于這個問題,我們有兩個解決辦法。第一是基于業(yè)務(wù)語義,對不合理的pattern進行剪枝。這種從業(yè)務(wù)應(yīng)用的角度對圖進行剪枝,得到了比較好的效果。第二,從技術(shù)的角度,引入圖的外部存儲,緩解了大規(guī)模圖挖掘的內(nèi)存壓力。

4、子圖自同構(gòu)問題

圖片

子圖自同構(gòu),原本需要遍歷所有子圖進行對比,是一個np問題,比較難找到最優(yōu)解。我們與高校合作,使用了數(shù)學(xué)的思路,將子圖映射成一個數(shù)學(xué)函數(shù),然后通過數(shù)學(xué)函數(shù)可以比較快速的對比。這個方法不能解決所有問題,但是能解決大部分問題。我們基于這個思路進行了分布式的實現(xiàn),從而更好地做圖挖掘,以及圖模式的匹配。

四、回顧總結(jié)

圖片

我們的信貸圖風(fēng)控建設(shè)從2018年開始,基于專家總結(jié)的風(fēng)險模式,轉(zhuǎn)換成圖模式匹配進行風(fēng)險挖掘,它的特點是準(zhǔn)確率高,但風(fēng)險覆蓋度比較低。所以在2019年我們做了團伙算法,用于解決聚集性風(fēng)險。2020年,我們從圖的靜態(tài)切面,分析圖的當(dāng)前信息,推進到分析圖的時序演進狀態(tài),進一步捕捉團伙的發(fā)展以及變化的信息。21年,我們做了圖平臺規(guī)模化的落地,實現(xiàn)三線一體。22、23年,我們的主要工作是做圖的自動挖掘和分析。

五、問答環(huán)節(jié)

Q1. 剛剛提到事中階段會在線進行攔截,時延是120毫秒,線上用了什么樣算法,還是用專家系統(tǒng)進行模式匹配?怎么做到120毫秒?

A:模式匹配和團伙發(fā)現(xiàn)是事后做的,社團的計算需要幾十秒。事中主要是在圖數(shù)據(jù)庫中查了買家子圖、賣家子圖、買家賣家連通子圖,主要做Traversal&Aggregate,進行表征向量抽取,然后進行深度學(xué)習(xí)模型的打分,這個過程大概消耗20毫秒左右。當(dāng)然我們也在風(fēng)控鏈路上做了許多優(yōu)化,整套流程大概在70-80毫秒。

Q2. 20毫秒的查詢會涉及到幾度鄰居查詢?

A:買家和賣家子圖往外擴兩度,買家賣家連通子圖則是各擴兩度,并且各擴充兩度后可以連通。

Q3. 事中查詢時,圖的切片如何選???

A:圖是有多個線程持續(xù)更新寫入數(shù)據(jù)的,當(dāng)有訪問請求時,實時對被訪問節(jié)點進行Traversal&Aggregate。

Q4. 圖中節(jié)點表征的更新頻率是什么?

A:圖節(jié)點的表征是實時抽取計算的。

Q5. 子圖挖掘整體方案中,藍色模塊的評估任務(wù),是自動化評估還是有業(yè)務(wù)專家介入評估?

A:這部分的評估是自動化評估,我們會基于風(fēng)險的候選集,在3-6個月的圖上進行回測,然后根據(jù)歷史數(shù)據(jù)上匹配到的pattern,計算用戶、商戶的各種風(fēng)險及業(yè)務(wù)指標(biāo),然后根據(jù)業(yè)務(wù)給出的口徑進行自動化的評估。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-05-29 08:04:08

2023-07-31 07:43:29

保險反欺詐前沿技術(shù)

2023-06-06 11:49:24

2025-01-03 08:26:17

2020-11-04 09:41:07

大數(shù)據(jù)信貸技術(shù)

2023-09-04 07:03:35

2024-05-17 08:16:08

數(shù)據(jù)建設(shè)風(fēng)控領(lǐng)域數(shù)據(jù)分析

2024-07-15 08:59:52

機器學(xué)習(xí)弱監(jiān)督建模人工智能

2023-05-31 07:22:45

2020-12-30 13:15:59

大數(shù)據(jù)銀行疫情

2019-05-07 16:30:18

TigerGraph數(shù)據(jù)庫金融風(fēng)控

2017-02-28 14:53:13

2021-03-22 11:49:19

架構(gòu)運維技術(shù)

2018-09-05 13:00:09

2017-02-24 19:45:58

2022-08-19 11:58:52

風(fēng)控技術(shù)

2024-06-26 10:15:57

2017-03-27 08:56:15

支付風(fēng)控模型

2024-01-19 13:28:42

風(fēng)控數(shù)字時代

2017-03-01 10:50:45

點贊
收藏

51CTO技術(shù)棧公眾號