自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

度小滿嚴澄:數(shù)據(jù)科學與金融風控模型

大數(shù)據(jù) 新聞
本次分享主要想和大家一起探討下,在金融風控場景下,如何通過數(shù)據(jù)對齊模型和業(yè)務(wù)目標,哪些數(shù)據(jù)、方法可以應(yīng)用于風控模型。

導讀:眾所周知,信息時代下的數(shù)據(jù)就是能源,就是生產(chǎn)力。但是面對海量、紛繁的數(shù)據(jù),特別是在金融領(lǐng)域,如何充分地利用數(shù)據(jù)是核心問題。本次分享主要想和大家一起探討下,在金融風控場景下,如何通過數(shù)據(jù)對齊模型和業(yè)務(wù)目標,哪些數(shù)據(jù)、方法可以應(yīng)用于風控模型,通過哪些指標可以正確地評估模型效果,以及最終如何用數(shù)據(jù)科學解釋模型結(jié)果。今天的介紹會圍繞下面四點展開:

  • 科學定義數(shù)據(jù)
  • 科學應(yīng)用數(shù)據(jù)
  • 科學評估數(shù)據(jù)
  • 科學解釋數(shù)據(jù)

01科學定義數(shù)據(jù)

1. 金融風險管理

信貸業(yè)務(wù)本質(zhì)是儲蓄轉(zhuǎn)化為投資的一種形式。類比于其他的互聯(lián)網(wǎng)業(yè)務(wù),電商平臺的推薦系統(tǒng)實現(xiàn)的是客戶和商品需求之間的精準匹配,廣告平臺的投放系統(tǒng)實現(xiàn)的是客戶和潛在興趣之間的精準匹配,互聯(lián)網(wǎng)信貸業(yè)務(wù)的風險管理目標就是實現(xiàn)資金供給方和資金需求方的精準風險匹配。在風險匹配的兩端,資金供給方期望的風險目標是明確的,所以風險管理的核心是預測資金需求方的風險,從而進行精準匹配。接下來我們講講風險定義以及如何科學預測風險。

2. 科學定義數(shù)據(jù)

在信貸行業(yè)內(nèi),對風險最常見的定義是年化風險,即年化不良金額除以年化余額。 這是因為簡化收益大多是按照年化定價 - 年化風險 - 年化資金成本來計算的。一整包資產(chǎn)的年化風險受很多因素影響:逾期的用戶分布,逾期的金額分布,放款的久期分布。雖然年化風險從業(yè)務(wù)上來看是個非常直觀的指標,但如果要直接預測年化風險則是非常困難的。從更易實現(xiàn)的角度來看,預測逾期的用戶分布會更直接而簡單。

假設(shè)有一個模型可以較好地預測人數(shù)逾期率,那么我們怎么與年化風險目標掛鉤呢?即模型的目標如何與業(yè)務(wù)的目標對應(yīng)。在真實的業(yè)務(wù)場景中,我們很容易發(fā)現(xiàn),資產(chǎn)的年化風險與人數(shù)逾期率(MOB12)的比值是一個在1附近的數(shù)值。對于這個數(shù)值的解讀,即當年化風險除以人數(shù)逾期率顯著大于1時,意味著整體額度過高,尤其是風險相對低的客戶的風險敞口沒有控制好;當年化風險與人數(shù)逾期率接近時,意味著額度和風險匹配得比較好;而當年化風險除以人數(shù)逾期率顯著小于1時,意味著整體的額度策略過于保守,雖然從風險角度講是好事,但從業(yè)務(wù)視角看其實是制約了整體的余額規(guī)模。經(jīng)過一定量的迭代以后,往往都會使得年化風險和人數(shù)逾期率之間的關(guān)系趨近于1。這時候如果人數(shù)逾期率預測得足夠準確,那么意味著年化風險預測就會很容易。  

在前面的定義中提到了“逾期”的概念,那么如何定義逾期,以及如何定義用戶的“好”“壞”呢?

逾期本身是一個隨時間變化的狀態(tài)量, 比如在約定還款的15天內(nèi)都沒有還款,而在第16天成功還款,那么在前15天是逾期的,而第16天之后則不是逾期狀態(tài)。顯然,逾期的時間越長越壞,最終逾期的概率越高。如何選擇一個合適的時間尺度去定義一個用戶是逾期的“壞”用戶?在實際操作中,我們往往通過觀察逾期N天后到最終逾期180天以上的概率。比如說當這個概率已經(jīng)大于90%時,我們就可以認為這個N已經(jīng)是一個很好的時間刻度了。在實際業(yè)務(wù)中,我們一般取N=30。

同樣的,對于“好”的定義,一樣有一個時間問題。顯然,觀察越長時間沒有逾期發(fā)生,用戶“好”的概率越高。然而對于用戶的觀察時間越長,會導致可用于學習的樣本量越少(尤其是新發(fā)展的業(yè)務(wù)本身數(shù)據(jù)就很少),并且樣本都是過去很久以前的數(shù)據(jù)(這在內(nèi)外環(huán)境快速變化的情況下影響更大)。

那么如何設(shè)定一個合適的觀察時間窗呢?通過右側(cè)的vintage曲線圖,我們可以看到,隨著時間的推移,不斷有新的用戶發(fā)生逾期,但新逾期發(fā)生的增速在緩慢地下降(斜率在變?。@硐肭闆r下,我們希望找到斜率為0的那個時間點作為觀察窗口;而在實際操作中,我們往往根據(jù)業(yè)務(wù)的發(fā)展階段和vintage曲線的斜率變化來決策觀察窗口。在我們的實際業(yè)務(wù)中,一般取MOB=12作為中長期的風險表現(xiàn)觀察窗口。

02科學應(yīng)用數(shù)據(jù)

當有了樣本和模型的目標以后,接下來看哪些特征數(shù)據(jù)可以應(yīng)用于風控模型。從整個金融視角來看,可用數(shù)據(jù)類型有以下幾類:

  • 征信報告:用戶歷史信用記錄
  • 互聯(lián)網(wǎng)數(shù)據(jù):用戶在互聯(lián)網(wǎng)上的各種數(shù)據(jù)
  • 第三方金融科技公司的合規(guī)數(shù)據(jù)
  • 用戶在自身產(chǎn)品下的行為數(shù)據(jù)

從三個視角來描述用戶:

  • 基本屬性畫像:描述用戶的基本屬性畫像,如年齡、性別、婚姻、職業(yè)、文化水平、興趣愛好、人生階段、常駐地等(通過各種機器學習、NLP等算法預測);
  • 行為序列:用戶在一段時間內(nèi)的行為,總是有很強的相關(guān)性。尤其在信貸場景下,行為序列很好地反映了用戶的需求(通過各種RNNs做序列建模);
  • 社交關(guān)系:物以類聚,人以群分。比如通過用戶周圍人的收入及消費能力,例如同小區(qū)的人或者同事,可以一定程度從側(cè)面反映用戶的資產(chǎn)能力(通過各種GNNs做關(guān)聯(lián)網(wǎng)絡(luò)的建模)。

以下是一些簡單的模型、特征設(shè)計示例,由于我們今天主要討論數(shù)據(jù)科學,就不詳細展開了。

  • 文本類數(shù)據(jù):利用Attention網(wǎng)絡(luò)提取大量文本的核心數(shù)據(jù);
  • 時序類數(shù)據(jù):利用大量借還款行為做RNNs模型預測用戶未來風險;
  • 關(guān)聯(lián)類數(shù)據(jù):1)分群算法:群屬性作為特征;2)基于深度圖卷積網(wǎng)絡(luò),充分利用相鄰節(jié)點的信息。

回顧之前關(guān)于選擇觀察期窗口的vintage圖表。如上圖紅框中所示,可以看到很多月份的曲線斜率突然大幅上揚。按時間去對應(yīng)的話,就會發(fā)現(xiàn)這段時間正是2020年初新冠疫情爆發(fā)的時間。疫情的爆發(fā)導致逾期率大幅上漲,而對疫情的影響我們沒有任何歷史經(jīng)驗,也就是說歷史學習到的特征X(用戶屬性)與目標Y(逾期率)之間的關(guān)系已經(jīng)不適用在疫情場景下了。于是針對當下,我們需要考慮三個問題:

  • 疫情影響是否結(jié)束?這涉及到我們該選擇什么樣的X—Y關(guān)系用于建模和預測。
  • 疫情影響了哪些樣本?疫情顯然是特殊場景,不應(yīng)該和正常環(huán)境下的數(shù)據(jù)混合在一起。
  • 如何利用疫情下的樣本?

疫情持續(xù)反復,但影響在不斷減弱,我們主要探討下面兩個問題。

找出受疫情影響的用戶,可以把客戶分成以下兩種:

  • 表現(xiàn)期不在疫情期間:包括正常用戶和自然逾期的用戶;即這些用戶是不受疫情影響的。
  • 表現(xiàn)期在受疫情影響期間:包括正常用戶和逾期用戶,而逾期用戶里必然有自然逾期和受疫情影響而逾期的用戶。

我們將表現(xiàn)期不在疫情期間逾期的用戶標識為0,將表現(xiàn)期在受疫情期間的逾期用戶標識為1,基于二分類模型進行訓練。經(jīng)過模型訓練以后,那些預測高概率為1的用戶就是那些受疫情影響而逾期的用戶,而那些預測高概率為0的用戶就是不管有沒有疫情都大概率會逾期的客戶。這樣,我們設(shè)定一個閾值,就可以將大部分受疫情影響而逾期的用戶找出來。

另一種方法是通過EM迭代進行識別。如上圖所示,我們按照授信月的各個MOB是否在疫情發(fā)生時期來對逾期客戶標記顏色。藍色:自然逾期;紅色:在疫情期間內(nèi)逾期。

通過每一輪的EM迭代,我們可以將紅色分布里面近似于藍色分布的部分逐漸找出來并加入到藍色區(qū)塊內(nèi)。當整體的風險水平接近疫情前時停止,那么依然留在紅色區(qū)域內(nèi)的逾期用戶就是受疫情影響而逾期的用戶了。

通過以上兩種方法過濾后,我們再觀察下隨時間的逾期率變化。從上圖可以看到,原先逾期30天以上的曲線在疫情發(fā)生期間是大幅上揚的,但過濾后整個線就比較平了。

03科學評估數(shù)據(jù)

接下來講一下如何科學準確地評估模型的效果。

風險模型最核心的指標就是排序指標KS。KS值可以很好地度量一個集合內(nèi)好壞用戶的排序分布。一個常見的情形是,離線評測模型的KS值很高,但是等到上線應(yīng)用后,模型的KS很快就大幅“衰減”了,而且很多時候都是離線提升的越多,線上衰減越大。那么是模型出問題了嗎?這里其實有個觀察的誤區(qū),所謂的“衰減”是指在不同時期的不同用戶集合上的KS值比較,而實際上不同集合間的KS絕對值是沒有比較意義的。

舉一個簡單的例子,某一場考試預測排名,試想對全校去年成績前50的學生進行排序預測容易還是對任意一個班的學生預測排序容易,顯然對后者的預測必然會更準確一些。上圖中右邊部分描述模型上線后KS“衰減”的原因。新模型V2的排序能力高于V1,它可以將V1授信通過的用戶中更多的壞用戶排到靠后。當V2上線后,V2高準確度識別的類似壞用戶無法通過了(也就是只剩下全校排名靠前的學生了),因此對V2決策通過的用戶算KS自然就下降了。上圖中,只有KS2與KS1、KS3與KS4是有比較意義的。

模型穩(wěn)定性是另一個關(guān)鍵因素。分布穩(wěn)定性最基礎(chǔ)的指標是PSI,只有預測分數(shù)分布是穩(wěn)定的,這樣才有信心可以基于歷史數(shù)據(jù)去預測未來的風險;性能穩(wěn)定性則是指,要保證預測分數(shù)區(qū)間對應(yīng)的真實風險是相對穩(wěn)定的,比如600-650分之間對應(yīng)的逾期風險是1%,那么我們希望在所有月份上真實風險都能穩(wěn)定在1%的水平附近。

而在策略對模型的實際應(yīng)用中, 核心則是基于Swap in & out的分析。通過分段交叉的矩陣,考量在人數(shù)相同的情況下,新模型的整體逾期率是否顯著低于舊模型;而在相同逾期率的水平下,新模型的通過率提升多少,可以提升整體規(guī)模多少。

那些被拒絕掉的用戶,是沒有風險表現(xiàn)的,只有那些最終通過且發(fā)生信貸行為的用戶才有風險表現(xiàn)。試想,用于學習的樣本都是歷代模型認為較好的客戶,隨著模型不斷迭代,模型學習的樣本向好用戶收斂,樣本的特征空間就越來越窄了。常見的一種方式是引入拒絕推斷,給拒絕的用戶賦予label,讓其參與到模型訓練里。上圖介紹了一種做拒絕推斷的方法。

給拒絕的用戶按照模型1給出的打分,比如某個用戶模型1的分數(shù)是0.2(逾期率20%),那么將這個用戶的樣本復制10份,其中8份樣本的label設(shè)成0,2份設(shè)置成1。這樣10份樣本特征一樣,但整體label為1的比例就是20%。當然也可以不復制樣本,很多模型都支持設(shè)置樣本權(quán)重。通過這種方式增加了X取值的多樣性,可以一定程度提升模型的適用性。

客戶分群的方法有很多,上圖展示了一種劃分方法:最頂層先考慮實際的借款用途,區(qū)分為小微和消費;然后基于客戶的活躍程度進一步劃分成活躍和非活躍;最后再根據(jù)如行業(yè)或者行為上的差異進一步細分客群。細分客群的核心思想是,不同客群之間存在明顯的差異性,一種是特征上的差異,一種是風險表現(xiàn)上的差異。這種情況下,細分客群建模,可以讓每個模型充分學習自身樣本的信息,而不是從全局上平均化地去擬合。但是,如果尋找不到顯著的差異,特別是樣本總量還不是很充足的時候,分客群不是一個好的選擇。

04科學解釋數(shù)據(jù)

最后講一下如何解釋模型結(jié)果。

  • V1:邏輯回歸模型:優(yōu)點——可解釋強。缺點——特征數(shù)量少,模型簡單,對特征的質(zhì)量要求非常高,預測的能力相對較弱。
  • V2:決策樹模型:優(yōu)點——避免大量特征工程,模型效果較好。缺點——特征多,且特征之間是非線性關(guān)系,難以解釋。
  • V3: 兩層模型:把成千上萬的變量基于數(shù)據(jù)源,通過各種機器學習、深度學習的算法構(gòu)建子模型,然后把這些子分作為上層LR或淺層XGB模型的輸入,完成最終的模型。優(yōu)點是在頂層模型上解釋性很好,子分與結(jié)果具有一定線性關(guān)系,可以快速定位子分的問題,非常便于排查問題。

今天的分享就到這里,謝謝大家。

責任編輯:張燕妮 來源: DataFunTalk
相關(guān)推薦

2025-01-03 08:26:17

2015-07-29 14:16:43

互聯(lián)網(wǎng)金融大數(shù)據(jù)

2017-03-27 08:56:15

支付風控模型

2019-05-07 16:30:18

TigerGraph數(shù)據(jù)庫金融風控

2016-10-14 13:27:13

大數(shù)據(jù)互聯(lián)網(wǎng)金融

2023-02-06 08:20:36

2017-04-21 14:04:50

互聯(lián)網(wǎng)

2020-07-11 15:56:07

人工智能大數(shù)據(jù)云計算

2024-05-17 08:16:08

數(shù)據(jù)建設(shè)風控領(lǐng)域數(shù)據(jù)分析

2017-03-01 16:49:53

金融大數(shù)據(jù)張為斌

2020-06-28 09:53:16

大數(shù)據(jù)個人隱私技術(shù)

2017-03-01 10:50:45

2023-09-04 07:03:35

2023-02-15 21:49:55

2023-06-02 07:19:56

因果推斷度小滿

2017-02-28 14:53:13

點贊
收藏

51CTO技術(shù)棧公眾號