大數(shù)據(jù)新算法在個人信用風(fēng)險評估模型中使用效果的評估
上世紀80年代,美國費埃哲公司基于邏輯回歸算法構(gòu)建了費埃哲信用評分體系,并成為美國信用評分市場的巨頭。然而,隨著大數(shù)據(jù)建模技術(shù)的日新月異,許多新算法、新技術(shù)層出不窮。本項目選取了五種大數(shù)據(jù)新算法,包括支持向量機(SVM)、決策樹、隨機森林、自適應(yīng)提升(AdaBoost)和梯度提升決策樹(GBDT),在中國人民銀行征信中心的大規(guī)模樣本上進行了個人風(fēng)險評估模型的構(gòu)建,并從三方面進行評估。首先,從模型的準確性和可解釋性方面綜合對比各算法構(gòu)建的模型在個人信用風(fēng)險評估中的效果。之后使用時點外測試樣本,對各算法構(gòu)建的模型的外部時點穩(wěn)定性進行了評估。
項目背景
目前,中國人民銀行征信中心的信用報告數(shù)字解讀體系參考了美國個人消費信用評估公司費埃哲開發(fā)的費埃哲信用評分體系。費埃哲信用評分體系構(gòu)建于上世紀80年代,其核心算法是邏輯回歸。隨著統(tǒng)計分析和大數(shù)據(jù)建模技術(shù)的進步,算法的發(fā)展日新月異,形成了包括決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)分析與自適應(yīng)提升(AdaBoost)等在內(nèi)的許多新算法新技術(shù),而這些大數(shù)據(jù)新算法在目前征信中心的數(shù)據(jù)集上的準確性、穩(wěn)定性與可解釋性仍有待驗證評估。
為此,中國人民銀行征信中心聯(lián)合北京至信普林科技有限公司,選取了五種大數(shù)據(jù)新算法,分別為支持向量機(SVM)、決策樹、隨機森林、自適應(yīng)提升(AdaBoost)和梯度提升決策樹(GBDT),全面評估和比較上述五種算法在個人信用風(fēng)險評估模型中的效果,包括穩(wěn)定性、準確性與可解釋性,以進一步理解相關(guān)算法在評分上的優(yōu)勢與短板。對新型評分模型的探索與試驗有助于為征信中心積累模型算法經(jīng)驗,與國際領(lǐng)先的建模方法接軌,同時以新穎的信用評估模型作為戰(zhàn)略儲備,為打造我國自有的信用評分體系積累經(jīng)驗。
算法介紹
支持向量機(Support Vector Machine,SVM)是一種分類學(xué)習(xí)算法。支持向量機(SVM)的基本模型是定義在特征空間上的間隔最大的線性分類器。線性支持向量機與邏輯回歸類似,都是給每一個變量賦予一個權(quán)重因子,最終變量的加權(quán)和作為預(yù)測的依據(jù)。同時支持向量機(SVM)可以使用核函數(shù)將變量映射到高維空間,從而提升模型效果。然而這種方法的主要缺點是訓(xùn)練速度慢,難以直接運用到大規(guī)模數(shù)據(jù),因此本項目僅對線性支持向量機進行了測試。
決策樹(Decision Tree)是一種基本的分類與回歸方法。決策樹模型呈樹形結(jié)構(gòu),可以認為“是否”判斷規(guī)則(if-then)的集合,也可以看作定義在特征空間與類空間上的條件概率分布。其主要優(yōu)點是訓(xùn)練速度快,預(yù)測速度也很快。相對于線性模型,決策樹還可以處理非線性數(shù)據(jù)。此外,決策樹模型可解釋性非常強,對于數(shù)據(jù)的適應(yīng)能力也很強;其缺點則是單棵決策樹容易過擬合。
隨機森林(Random Forest)由多棵決策樹組成,每棵決策樹擅長特定人群、重點關(guān)注特定變量,然后一起決策,作出最終判斷。隨機森林在構(gòu)建每棵決策樹時,通過樣本和變量兩個維度進行隨機抽樣。隨機森林的優(yōu)點是訓(xùn)練速度快,可以很好地進行并行化,能夠處理大規(guī)模數(shù)據(jù)。
自適應(yīng)提升(Adaptive Boosting,AdaBoost)核心思想是利用同一訓(xùn)練樣本的不同加權(quán)版本,訓(xùn)練一組弱分類器(Weak Learner),然后把這些弱分類器以加權(quán)的形式集成起來,形成一個最終的強分類器(Strong Learner)。在每一步迭代過程中,被當(dāng)前弱分類器分錯的樣本的權(quán)重會相應(yīng)得到提高,被當(dāng)前弱分類器分對的樣本的權(quán)重則會相應(yīng)降低。弱分類器的權(quán)重則根據(jù)當(dāng)前分類器的加權(quán)錯誤率來確定。自適應(yīng)提升(AdaBoost)的優(yōu)點是不容易產(chǎn)生過擬合,預(yù)測效果好。
梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)與自適應(yīng)提升(AdaBoost)在很多方面類似,也是子模型之間相互協(xié)作,不同的是后一個子模型對前一個模型的失誤進行修正。梯度提升決策樹(GBDT)模型預(yù)測的時候,對于輸入的一個樣本實例,首先會賦予一個初值,然后會遍歷每一棵決策樹,每棵樹都會對預(yù)測值進行調(diào)整修正,最后得到預(yù)測的結(jié)果。
邏輯回歸適合處理線性數(shù)據(jù),而實際問題往往是非線性的,特別是在信用風(fēng)險評估場景下。支持向量機(SVM)能夠通過核函數(shù)等方法處理非線性數(shù)據(jù),然而在樣本量大時訓(xùn)練速度太慢。決策樹能夠處理非線性數(shù)據(jù),但是單棵決策樹對數(shù)據(jù)十分敏感,容易產(chǎn)生過擬合問題。隨機森林通過采樣來減小計算量,同時能夠利用并行方式進行模型訓(xùn)練,因而適合處理大規(guī)模高維數(shù)據(jù)。自適應(yīng)提升(AdaBoost)和梯度提升決策樹(GBDT)在基本決策樹模型的基礎(chǔ)上,通過數(shù)據(jù)權(quán)重變換等方式,能夠?qū)⒁粋€弱模型變成強模型,同時能夠有效避免過擬合問題。
建模流程
本次研究使用的數(shù)據(jù)集為征信中心數(shù)據(jù)庫存儲的1265萬人的個人征信數(shù)據(jù),具體包括2010年7月31日時間點的貸款記錄、貸記卡記錄、準貸記卡記錄、特殊交易記錄和查詢記錄。采用自2010年7月31日至2012年7月31日之間個人違約情況的記錄定義表現(xiàn)變量,表現(xiàn)變量取值范圍為0(未逾期)和1(逾期90天以上)。
項目建模的流程如下:(1)首先對原始數(shù)據(jù)進行分析,研究原始數(shù)據(jù)各字段的含義并分析數(shù)據(jù)質(zhì)量;(2)基于分析結(jié)果,確定刻畫個人信用的七大類統(tǒng)計指標(biāo), 包括歷史還款信息、帳戶類型和數(shù)量、正在使用和已結(jié)清帳戶信息、信用時長、新開帳戶信息、查詢信息和特殊交易信息;(3)對部分連續(xù)型指標(biāo)采用單變量決策樹的方法進行分欄處理;(4)利用大數(shù)據(jù)算法構(gòu)建個人信用風(fēng)險評估模型;(5)對各算法構(gòu)建的模型效果進行評估和分析。
本項目中數(shù)據(jù)的分析、處理與建模等均是基于派森(Python) 環(huán)境。
效果評估
本項目主要從準確性,穩(wěn)定性,可解釋性三個方面來評估模型。其中準確性指標(biāo)包括感受性曲線下面積(ROC_AUC)和區(qū)分度指標(biāo)(Kolmogorov-Smirnov,KS),穩(wěn)定性指標(biāo)主要參考群體穩(wěn)定指數(shù)(Population Shift Index,PSI)??山忉屝钥赏ㄟ^指標(biāo)重要度來進行評估,其中指標(biāo)重要度用于衡量各個解釋變量對算法預(yù)測結(jié)果影響的程度。感受性曲線下面積(ROC_AUC)、區(qū)分度指標(biāo)(KS)和群體穩(wěn)定指數(shù)(PSI)的具體含義如下:
感受性曲線下面積(ROC_AUC)
感受性曲線下面積(ROC_AUC)是一個從整體上評價模型準確性的指標(biāo),是感受性曲線(ROC)與橫軸之間的面積。相比于其他評價指標(biāo),感受性曲線(ROC)具有一定的穩(wěn)定性,它不會因為正負樣本分布的變化而產(chǎn)生不同的曲線。感受性曲線(ROC)通過真陽率(True Positive Rate, TPR)和假陽率(False Positive Rate, FPR)兩個指標(biāo)進行繪制。感受性曲線(ROC)示意如圖1所示。感受性曲線下面積(ROC_AUC)取值范圍為[0,1],取值越大,代表模型整體準確性越好。
區(qū)分度指標(biāo)(KS)
區(qū)分度指標(biāo)(KS)是度量具體模型下正常樣本和違約樣本分布的最大差距,首先按照樣本的信用分數(shù)或預(yù)測違約率從小到大進行排序,然后計算每一個分數(shù)或違約率下好壞樣本的累計占比。正常和違約樣本的累計占比差值的最大值即為區(qū)分度指標(biāo)(KS)。區(qū)分度指標(biāo)(KS)的示意如圖2所示。區(qū)分度指標(biāo)(KS)小于0.2代表模型準確性差,超過0.75則代表模型準確性高。
群體穩(wěn)定指數(shù)(PSI)
模型是在特定時間點開發(fā)的,是否對外部樣本有效需要經(jīng)過穩(wěn)定性測試。群體穩(wěn)定指數(shù)(Population Stability Index,PSI)是最常用的模型穩(wěn)定性評價指標(biāo)。群體穩(wěn)定指數(shù)(PSI)的計算公式為:
其中預(yù)期占比(Expected%)和實際占比(Actual%)分別表示在模型訓(xùn)練樣本和測試樣本中,對應(yīng)分數(shù)段或違約率段內(nèi)的人群占比。一般而言,群體穩(wěn)定指數(shù)(PSI)小于0.1代表模型穩(wěn)定性高,群體穩(wěn)定指數(shù)(PSI)大于0.1小于0.25代表模型穩(wěn)定性中等,群體穩(wěn)定指數(shù)(PSI)大于0.25代表模型穩(wěn)定性較差。
2010年樣本測試。我們首先在2010年樣本上進行建模,評估各模型的準確性與可解釋性。2010年樣本是指2010年表現(xiàn)變量取值為0(未逾期)和1(逾期90天以上)的人群,樣本大小約為1000萬。選取樣本的70%作為訓(xùn)練樣本構(gòu)建模型,30%作為測試樣本評估模型效果。各模型的感受性曲線下面積(ROC_AUC)和區(qū)分度指標(biāo)(KS)分別如圖3所示和圖4所示。
從上述結(jié)果可以看出,集成算法(隨機森林,梯度提升決策樹,自適應(yīng)提升)建立的模型表現(xiàn)更好,感受性曲線下面積(ROC_AUC)指標(biāo)達到0.95以上。支持向量機(SVM)的準確性表現(xiàn)最差,這與數(shù)據(jù)樣本大,在項目環(huán)境下無法使用核函數(shù)有關(guān)。決策樹表現(xiàn)一般,感受性曲線下面積(ROC_AUC)指標(biāo)分別為0.9477。具體地,如果以區(qū)分度指標(biāo)(KS)作為衡量標(biāo)準,自適應(yīng)提升(AdaBoost)表現(xiàn)最好,區(qū)分度指標(biāo)(KS)達到0.7803。其他模型的表現(xiàn)排序為:隨機森林>梯度提升決策樹(GBDT)>決策樹>支持向量機(SVM)。
在可解釋性方面,通過各算法計算指標(biāo)重要度以幫助對結(jié)果進行解讀。綜合考慮所有模型生成的指標(biāo)重要度而得出的綜合排序如表1所示。
從各模型指標(biāo)重要度綜合排序來看,對個人信用評估影響最大的因素分別是:逾期情況、正常還款比例、免擔(dān)保貸款、授信額度使用率、信用年限等??梢?,影響大數(shù)據(jù)新算法預(yù)測結(jié)果的都是可解釋性較高的統(tǒng)計指標(biāo)。與傳統(tǒng)的邏輯回歸模型相比,大數(shù)據(jù)算法不需要太多的變量選擇和變量評估工作,能夠在模型的構(gòu)建過程中自動選取重要的變量,并對變量的重要性進行自動評估。
外部時點樣本測試。為了評估模型在外部時點樣本上的表現(xiàn),我們對大數(shù)據(jù)新算法模型在外部時點樣本上進行了測試。其中外部時點樣本選取截至2011年3月31日時間點的紀錄,樣本總?cè)藬?shù)約為1300萬。使用2010年訓(xùn)練樣本所訓(xùn)練的模型在外部時點樣本上進行測試,分析比較其在外部時點樣本上的準確性和穩(wěn)定性。
各模型的性能評價指標(biāo)如圖5與表2所示,其中2010年表示模型在2010年測試樣本上的表現(xiàn),2011年表示模型在2011年測試樣本上的表現(xiàn)。
對比模型在2010年及2011年樣本上的預(yù)測結(jié)果,在準確性方面,決策樹、隨機森林、自適應(yīng)提升(AdaBoost)的感受性曲線下面積(ROC_AUC)有所下降,而梯度提升決策樹(GBDT)的感受性曲線下面積(ROC_AUC)有所提升;決策樹、自適應(yīng)提升(AdaBoost)的區(qū)分度指標(biāo)(KS)有所下降,而邏輯回歸、隨機森林、梯度提升決策樹(GBDT)和支持向量機(SVM)的區(qū)分度指標(biāo)(KS)有所提升。整體來說,準確性方面各模型在2011年測試樣本上的表現(xiàn)與在2010年測試樣本上的表現(xiàn)無明顯差異,表現(xiàn)穩(wěn)定。從群體穩(wěn)定指數(shù)(PSI)來看,自適應(yīng)提升(AdaBoost)和支持向量機(SVM)穩(wěn)定性最好(PSI<0.1),而決策樹與梯度提升決策樹(GBDT)的穩(wěn)定性次之(0.10.25)。
總結(jié):
為了評估大數(shù)據(jù)新算法在個人信用風(fēng)險評估模型中使用效果,中國人民銀行征信中心聯(lián)合北京至信普林科技有限公司,從準確性、穩(wěn)定性和可解釋性三個方面對主流的大數(shù)據(jù)算法的模型構(gòu)建效果進行了綜合評估。項目選取了五種大數(shù)據(jù)新算法,包括決策樹、隨機森林、自適應(yīng)提升(AdaBoost)、梯度提升決策樹(GBDT)和支持向量機(SVM),在千萬級別的大規(guī)模樣本中進行個人風(fēng)險評估模型的構(gòu)建和分析。
在2010年1000萬樣本上的分析結(jié)果表明,自適應(yīng)提升(AdaBoost)、梯度提升決策樹(GBDT)和隨機森林三種集成算法準確性表現(xiàn)最佳,決策樹準確性次之,支持向量機(SVM)的準確性最差。同時,對外部時點樣本的分析結(jié)果表明,自適應(yīng)提升(AdaBoost)和支持向量機(SVM)穩(wěn)定性高,決策樹、梯度提升決策樹(GBDT)穩(wěn)定性中,隨機森林穩(wěn)定性低。在可解釋性方面,大數(shù)據(jù)新算法都能夠?qū)y(tǒng)計指標(biāo)的重要度作出評估,統(tǒng)計指標(biāo)綜合排序靠前的統(tǒng)計指標(biāo)的解釋性較好。綜合來看,部分大數(shù)據(jù)算法(如自適應(yīng)提升)在準確性和穩(wěn)定性上均表現(xiàn)優(yōu)異,可以作為我國新一代信用風(fēng)險評估模型的戰(zhàn)略儲備。
大數(shù)據(jù)算法是模型構(gòu)建的工具,其結(jié)果不是絕對的,如何根據(jù)數(shù)據(jù)特征和算法特性構(gòu)建合適的模型也是非常關(guān)鍵的。在實際模型開發(fā)過程中,需要業(yè)務(wù)專家和數(shù)據(jù)科學(xué)團隊在數(shù)據(jù)邏輯的理解和建模指標(biāo)的選取上緊密合作。此外,數(shù)據(jù)科學(xué)團隊需要對算法的核心原理有著深刻的理解,并且具備快速的算法實現(xiàn)能力,強大的大規(guī)模數(shù)據(jù)處理能力,才能充分利用大數(shù)據(jù)算法開發(fā)出高性能的信用風(fēng)險評估模型。