大數(shù)據(jù)與行為預(yù)測(cè)模型—?jiǎng)⒅拒?/h1> 原創(chuàng)
今天要跟大家講講大數(shù)據(jù)與行動(dòng)預(yù)測(cè)模型。為什么要講這個(gè)呢?馬上消費(fèi)金融公司是一家持牌的消費(fèi)金融公司,也就是說(shuō)有國(guó)家銀監(jiān)會(huì)發(fā)了營(yíng)業(yè)執(zhí)照的。我們首先是一家創(chuàng)業(yè)公司,因?yàn)槭呛苄〉膱F(tuán)隊(duì)從零開(kāi)始創(chuàng)建,同時(shí)是一家互聯(lián)網(wǎng)公司,因?yàn)槲覀円獜氖碌氖蔷€(xiàn)上的業(yè)務(wù)。同時(shí)我們是一個(gè)大數(shù)據(jù)的公司,這也是我今天要跟大家簡(jiǎn)短介紹的東西。
劉志軍博士 ,馬上金融副總經(jīng)理,原美國(guó)前五大銀行Capital One統(tǒng)計(jì)分析部資深總監(jiān),曾擔(dān)任美國(guó)知名征信機(jī)構(gòu)Equifax***統(tǒng)計(jì)學(xué)家和美國(guó)密西西比大學(xué)副教授。劉志軍擁有美國(guó)賓夕法尼亞州立大學(xué)的博士學(xué)位和中國(guó)科學(xué)技術(shù)大學(xué)的學(xué)士學(xué)位。
我們的消費(fèi)金融做的業(yè)務(wù)跟別的消費(fèi)金融和互聯(lián)網(wǎng)公司本質(zhì)上沒(méi)有什么不一樣,但手段上可能有差異。我們的業(yè)務(wù)是以數(shù)據(jù)為依托的,有來(lái)自央行征信局的征信數(shù)據(jù),有社保數(shù)據(jù)和公安部數(shù)據(jù),加上互聯(lián)網(wǎng)上的數(shù)據(jù)。這些大量多元、高維的、動(dòng)態(tài)的數(shù)據(jù),會(huì)支撐整個(gè)業(yè)務(wù),包括從產(chǎn)品設(shè)計(jì)到市場(chǎng)營(yíng)銷(xiāo),到風(fēng)控策略,客戶(hù)管理,到***的催收,都是通過(guò)數(shù)據(jù)給我們提供決策的依據(jù)。
再說(shuō)業(yè)務(wù)性質(zhì)。消費(fèi)金融有幾個(gè)特征,***個(gè)它是小額,個(gè)人消費(fèi)金融不可能是特別大的額度,界定20萬(wàn)為上限。第二是分散,咱們不像銀行做一個(gè)大生意,一大單好多億借出去,所以它比較集中,咱們分散,是面對(duì)全國(guó)的老百姓。第三是大量,咱們有14億人,除了未成年的以外,別的都是可能的客戶(hù)。第四是短期,咱們做決策的預(yù)測(cè)不需要預(yù)測(cè)10年、20年,就是一年兩年,甚至是幾個(gè)月。
這其中會(huì)有三類(lèi)問(wèn)題,一個(gè)是聚類(lèi),把客戶(hù)分成一類(lèi)。還有一個(gè)是模式的識(shí)別,事先設(shè)了目標(biāo)。還有一個(gè)是預(yù)測(cè),根據(jù)你得到的數(shù)據(jù)來(lái)預(yù)測(cè)一個(gè)特定客戶(hù)的行為。這三類(lèi)問(wèn)題歸根結(jié)底還是預(yù)測(cè)問(wèn)題。
預(yù)測(cè)歸結(jié)到數(shù)據(jù)或者統(tǒng)計(jì)上來(lái)說(shuō),是一個(gè)非常簡(jiǎn)單的問(wèn)題,問(wèn)題的提法非常簡(jiǎn)單,解法可不那么簡(jiǎn)單。很多實(shí)際問(wèn)題***個(gè)把它分為二元回歸模式。對(duì)我們來(lái)說(shuō),比如風(fēng)險(xiǎn)可以設(shè)為0和1,就是有和無(wú),具體來(lái)說(shuō)就是我放一筆貸款能收回來(lái)和收不回來(lái),就是兩種可能。
這樣目標(biāo)變量就叫Y,就是0和1。用什么來(lái)做預(yù)測(cè),就看你能收集到什么數(shù)據(jù),這些數(shù)據(jù)跟它有多少相關(guān)性。這個(gè)取決于兩個(gè)條件,一個(gè)你有沒(méi)有數(shù)據(jù),一個(gè)你數(shù)據(jù)的質(zhì)量怎么樣,跟你所對(duì)應(yīng)的要解決的問(wèn)題相關(guān)程度怎么樣。現(xiàn)在大家都說(shuō)做大數(shù)據(jù),大家手里有數(shù)據(jù),覺(jué)得非常有價(jià)值,確實(shí)是非常有價(jià)值。但是它跟各類(lèi)問(wèn)題的相關(guān)性到底有多強(qiáng),是有待驗(yàn)證的,越強(qiáng)價(jià)越大,做出來(lái)的預(yù)測(cè)值是什么,就是一個(gè)概率。
具體怎么設(shè)定這個(gè)問(wèn)題,有一個(gè)表現(xiàn)的窗口。我們能夠預(yù)測(cè)的觀(guān)察值就是在窗口的開(kāi)始。比如說(shuō)我們做風(fēng)險(xiǎn)的預(yù)測(cè),就是在客戶(hù)申請(qǐng)貸款的那個(gè)時(shí)候的數(shù)據(jù),作為預(yù)測(cè)放款以后他會(huì)什么樣的表現(xiàn)。我們要觀(guān)察給他多長(zhǎng)時(shí)間合適,取決你金融的產(chǎn)品,取決你具體的業(yè)務(wù)。比如你就是一個(gè)三個(gè)月三期的分期的產(chǎn)品,用不著跑12個(gè)月。
更一般的情況是,我們有一般回歸的模型,對(duì)我們消費(fèi)金融來(lái)講,比如說(shuō)消費(fèi)的金額,這個(gè)我們可以做預(yù)測(cè),特別是對(duì)信用卡來(lái)說(shuō),信用卡可以貸多少,都跟盈利很有關(guān)系。我們有一批真實(shí)的數(shù)據(jù),真實(shí)的收入,用我們相關(guān)的變量來(lái)預(yù)測(cè),估計(jì)這個(gè)收入,這個(gè)可以做模型。也就是說(shuō)用一種數(shù)據(jù)來(lái)預(yù)測(cè)另一種數(shù)據(jù)。
在這種情況下又變成一個(gè)回歸模型,既然都是回歸模型,那就抽象成非常簡(jiǎn)單的回歸的模型,這個(gè)模型就是一個(gè)條件期望,就是Y比X,X是所謂你的L預(yù)測(cè)的數(shù)據(jù)、變量,一個(gè)條件期望。預(yù)測(cè),這也就是說(shuō)在大數(shù)據(jù)設(shè)定下,我們只管相關(guān)性,而不管因果性。
建模的方法,時(shí)間關(guān)系不會(huì)講細(xì),我列一些方法,這些方法大家也都經(jīng)常聽(tīng)說(shuō)過(guò)。從這邊比較傳統(tǒng)直觀(guān)的方法是參數(shù)的方法,參數(shù)方法說(shuō)白了就是把你的預(yù)測(cè)變量分成小塊,在塊上看你要預(yù)測(cè)的變量觀(guān)察值的平均就完了,就那么簡(jiǎn)單。
具體的問(wèn)題還得具體分析。真正你要了解你要解決的問(wèn)題是什么樣的,你才能把模型建好了。以我的經(jīng)驗(yàn),***你發(fā)現(xiàn)你找到的***的方法是hybrid,所謂的hybrid就是綜合很多種不同的辦法,來(lái)做出的一個(gè)模型。
建模很重要,但是怎么用模型其實(shí)更重要。一個(gè)比較好的模型用的***,比一個(gè)***的模型一般用法要好。沒(méi)有特定的分界值,而是對(duì)不同風(fēng)險(xiǎn)的客戶(hù)群,我們有不同風(fēng)險(xiǎn)的政策。所以要復(fù)雜地應(yīng)用這個(gè)模型,在別的維度上要想明白怎么優(yōu)化,這樣模型的用法就會(huì)比簡(jiǎn)單的切割要好得多。
***我準(zhǔn)確講一講建模中常有的問(wèn)題,這確實(shí)是針對(duì)目前國(guó)內(nèi)情況的問(wèn)題。在美國(guó)有問(wèn)題,但不是這類(lèi)的問(wèn)題,一個(gè)是數(shù)據(jù)覆蓋率的問(wèn)題。我知道很多機(jī)構(gòu),很多大公司,都有數(shù)據(jù),都很寶貴,很難讓他們拿出來(lái)共享。這就造成了覆蓋率有問(wèn)題,每一塊的數(shù)據(jù)覆蓋一部分,另一塊的數(shù)據(jù)又覆蓋另外一部分,這是一個(gè)問(wèn)題。第二個(gè)是質(zhì)量標(biāo)準(zhǔn)不一樣,可能是同樣來(lái)源的數(shù)據(jù),但處理完了之后造成標(biāo)準(zhǔn)不一樣,質(zhì)量不一。這就造成大量的缺失值,造成很多樣本的偏差。這個(gè)問(wèn)題怎么解決,確實(shí)是我們面臨的很大的問(wèn)題,這也是我覺(jué)得應(yīng)該用大數(shù)據(jù)方法來(lái)解決的。
總結(jié)一下,消費(fèi)金融的特性特別適合于大數(shù)據(jù)作為行為的預(yù)測(cè)。方法有非常多種,取決于你對(duì)這個(gè)業(yè)務(wù)的理解,對(duì)方法的理解。根據(jù)你實(shí)際的情況,能夠選擇最適合的辦法。通常不會(huì)是一種辦法,而是你自己創(chuàng)造出了辦法,結(jié)合好幾種辦法的東西造一個(gè)hybrid的東西。造完模型并不是就完成了,最重要的一塊是你的模型要有充分的驗(yàn)證。因?yàn)檫@里面很重要的一點(diǎn)是講相關(guān)性,相關(guān)性不是因果關(guān)系的話(huà),很可能這個(gè)模型失敗了你都不知道怎么回事,哪一天模型一點(diǎn)用都沒(méi)有,你都不知道怎么發(fā)生的。因?yàn)樗皇且蚬P(guān)系的問(wèn)題,是個(gè)相關(guān)性的問(wèn)題,相關(guān)性在特定條件下產(chǎn)生的。這個(gè)特定條件一旦沒(méi)有的話(huà),這個(gè)相關(guān)性就不存在。所以驗(yàn)證和穩(wěn)定性非常重要。還有一點(diǎn),建模很重要,但是應(yīng)用更重要。***我希望咱們的數(shù)據(jù)共享能夠更快、更廣的推廣,也希望大家共同努力,能夠把我們目前所遇到的問(wèn)題解決了。