王天青:麻袋理財(cái)大數(shù)據(jù)平臺及金融風(fēng)險(xiǎn)控制實(shí)踐案例分析
原創(chuàng)由51CTO舉辦的WOT”互聯(lián)網(wǎng)+”時(shí)代大數(shù)據(jù)技術(shù)峰會上,來自上海市凱岸信息科技有限公司的麻袋理財(cái)***架構(gòu)師王天青做了以《麻袋理財(cái)大數(shù)據(jù)平臺及金融風(fēng)險(xiǎn)控制實(shí)踐案例分析》為主題的演講。本文章是把本次分享干貨亮點(diǎn)的整理成文字形式,呈獻(xiàn)廣大的用戶:
今天很高興也很榮幸,能夠在這里跟大家分享一下。我們公司成立的時(shí)間也不長,我們在大數(shù)據(jù)方向上做了一些實(shí)踐,以及有一些簡單的案例,今天拿出來跟大家做一個(gè)拋磚引玉。
麻袋理財(cái)來自中信集團(tuán),主要是做互聯(lián)網(wǎng)消費(fèi)金融,其實(shí)它連接了兩個(gè)P,一個(gè)P是借款人,另外一個(gè)P是出借人,有錢的人把錢借給缺錢的人,這中間有很大的學(xué)問。當(dāng)然借款人也不一定是一個(gè)個(gè)人,也可能是一個(gè)企業(yè)。麻袋理財(cái)是我們線上理財(cái)?shù)钠脚_,CTCF是我們線下跟這些借款人打交道的公司。
簡單講一下行業(yè)背景。P2P大家已經(jīng)有所了解了,從2013年、2014年蠻荒時(shí)代,到今年已經(jīng)逐步走向正規(guī)的時(shí)候了。現(xiàn)在人民銀行會同銀監(jiān)會、證監(jiān)會、保監(jiān)會等10部委聯(lián)合印發(fā)《關(guān)于促進(jìn)互聯(lián)網(wǎng)金融健康發(fā)展的指導(dǎo)意見》。其中有四條很重要,***條是要鼓勵(lì)創(chuàng)新,第二要防范風(fēng)險(xiǎn),第三條要趨利避害,第四條是健康發(fā)展。
互聯(lián)網(wǎng)金融起步也有一定時(shí)間,防范風(fēng)險(xiǎn)是各個(gè)公司的命根子。比如像銀行他們已經(jīng)有很長的基礎(chǔ),有一定的品牌溢價(jià)。銀行因?yàn)橛姓硶?,但是萬一如果有一個(gè)互聯(lián)網(wǎng)金融的公司出現(xiàn)網(wǎng)站打不開,大家***個(gè)疑問就是是不是跑路了。
我們跟業(yè)務(wù)部門同事的討論,對行業(yè)的風(fēng)險(xiǎn)做了一個(gè)簡單的分類。***是信息安全,這跟傳統(tǒng)的信息安全基本是類似的。第二是運(yùn)營風(fēng)險(xiǎn),第三是欺詐風(fēng)險(xiǎn),第四是信用風(fēng)險(xiǎn)。
從技術(shù)角度來看。***個(gè)是數(shù)據(jù)種類,我們是想獲得很多很多的數(shù)據(jù),但是我們不是銀行,要跟他們合作拿到的數(shù)據(jù)是非常少的。第二我們也是試圖從各個(gè)渠道拿一些數(shù)據(jù),但是這些數(shù)據(jù)之間的關(guān)聯(lián)度是比較小的。再一個(gè)從數(shù)據(jù)的特質(zhì)來講,每一類的數(shù)據(jù)價(jià)值密度比較低,因?yàn)樗⒉皇且粋€(gè)真正意義上的真性數(shù)據(jù)、貼名單數(shù)據(jù),必須要綜合利用。再一個(gè)是類型比較復(fù)雜,比如它有結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)庫的方式,也有半結(jié)構(gòu)化文本的方式。***在數(shù)據(jù)分析上,需要你有些時(shí)候做實(shí)時(shí)分析、實(shí)時(shí)判斷。
講到底我們說的大數(shù)據(jù)理念有三個(gè)V,一個(gè)是量非常大,第二是種類非常多,第三是速度很快,產(chǎn)生的數(shù)據(jù)量很大、很快。在大數(shù)據(jù)的生命周期里,***步我們要獲取更多的數(shù)據(jù),這個(gè)數(shù)據(jù)可能是我們跟第三方合作拿到一部分?jǐn)?shù)據(jù),另一方面數(shù)據(jù)是用戶提供給我們。第二個(gè)我們要把這些數(shù)據(jù)都存儲起來,其實(shí)每一樣的數(shù)據(jù)都會有歷史版本的,包括用戶的基本信息,這些數(shù)據(jù)我們都需要存儲下來。第三個(gè)我們要利用數(shù)據(jù)挖掘算法,對這些數(shù)據(jù)做分析,矩列分析,關(guān)聯(lián)分析等等。第四是優(yōu)化,因?yàn)闄C(jī)器算法分析的結(jié)果并不一定有用,看看哪些東西是我們需要做調(diào)整的。***是產(chǎn)生價(jià)值。
麻袋理財(cái)有線上業(yè)務(wù)和線下業(yè)務(wù),線上業(yè)務(wù)是在云上,線下業(yè)務(wù)是在IDC里面,我們用的這套虛擬化的平臺,當(dāng)然現(xiàn)在也用了docker。核心的數(shù)據(jù)都在我們的IDC里面,云上有一些應(yīng)用訪問的數(shù)據(jù),都會到云上,***同步到我們的IDC里面。
針對實(shí)時(shí)數(shù)據(jù),我們利用了卡夫卡和斯巴克這兩個(gè)工具做這個(gè)工作。首先我們會收集所有的應(yīng)用狀態(tài)、性能。我們會把一些重要的關(guān)鍵數(shù)據(jù),比如用戶登陸的時(shí)間、用戶提現(xiàn)的時(shí)間等做一個(gè)整理到卡夫卡這邊。我們也用ERP做全文檢索,***實(shí)際的數(shù)據(jù)都放在HDMS上。
我們在IDC里面部署了這個(gè)大數(shù)據(jù)的平臺,底下是HBFS,做一些交互性的數(shù)據(jù)。
數(shù)據(jù)分成外部數(shù)據(jù)和內(nèi)部數(shù)據(jù),外部數(shù)據(jù)就是用戶提的賬單數(shù)據(jù),還有一部分社交數(shù)據(jù),還有一些征信數(shù)據(jù),這些數(shù)據(jù)***匯總到HBFS里面。然后我們有內(nèi)部的系統(tǒng),內(nèi)部系統(tǒng)包括信貸系統(tǒng)、賬務(wù)系統(tǒng)、催收系統(tǒng),都會有自己的數(shù)據(jù)庫,這些數(shù)據(jù)定期的可以通過Saoop把數(shù)據(jù)同步到我們的HBFS里面。當(dāng)然我們還會做一些數(shù)據(jù)的清洗和匯總。
***是有兩大應(yīng)用場景,***種是做傳統(tǒng)的DI,另一個(gè)是用Tez做一個(gè)報(bào)表的展現(xiàn)。上面我們做深度分析和挖掘,主要用一個(gè)SAS這個(gè)軟件,另外我們也用R/Python做,Python有一個(gè)數(shù)據(jù)挖掘的庫,我們會直接用它。***得到這個(gè)結(jié)果形成可以被應(yīng)用到業(yè)務(wù)系統(tǒng)的規(guī)則,來驅(qū)動業(yè)務(wù)系統(tǒng)的升級。這個(gè)大概是這么一個(gè)流程。HBFS承載了我們所有的數(shù)據(jù),這個(gè)就是我們現(xiàn)在所說的實(shí)時(shí)分析和P處理、歷史分析,都能支持的一個(gè)平臺。
***所有做的事情是要解決三大哲學(xué)問題,你是誰,你來自什么地方,你要去哪里。
總之,風(fēng)險(xiǎn)控制是互聯(lián)網(wǎng)金融成敗的必要條件,它不是充分條件,是一個(gè)必要條件。在互聯(lián)網(wǎng)的背景下,數(shù)據(jù)呈現(xiàn)了多樣化、海量、需要實(shí)時(shí)處理,一旦損失或者風(fēng)險(xiǎn)發(fā)生,就為時(shí)已晚,你必須要在風(fēng)險(xiǎn)發(fā)生之前做出判斷。因此建立大數(shù)據(jù)平臺是互聯(lián)網(wǎng)金融必須的技術(shù)手段,用傳統(tǒng)的方式達(dá)不到這個(gè)效果。