宜信鄭赟:大數(shù)據(jù)金融云的實(shí)踐分享
原創(chuàng)宜信積累了九年的數(shù)據(jù),有來自合作伙伴的,有用戶授權(quán)的,還有一些互聯(lián)網(wǎng)公開抓取的數(shù)據(jù)。所以希望用大數(shù)據(jù)技術(shù)來挖掘其中的數(shù)據(jù)潛力,尤其是互聯(lián)網(wǎng)金融的價值,為客戶提供更好的服務(wù)。
鄭赟,宜信技術(shù)總監(jiān),負(fù)責(zé)若干大數(shù)據(jù)驅(qū)動的互聯(lián)網(wǎng)金融創(chuàng)新產(chǎn)品的研發(fā)工作。加入宜信之前,在美國在線視頻公司Hulu任研發(fā)經(jīng)理,負(fù)責(zé)視頻播放和網(wǎng)站主站的技術(shù)研發(fā)。并曾在Microsoft從事研發(fā)工作。鄭赟畢業(yè)于清華大學(xué)自動化系,獲碩士學(xué)位。
LAIN平臺
鄭赟表示,做云平臺也好,做系統(tǒng)也好,臺子要穩(wěn)固,要有砥柱。這個砥柱一個是大數(shù)據(jù)基礎(chǔ)設(shè)施,第二個是基于Docker的LAIN平臺。不同業(yè)務(wù)之間的數(shù)據(jù)建模是不一樣的。但是比如說像開發(fā)環(huán)境,像測試,包括自動化測試、常規(guī)的測試,包括發(fā)布,包括技術(shù)服務(wù),比如說像日志收集、監(jiān)控,包括像分布式架構(gòu),像操作系統(tǒng)、網(wǎng)絡(luò)、安全等等,這些其實(shí)都是通用的,所以我們把這些湊成一個平臺,就是我們的云平臺,就是我們常說的Pass系統(tǒng)。
Docker這兩年以來,特別是今年年初特別火的一項技術(shù),首先它是一個開源容器引擎,第二它其實(shí)為了進(jìn)一步解決虛擬化的問題那么有了這個Docker之后,我們可以把每一個模塊都做到Docker里面去,Docker之間是互相獨(dú)立的。然后通過這種微服務(wù)的方式,把他們串聯(lián)起來,這樣的話就非常靈活。它的性能也非常好,額外開銷幾乎是零。
最中心的是Docker,它外面有三個主要的技術(shù),就是所謂的三架馬車,首先是Docker Swarm,Docker Swarm是Docker官方提供的一個Docker容器管理調(diào)度的工具,因為它是官方提供的,所以它有先天集成的優(yōu)勢。然后是ETCD,ETCD是一個非常著名的,輕量級的分布一致性存儲,我們主要用它來做一些配置存儲,像服務(wù)的注冊和服務(wù)發(fā)現(xiàn)。crlico是某個通信公司開源的一套網(wǎng)絡(luò)的技術(shù),它本身是一個三層的SDN可以替代Docker之前傳統(tǒng)的那種通過界定式的方式或者端口移植的方式。
知識圖譜
什么是知識圖譜?相對于傳統(tǒng)的文檔或者是結(jié)構(gòu)化數(shù)據(jù)來說,它有一個特點(diǎn),它有實(shí)體。最早是google提出來的,用來做搜索優(yōu)化的,我們用它主要做風(fēng)控相關(guān)的數(shù)據(jù)建模。還有就是個性化問答,可以根據(jù)客戶的信息,甚至個性化的問題用這個來做反欺詐。
首先在web端,我們會通過我們分布式查詢?nèi)ヅ懦@些公開的數(shù)據(jù)以及用戶授權(quán)的一些數(shù)據(jù),然后把它分到HDFS里面去。然后又把我們業(yè)務(wù)數(shù)據(jù)通過Sqoop達(dá)到我們的HBase里去,所以我們進(jìn)行抽取,***結(jié)構(gòu)化形成這樣一個知識圖譜,然后這個知識圖譜里面,我們常用的查詢字段扔到ElasticSearch里面,然后提供給所有的前臺進(jìn)行使用,同時知識圖譜也可以做規(guī)則引擎和機(jī)器學(xué)習(xí)的數(shù)據(jù)源。
如何解決實(shí)時授信中的反欺詐問題
實(shí)時授信首先得解決反欺詐的問題。所以我們反欺詐會從三個方面去做。一個是他的身份,首先我們要確定你媽就是你媽,你就是你,所以會從他的平臺賬號是不是真實(shí)的,他的個人身份信息是否是真實(shí)的,然后通過一些個性化問答來確認(rèn)他信息的真實(shí)性。第二點(diǎn)我們就通過他的行為數(shù)據(jù)來看,比如說它的經(jīng)營活動是不是有一些造假痕跡,這個人在互聯(lián)網(wǎng)上是不是進(jìn)過一些中介論壇,他有沒有參與這種活動。第三個方面就是他的關(guān)系層級,比如說這個圖上的黑圈是那個黑名單,紅圈是有過逾期的客戶。然后通過各種各樣的數(shù)據(jù),***綜合的信用了評分,然后通過評分決定審批和風(fēng)險評價。
數(shù)據(jù)驅(qū)動的方法論
數(shù)據(jù)驅(qū)動從方法論上來說,首先要有海量數(shù)據(jù),第二我得把數(shù)據(jù)進(jìn)行歸類,然后再對數(shù)據(jù)進(jìn)行分析,***用數(shù)據(jù)來驅(qū)動我們這個產(chǎn)品決策。
對數(shù)據(jù)進(jìn)行大分類之后,然后對數(shù)據(jù)進(jìn)行進(jìn)一步的分析。一個是基于已有的數(shù)據(jù)解釋現(xiàn)象,就是我們知道為什么會是這樣子的。第二更重要的是我們更希望通過這個,能用數(shù)據(jù)來指導(dǎo)優(yōu)化未來,這也是大家很多公司都想追求的目標(biāo)。
總結(jié)整個演講:首先我們整個金融云需要一個底層的支柱,就是我剛才所說的大數(shù)據(jù)的基礎(chǔ)設(shè)施和剛才說云平臺,在它之上,我們通過像姨搜這樣的應(yīng)用快速搭建一些比較核心的模塊,比如說像反欺詐,像實(shí)時授信,***我們通過兩個端的產(chǎn)品,商貸和理財?shù)漠a(chǎn)品自己用這樣的平臺不斷地去優(yōu)化整個產(chǎn)品,以及優(yōu)化下面核心模塊,然后使得整個平臺形成一套完整的框架。在這個框架之上,我們希望給我們的用戶提供更好的服務(wù)。也正在跟合作伙伴進(jìn)行數(shù)據(jù)對接,提供一些服務(wù)化的場景。