WOT講師劉黎春:互聯(lián)網(wǎng)征信是新藍(lán)海
原創(chuàng)對科技行業(yè)來說,可能幾年就是一個(gè)分水嶺,因?yàn)榛ヂ?lián)網(wǎng)總是能創(chuàng)造無限可能。過去幾年,云計(jì)算剛剛落地,大數(shù)據(jù)也開始由概念轉(zhuǎn)向應(yīng)用領(lǐng)域。而借助大數(shù)據(jù)支撐的互聯(lián)網(wǎng)征信無疑是最具前景的應(yīng)用領(lǐng)域之一。51CTO專訪【W(wǎng)OT2015"互聯(lián)網(wǎng)+"時(shí)代大數(shù)據(jù)技術(shù)峰會(huì)】特邀講師騰訊數(shù)據(jù)挖掘高級(jí)工程師劉黎春分享社交數(shù)據(jù)在互聯(lián)網(wǎng)征信領(lǐng)域的探索。
劉黎春,騰訊數(shù)據(jù)挖掘高級(jí)工程師,社交網(wǎng)絡(luò)事業(yè)群數(shù)據(jù)挖掘團(tuán)隊(duì)負(fù)責(zé)人,第一代QQ音樂推薦系統(tǒng)架構(gòu)師,騰訊客戶生命周期管理體系搭建者。多年致力于數(shù)據(jù)挖掘技術(shù)與業(yè)務(wù)結(jié)合,在大數(shù)據(jù)分析和挖掘、互聯(lián)網(wǎng)征信等領(lǐng)域有著豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)和項(xiàng)目管理心得。目前專注于互聯(lián)網(wǎng)征信、用戶基礎(chǔ)畫像、推薦系統(tǒng)和文本挖掘。
互聯(lián)網(wǎng)征信是新藍(lán)海
劉黎春認(rèn)為互聯(lián)網(wǎng)征信是一個(gè)新型方向,不同于傳統(tǒng)征信行業(yè),大數(shù)據(jù)征信并沒有形成一套完整的體系,不論在國內(nèi)或國外,其發(fā)展還是處于早期階段,但是整個(gè)行業(yè)進(jìn)展速度很快。他提到,多家大型互聯(lián)網(wǎng)公司已經(jīng)獲得了征信的牌照,一些互聯(lián)網(wǎng)金融機(jī)構(gòu)也正在建立自己的征信體系。在他看來,互聯(lián)網(wǎng)征信相比傳統(tǒng)征信的地位更重要,“在傳統(tǒng)的金融體系里,央行個(gè)人征信系統(tǒng)已收錄8.7億自然人,其中只有3億多有信用記錄、信用評(píng)分,也就是說還有5億多人沒有信用評(píng)分。
社交數(shù)據(jù)與電商數(shù)據(jù)
劉黎春介紹,當(dāng)前騰訊社交數(shù)據(jù)的主要來源包括:QQ、QQ群、QQ音樂、QQ空間等幾塊較大的業(yè)務(wù)。他認(rèn)為社交數(shù)據(jù)相比電商數(shù)據(jù)在征信領(lǐng)域有兩大優(yōu)勢:第一,社交網(wǎng)絡(luò)涉及很多關(guān)系鏈、拓?fù)涞男畔ⅲ梢酝ㄟ^關(guān)系網(wǎng)絡(luò)對某個(gè)用戶信息做擴(kuò)散或者修正,這種情況在一些電商場景下是不太好實(shí)現(xiàn)的。他舉例說:“比如用戶年齡信息,可能用戶填寫的年齡不是其真實(shí)年齡,但我們會(huì)拿到我們能確定真實(shí)用戶作為種子,通過關(guān)系鏈來擴(kuò)散到其他用戶,來對比獲得其真實(shí)年齡,整個(gè)可信度還是比較高的。如果用戶填50歲,但是他朋友圈交往圈都是在25到30之間,那我們會(huì)對其真實(shí)年齡做一個(gè)校正。”
另外一個(gè),他提到,關(guān)系鏈拓?fù)涞臄?shù)據(jù)在風(fēng)控里是難以模擬的數(shù)據(jù),比如惡意用戶想仿造一個(gè)關(guān)系鏈拓?fù)涫潜容^困難的,這樣就可以很好地起到了用戶甄別的功能。
如何解決數(shù)據(jù)時(shí)效性問題?
我們知道,數(shù)據(jù)是有其時(shí)效性的。那么過時(shí)的數(shù)據(jù)是否會(huì)對現(xiàn)有的模型產(chǎn)生干擾呢?劉黎春告訴筆者模型建完后,數(shù)據(jù)一般是半年前的,屆時(shí)會(huì)拿現(xiàn)在的數(shù)據(jù)做一個(gè)前后的對比,看前后是否發(fā)生太大的變化,其中有一個(gè)指標(biāo)來查看每一個(gè)用到的變量、特征,如果模型出現(xiàn)較大變化,一般來說會(huì)把變量去掉。在構(gòu)造變量時(shí),也會(huì)考慮這個(gè)特征將來是否會(huì)發(fā)生較大的變化。
互聯(lián)網(wǎng)征信的難點(diǎn)
談及當(dāng)前互聯(lián)網(wǎng)征信遇到的難點(diǎn),劉黎春認(rèn)為,相比傳統(tǒng)征信行業(yè),互聯(lián)網(wǎng)征信不如傳統(tǒng)金融結(jié)構(gòu)清晰。“比如傳統(tǒng)征信有很多行業(yè)標(biāo)準(zhǔn),用戶哪些數(shù)據(jù)需要保存下來,哪些數(shù)據(jù)需要上傳到系統(tǒng)都是有明確規(guī)定的,但互聯(lián)網(wǎng)相對沒有這么清晰,對于挖掘來說有很多非結(jié)構(gòu)化的圖片或數(shù)據(jù)。”另外,他提到,傳統(tǒng)征信有央行保證,很多銀行都把數(shù)據(jù)報(bào)到央行去,相比之下,各個(gè)互聯(lián)網(wǎng)征信機(jī)構(gòu)還是用自己掌握的數(shù)據(jù)做事情,很難有非常完整的用戶信息。比如騰訊和別的公司在數(shù)據(jù)互通方面就存在難點(diǎn)。
WOT2015更多訪談