自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

恒昌:數(shù)億實體和數(shù)十億關(guān)系的圖數(shù)據(jù)庫在風(fēng)控上應(yīng)用

企業(yè)動態(tài)

 近日,知名快遞公司順豐和電商巨頭阿里巴巴爭端甚囂塵上,這次爭端意味著“數(shù)據(jù)”已然成為商業(yè)必爭的“資產(chǎn)”。因此,伴隨大數(shù)據(jù)時代來臨,數(shù)據(jù)獲取、存儲、分析等一系列技術(shù)的研發(fā)和應(yīng)用已經(jīng)得到了眾多企業(yè)的關(guān)注。

作為大數(shù)據(jù)開發(fā)利用的重要組成部分,就數(shù)據(jù)存儲而言,圖數(shù)據(jù)庫是利用圖的特性來對數(shù)據(jù)進行存儲管理,并對傳統(tǒng)圖的概念進行了擴展。越來越成熟的數(shù)據(jù)模型,使得利用事物(即“節(jié)點”或“實體”)及事物之間的聯(lián)系(即“邊”或“關(guān)系”)來對各類業(yè)務(wù)場景進行抽象變得更加容易。也正因為圖數(shù)據(jù)庫基于圖論的理論和算法實現(xiàn),相對于關(guān)系型數(shù)據(jù)庫,它也更擅于處理網(wǎng)狀的復(fù)雜關(guān)系。此外,圖數(shù)據(jù)庫通常都支持對圖數(shù)據(jù)模型的增、刪、改、查(CRUD)方法,并較多地用于事務(wù)(OLTP)系統(tǒng)中,被應(yīng)用系統(tǒng)實時訪問。

圖數(shù)據(jù)庫作為恒昌知識圖譜的底層存儲方案,是多方數(shù)據(jù)的知識融合及提煉后進行匯聚的場所,為恒昌豐富的服務(wù)線與數(shù)據(jù)技術(shù)間的承轉(zhuǎn)起著重要作用。由于Neo4j 是目前最成熟的圖數(shù)據(jù)庫之一,恒昌廣泛使用 Neo4j 作為知識圖譜底層圖數(shù)據(jù)持久方案,基于其優(yōu)異的事務(wù)能力而提供實時的數(shù)據(jù)查詢功能。此外,恒昌還在 Titan、Gaffer 等分布式圖數(shù)據(jù)庫或計算引擎上有著深入的研究。

目前,恒昌的圖數(shù)據(jù)庫已經(jīng)融合了多方數(shù)據(jù),包括業(yè)務(wù)系統(tǒng)主要服務(wù)線各階段的數(shù)據(jù)、用戶授權(quán)數(shù)據(jù)等。這些數(shù)據(jù)形成的實體規(guī)模已過億、形成的關(guān)系已多達數(shù)十億。隨著用戶數(shù)量的提升,這個數(shù)據(jù)還在持續(xù)增長。因此,基于圖數(shù)據(jù)庫開發(fā)的知識圖譜正在發(fā)揮著越來越大的作用,目前已經(jīng)上線或待上線的技術(shù)平臺覆蓋了客戶失聯(lián)修復(fù)、反欺詐規(guī)則引擎、欺詐團伙調(diào)查等,近期還會覆蓋風(fēng)險預(yù)警等方向。

1.欺詐團伙調(diào)查

圖數(shù)據(jù)庫能通過“實體”和“關(guān)系”這種簡單直觀的描述方法來表述現(xiàn)實世界中錯綜復(fù)雜的關(guān)聯(lián)關(guān)系。它可以提供逐層挖掘的方式,引導(dǎo)逐步深入分析各種關(guān)系;還可以快速呈現(xiàn)實體之間最新的關(guān)系變化,積累更新的知識和經(jīng)驗;也可以清晰地呈現(xiàn)復(fù)雜關(guān)系間的聯(lián)絡(luò)線索,為判斷事件來龍去脈提供有效引導(dǎo)。此處,以恒昌的客戶為例,參考圖1中的客戶徐某(因數(shù)據(jù)安全的原因,部分信息作了涂抹,并對原有圖結(jié)構(gòu)進行了簡化),如果僅考慮該客戶自己填寫的信息,雖然能看到一度關(guān)聯(lián)信息,但完全看不出該結(jié)構(gòu)會有什么問題,也無法進行深入調(diào)查。

圖1客戶徐某借款時的聯(lián)系人信息簡化圖

當(dāng)關(guān)聯(lián)信息得到補充(相對于原進件聯(lián)系人,補充了同事、鄰居、親屬、朋友等關(guān)系,還基于用戶授權(quán)數(shù)據(jù)進行了深度擴展)后,暫不考慮物品(如手機號、銀行賬號、地址等),僅考慮自然人,獲取徐某二度關(guān)系內(nèi)同時在恒昌網(wǎng)貸平臺有借款行為的用戶,得到圖2(基于同樣原因數(shù)據(jù)有涂抹及簡化)的結(jié)果。該圖每一個圓都代表一位恒昌客戶,圖頂部的狀態(tài)說明了客戶當(dāng)前所處狀態(tài)。觀察左下角以徐某為中心的四個客戶(已用紅框標(biāo)出),他們剛好是所呈現(xiàn)圖的最大完全子圖,符合圖論中團的定義。再看除徐某外的三個客戶:兩個逾期、一個被拒。如果徐某是新入圖數(shù)據(jù)庫的借款人,從數(shù)學(xué)模型的角度看,幾乎可以直接判定拒絕。因為符合這種狀態(tài)的團,是欺詐團伙或是組團代辦的幾率非常大。

圖2客戶徐某補充關(guān)系類型后的一度及二度關(guān)聯(lián)信息

到這時工作并未完結(jié),如果有需要,可以基于圖中的關(guān)系嘗試與幾位客戶聯(lián)系以進行深入背景調(diào)查證實,調(diào)查的結(jié)論可以融合到圖數(shù)據(jù)庫中形成數(shù)據(jù)閉環(huán),直接改善后續(xù)自動化預(yù)警的結(jié)果。

2.風(fēng)險事件預(yù)警

盡管對欺詐團伙調(diào)查能取得不錯效果,但因其可能需要調(diào)查員隨時聯(lián)系客戶或聯(lián)系周邊人群以驗證調(diào)查員的推論,因此整體成本還是相當(dāng)高的。為了解決這個問題,基于模型的風(fēng)險事件預(yù)警就應(yīng)運而生。如果說欺詐團伙調(diào)查是主動出擊,風(fēng)險事件預(yù)警更像是被動防御。

風(fēng)險事件預(yù)警是通過模型生成一組類似上述欺詐團伙調(diào)查中出現(xiàn)的場景,給每一個場景一個相對低一些的初始置信度,后期通過不斷的反饋迭代來優(yōu)化置信度。當(dāng)一個新客戶到來之后,首先會將其信息整合到知識圖譜中。緊接著,該客戶會被規(guī)則引擎捕捉到,規(guī)則引擎會基于客戶信息從知識圖譜中提取一組特征,由該特征決定了引擎首先會觸發(fā)哪些場景,而這些場景的結(jié)論可能導(dǎo)致規(guī)則引擎又觸發(fā)另外一組場景。在滿足特定條件下,最終結(jié)果輸出,如果有相應(yīng)的風(fēng)險事件被觸發(fā),則信息會送達相關(guān)團隊。

風(fēng)險事件預(yù)警最有意思的地方在于,一個新客戶的到來,可能會導(dǎo)致一個早先客戶的風(fēng)險事件被觸發(fā)。這主要是因為新客戶融入到知識圖譜中時帶進的新數(shù)據(jù),可能會讓圖譜中的某些子網(wǎng)的結(jié)構(gòu)發(fā)生徹底的改變。目前恒昌采用一組啟發(fā)式的算法來擴展新進客戶的影響,效果顯著。這也意味著,風(fēng)險事件預(yù)警并非只針對貸前風(fēng)險事件,還會將貸后風(fēng)險事件作為預(yù)警。比如觸發(fā)了某個老客戶的潛在逾期風(fēng)險時,就可以引導(dǎo)相關(guān)團隊提前關(guān)注,在情況惡化前及時止損。

3.失聯(lián)修復(fù)

如果客戶奔著欺詐而來,那幾乎也注定了后續(xù)無法聯(lián)系上,稱此類失聯(lián)為“第一類失聯(lián)”。“失聯(lián)”是無法完全避免的,主要是因為失聯(lián)的成本很低。即使客戶自身“消失”的意愿不高,但換手機號、搬家、換公司都可能導(dǎo)致客戶及其聯(lián)系人完全聯(lián)系不上,稱此類為“第二類失聯(lián)”。

將圖數(shù)據(jù)庫應(yīng)用于失聯(lián)修復(fù)是非常直觀的,因為圖數(shù)據(jù)庫在數(shù)據(jù)豐富的條件下能非常方便地進行各類關(guān)系的提取。恒昌的失聯(lián)修復(fù)項目結(jié)合了知識圖譜(基于圖數(shù)據(jù)庫)及傳統(tǒng)的機器學(xué)習(xí)技術(shù),前者作為修復(fù)策略的具體聯(lián)系方式來源,后者作為策略有效性的評估依據(jù)。目前,恒昌能做到失聯(lián)客戶實時修復(fù),修復(fù)專員完成具體操作后會有相應(yīng)的備注及日志信息,這些數(shù)據(jù)會被實時收集用于改進修復(fù)策略。

本文僅拿眾多策略中較為容易理解的一條來略作說明,這條策略主要是從圖數(shù)據(jù)庫中提取和失聯(lián)客戶處于同一公司,且當(dāng)前住址與失聯(lián)客戶接近的用戶作為修復(fù)中間人。雖然是一條簡單的策略,但深入思考會發(fā)現(xiàn),國內(nèi)有很多規(guī)模不小的工廠會吸引周邊村子的人去工作,而這些村子可能本身規(guī)模也不小,這樣修復(fù)中間人不見得認(rèn)識失聯(lián)人。因此這條簡單的策略背后也需要有一個啟發(fā)式算法,通過公司/工廠的規(guī)模來調(diào)整當(dāng)前住址需要匹配的粒度(比如,是到村、到組、還是得具體到門牌相鄰)。更進一步,如果在此基礎(chǔ)之上,修復(fù)中間人和失聯(lián)人有過通話記錄往來或是有通訊錄關(guān)聯(lián)(事實的條件遠比這個復(fù)雜),就大幅增加了該修復(fù)中間人的置信度,甚至可以基于此條件在圖數(shù)據(jù)庫查詢過程中提前中止,直接返回相關(guān)結(jié)論。以上操作基于圖數(shù)據(jù)庫可以將數(shù)據(jù)一次取出再進行處理,基本是毫秒級響應(yīng),如果觸發(fā)了提前中止,耗時可能更短。但如果基于關(guān)系型數(shù)據(jù)庫,首先會涉及多張業(yè)務(wù)表的檢索、關(guān)聯(lián),其次還可能按照初次處理結(jié)果多次連接數(shù)據(jù)庫,造成數(shù)據(jù)庫資源的浪費。

實際中,恒昌通常會混合使用多種數(shù)據(jù)庫,以利用它們各自的特點來創(chuàng)建一個數(shù)據(jù)生態(tài)系統(tǒng)。除了圖數(shù)據(jù)庫外,大規(guī)模的用戶授權(quán)數(shù)據(jù)會讓恒昌在底層配上分布式的列式存儲或鍵值存儲庫。但回歸根本,恒昌期望為客戶提供高效、安全的財富管理及借款信息咨詢與服務(wù),就需要優(yōu)秀的風(fēng)險控制作為保障。而這,恰恰也是圖數(shù)據(jù)庫能最大程度發(fā)揮價值的領(lǐng)域之一。

 

責(zé)任編輯:潤月 來源: 中國網(wǎng)
相關(guān)推薦

2024-06-06 16:50:15

2019-05-07 16:30:18

TigerGraph數(shù)據(jù)庫金融風(fēng)控

2022-07-13 16:42:35

黑產(chǎn)反作弊風(fēng)險

2024-01-18 17:39:00

數(shù)據(jù)庫存儲索引

2017-02-24 19:45:58

2023-05-29 08:04:08

2023-05-31 07:22:45

2023-09-15 07:28:02

2023-10-16 13:26:00

RDBMS關(guān)系數(shù)據(jù)庫

2024-04-22 13:49:03

2022-06-14 16:38:42

行為序列機器學(xué)習(xí)黑產(chǎn)

2020-11-04 09:41:07

大數(shù)據(jù)信貸技術(shù)

2022-11-23 14:08:49

2023-10-26 06:55:17

風(fēng)控系統(tǒng)應(yīng)用

2021-09-22 15:15:45

谷歌隱私網(wǎng)絡(luò)安全

2013-01-22 17:33:30

2015-09-18 23:03:54

2012-05-23 09:32:01

2022-08-12 15:02:31

應(yīng)用探索

2023-08-01 14:35:00

關(guān)系數(shù)據(jù)庫排列
點贊
收藏

51CTO技術(shù)棧公眾號