淺談大數(shù)據(jù)風(fēng)控平臺(tái)的功能需求
本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)倉寶貝庫」,作者鄭江。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)倉寶貝庫公眾號(hào)。
大數(shù)據(jù)風(fēng)控業(yè)務(wù)的開展依賴智能風(fēng)控平臺(tái),智能風(fēng)控平臺(tái)的技術(shù)基礎(chǔ)是大數(shù)據(jù)技術(shù),智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)也是以大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)為基礎(chǔ)演進(jìn)而來的。
智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)主要分為訪問層、展現(xiàn)層、系統(tǒng)層、大數(shù)據(jù)平臺(tái)四部分,其中大數(shù)據(jù)平臺(tái)又分為接入層、清洗層、計(jì)算層、數(shù)據(jù)層四部分。本文主要介紹大數(shù)據(jù)風(fēng)控平臺(tái)。
智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)圖
大數(shù)據(jù)平臺(tái)是智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)的持久層,但又超越了傳統(tǒng)的持久層功能,是以持久層為基礎(chǔ)進(jìn)行了技術(shù)應(yīng)用的豐富。持久層又叫數(shù)據(jù)訪問層,是指把數(shù)據(jù)永久地保存在存儲(chǔ)設(shè)備中,它直接與數(shù)據(jù)庫交互。
大數(shù)據(jù)平臺(tái)的創(chuàng)建不僅服務(wù)于智能風(fēng)控體系,還服務(wù)于業(yè)務(wù)的其他場景,例如業(yè)務(wù)的營銷場景、運(yùn)營場景等??紤]到智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)的數(shù)據(jù)還會(huì)服務(wù)其他業(yè)務(wù)場景,因此在初期搭建規(guī)劃的時(shí)候應(yīng)該考慮數(shù)據(jù)層的通用性、易用性、非耦合性等;并且伴隨互聯(lián)網(wǎng)業(yè)務(wù)的快速增長以及大數(shù)據(jù)技術(shù)的廣泛運(yùn)用,傳統(tǒng)持久層的設(shè)計(jì)也不再局限于數(shù)據(jù)庫以及數(shù)據(jù)的交互,而是以持久層為基礎(chǔ)升級(jí)革新為大數(shù)據(jù)平臺(tái),統(tǒng)籌管理、規(guī)劃數(shù)據(jù)的應(yīng)用。
智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)的大數(shù)據(jù)平臺(tái)劃分為接入層、清洗層、計(jì)算層、數(shù)據(jù)層四部分,這里只著重介紹接入層、清洗層、數(shù)據(jù)層的技術(shù)應(yīng)用。
01接入層
接入層負(fù)責(zé)智能風(fēng)控平臺(tái)的內(nèi)部接入,包括大數(shù)據(jù)平臺(tái)以及系統(tǒng)層的系統(tǒng)產(chǎn)品的數(shù)據(jù)接入,通常接入的數(shù)據(jù)有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類,常用的技術(shù)應(yīng)用有MQ、HTTP、HTTPS、FTP等,具體的技術(shù)介紹如下。
- MQ(Message Queue,消息隊(duì)列)是基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)中“先進(jìn)先出”的數(shù)據(jù)結(jié)構(gòu),一般用來解決應(yīng)用解耦、異步消息、流量削峰等問題,是一種能夠?qū)崿F(xiàn)高性能、高可用、可伸縮和最終一致性的架構(gòu)。
- HTTP(Hyper Text Marked Language,超文本標(biāo)記語言)是一種標(biāo)識(shí)性語言,包括一系列標(biāo)簽,通過這些標(biāo)簽可以將網(wǎng)絡(luò)上的文檔格式統(tǒng)一,使分散的網(wǎng)絡(luò)資源連接為一個(gè)邏輯整體。
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全為目標(biāo)的HTTP通道,在HTTP的基礎(chǔ)上加入SSL層通過傳輸加密和身份認(rèn)證保證了傳輸過程的安全性,被廣泛用于萬維網(wǎng)上安全敏感的通信,例如交易支付等方面。
- FTP(File Transfer Protocol,文件傳輸協(xié)議)是在網(wǎng)絡(luò)上進(jìn)行文件傳輸?shù)囊惶讟?biāo)準(zhǔn)協(xié)議,用于將文件傳輸?shù)街鳈C(jī)或與主機(jī)交換文件。FTP可以使用用戶名和密碼進(jìn)行身份驗(yàn)證,匿名FTP允許用戶從互聯(lián)網(wǎng)訪問文件、程序和其他數(shù)據(jù),而無須用戶ID或密碼。
02清洗層
清洗層是數(shù)據(jù)清洗處理層,負(fù)責(zé)智能風(fēng)控平臺(tái)接入數(shù)據(jù)的清洗處理。清洗處理后的數(shù)據(jù)再被推送到計(jì)算層、系統(tǒng)層和數(shù)據(jù)層。通常大數(shù)據(jù)平臺(tái)清洗層使用的技術(shù)應(yīng)用有Kafka、ETL,具體的技術(shù)介紹如下。
- Kafka是由Apache軟件基金會(huì)開發(fā)的一個(gè)開源流處理平臺(tái),由Scala和Java編寫。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費(fèi)者在網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。但大部分研發(fā)人員都會(huì)把kafka當(dāng)作一個(gè)分布式消息隊(duì)列,利用它的高性能、持久化、多副本備份、橫向擴(kuò)展等能力。生產(chǎn)者向隊(duì)列里寫消息,消費(fèi)者從隊(duì)列里取消息進(jìn)行業(yè)務(wù)邏輯運(yùn)算。
- ETL(Extract-Transform-Load)是用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中。雖然ETL一詞常用在數(shù)據(jù)倉庫,但其對(duì)象并不限于數(shù)據(jù)倉庫。
03數(shù)據(jù)層
數(shù)據(jù)層是數(shù)據(jù)的載體層,大數(shù)據(jù)技術(shù)的基礎(chǔ)是數(shù)據(jù),因此大數(shù)據(jù)平臺(tái)的基礎(chǔ)是數(shù)據(jù)層。大數(shù)據(jù)平臺(tái)的數(shù)據(jù)層為智能風(fēng)控平臺(tái)提供系統(tǒng)產(chǎn)品使用的數(shù)據(jù),而智能風(fēng)控平臺(tái)系統(tǒng)產(chǎn)品產(chǎn)生的數(shù)據(jù)會(huì)回傳到大數(shù)據(jù)平臺(tái)的數(shù)據(jù)層,兩個(gè)平臺(tái)的數(shù)據(jù)相互循環(huán)迭代,數(shù)據(jù)量不斷增加。數(shù)據(jù)層實(shí)際就是數(shù)據(jù)庫,數(shù)據(jù)庫根據(jù)數(shù)據(jù)存儲(chǔ)方式分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫,同時(shí)隨著知識(shí)圖譜技術(shù)的發(fā)展和應(yīng)用,圖數(shù)據(jù)庫也被用到智能風(fēng)控平臺(tái)中。
大數(shù)據(jù)平臺(tái)常用的數(shù)據(jù)庫有MySQL、MongoDB、HBase、Giraph、SSD等,具體的技術(shù)介紹如下。
- MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQL AB公司開發(fā),屬于Oracle旗下產(chǎn)品。MySQL是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,在Web應(yīng)用方面,MySQL是最好的關(guān)系數(shù)據(jù)庫管理系統(tǒng)應(yīng)用軟件之一。
- MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫,由C++語言編寫,旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。
- HBase(Hadoop Database)是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PC設(shè)備上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。
- Giraph是一個(gè)迭代的圖計(jì)算系統(tǒng),是基于Hadoop建立的上層應(yīng)用。
- SSD(Solid State Disk或Solid State Drive,固態(tài)驅(qū)動(dòng)器),俗稱固態(tài)硬盤,用于數(shù)據(jù)庫等文件的存儲(chǔ)。
智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)中用戶通過訪問層觸發(fā)訪問請(qǐng)求命令,由展現(xiàn)層承載訪問請(qǐng)求命令并且傳輸請(qǐng)求命令到系統(tǒng)層,再由系統(tǒng)層根據(jù)請(qǐng)求命令獲取大數(shù)據(jù)平臺(tái)的數(shù)據(jù),然后將數(shù)據(jù)傳輸?shù)接?jì)算層進(jìn)行分析計(jì)算,計(jì)算結(jié)果返回到系統(tǒng)層進(jìn)行功能邏輯處理,最后輸出系統(tǒng)層的服務(wù)結(jié)果到展現(xiàn)層或者以接口的形式提供給外部系統(tǒng)。整個(gè)智能風(fēng)控平臺(tái)通過智能風(fēng)控系統(tǒng)技術(shù)高效、穩(wěn)定運(yùn)轉(zhuǎn),數(shù)據(jù)在智能風(fēng)控平臺(tái)中循環(huán)流轉(zhuǎn)、迭代。
智能風(fēng)控的核心技術(shù)是大數(shù)據(jù)風(fēng)控技術(shù),智能風(fēng)控系統(tǒng)技術(shù)架構(gòu)的設(shè)計(jì)應(yīng)該以大數(shù)據(jù)平臺(tái)為基礎(chǔ),充分融入大數(shù)據(jù)系統(tǒng)技術(shù)架構(gòu)。
本書摘編自《智能風(fēng)控平臺(tái):架構(gòu)、設(shè)計(jì)與實(shí)現(xiàn)》,經(jīng)出版方授權(quán)發(fā)布。