什么是流式大數(shù)據(jù),處理技術(shù)、平臺(tái)及應(yīng)用
大數(shù)據(jù)技術(shù)的廣泛應(yīng)用使其成為引領(lǐng)眾多行業(yè)技術(shù)進(jìn)步、促進(jìn)效益增長(zhǎng)的關(guān)鍵支撐技術(shù)。根據(jù)數(shù)據(jù)處理的時(shí)效性,大數(shù)據(jù)處理系統(tǒng)可分為批式(batch)大數(shù)據(jù)和流式(streaming)大數(shù)據(jù)兩類(lèi)。其中,批式大數(shù)據(jù)又被稱(chēng)為歷史大數(shù)據(jù),流式大數(shù)據(jù)又被稱(chēng)為實(shí)時(shí)大數(shù)據(jù)。
舉個(gè)例子來(lái)說(shuō):我們把數(shù)據(jù)當(dāng)成水庫(kù)的話(huà),水庫(kù)里面存在的水就是批式大數(shù)據(jù),進(jìn)來(lái)的水是流式大數(shù)據(jù)
目前主流的大數(shù)據(jù)處理技術(shù)體系主要包括hadoop[1]及其衍生系統(tǒng)。Hadoop技術(shù)體系實(shí)現(xiàn)并優(yōu)化了MapReduce[2]框架。Hadoop技術(shù)體系主要由谷歌、推特、臉書(shū)等公司支持。自2006年首次發(fā)布以來(lái), Hadoop技術(shù)體系已經(jīng)從傳統(tǒng)的“三駕馬車(chē)”(HDFS[1]、MapReduce和HBase[3])發(fā)展成為包括60多個(gè)相關(guān)組件的龐大生態(tài)系統(tǒng)。在這一生態(tài)系統(tǒng)中,發(fā)展出了Tez、Spark Streaming[4]等用于處理流式數(shù)據(jù)的組件。其中,Spark Streaming是構(gòu)建在Spark基礎(chǔ)之上的流式大數(shù)據(jù)處理框架。與Tez相比,其具有吞吐量高、容錯(cuò)能力強(qiáng)等特點(diǎn),同時(shí)支持多種數(shù)據(jù)輸入源和輸出格式。除了Spark開(kāi)源流處理框架,目前應(yīng)用較為廣泛的流式大數(shù)據(jù)處理系統(tǒng)還有Storm[5]、Flink[6]等。這些開(kāi)源的流處理框架已經(jīng)被應(yīng)用于部分時(shí)效性要求較高的領(lǐng)域,然而在面對(duì)各行各業(yè)實(shí)際而又差異化的需求時(shí),這些開(kāi)源技術(shù)存在著各自的瓶頸。
在互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用場(chǎng)景中,個(gè)性化服務(wù)、用戶(hù)體驗(yàn)提升、智能分析、事中決策等復(fù)雜的業(yè)務(wù)需求對(duì)大數(shù)據(jù)處理技術(shù)提出了更高的要求。為了滿(mǎn)足這些需求,大數(shù)據(jù)處理系統(tǒng)必須在毫秒級(jí)甚至微秒級(jí)的時(shí)間內(nèi)返回處理結(jié)果。以國(guó)內(nèi)最大的銀行卡收單機(jī)構(gòu)銀聯(lián)商務(wù)為例,其日交易量近億筆,需對(duì)旗下540多萬(wàn)個(gè)商戶(hù)進(jìn)行實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)控,在確保這些商戶(hù)合規(guī)開(kāi)展收單業(yè)務(wù)的同時(shí),最大限度地保障個(gè)人用戶(hù)的合法權(quán)益。這樣的高并發(fā)、大數(shù)據(jù)、高實(shí)時(shí)應(yīng)用需求給大數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。
銀聯(lián)商務(wù)以前使用的T+1事后風(fēng)控系統(tǒng)存在風(fēng)險(xiǎn)偵測(cè)遲滯高(次日才能發(fā)現(xiàn)風(fēng)險(xiǎn),損害已經(jīng)造成)、處理時(shí)間長(zhǎng)(十幾個(gè)小時(shí)之后才能完成風(fēng)險(xiǎn)識(shí)別)、無(wú)法處理長(zhǎng)周期歷史數(shù)據(jù)(只能分析最近幾日的流水?dāng)?shù)據(jù))以及無(wú)法支持復(fù)雜規(guī)則(僅能支持累積求和等簡(jiǎn)單規(guī)則)等重大缺陷。為此,亟須研發(fā)全新的事中風(fēng)控系統(tǒng),以重點(diǎn)實(shí)現(xiàn)低遲滯(在1 min內(nèi)甄別突發(fā)風(fēng)險(xiǎn))、高實(shí)時(shí)(100 ms內(nèi)返回處理結(jié)果)、長(zhǎng)周期(可處理長(zhǎng)達(dá)10年以上的歷史周期數(shù)據(jù))以及支持高復(fù)雜度規(guī)則(如方差、標(biāo)準(zhǔn)差、K階中心矩、最大連續(xù)統(tǒng)計(jì)等)等目標(biāo)。這一目標(biāo)可以抽象為一個(gè)大數(shù)據(jù)處理科學(xué)問(wèn)題:如何在一個(gè)完整的大數(shù)據(jù)集上,實(shí)現(xiàn)低遲滯、高實(shí)時(shí)的即席(Ad-Hoc)查詢(xún)分析處理。
2 技術(shù)解析
現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)可以分為兩類(lèi):批處理大數(shù)據(jù)系統(tǒng)與流處理大數(shù)據(jù)系統(tǒng)。以Hadoop為代表的批處理大數(shù)據(jù)系統(tǒng)需先將數(shù)據(jù)匯聚成批,經(jīng)批量預(yù)處理后加載至分析型數(shù)據(jù)倉(cāng)庫(kù)中,以進(jìn)行高性能實(shí)時(shí)查詢(xún)。這類(lèi)系統(tǒng)雖然可對(duì)完整大數(shù)據(jù)集實(shí)現(xiàn)高效的即席查詢(xún),但無(wú)法查詢(xún)到最新的實(shí)時(shí)數(shù)據(jù),存在數(shù)據(jù)遲滯高等問(wèn)題。相較于批處理大數(shù)據(jù)系統(tǒng),以Spark Streaming、Storm、Flink為代表的流處理大數(shù)據(jù)系統(tǒng)將實(shí)時(shí)數(shù)據(jù)通過(guò)流處理,逐條加載至高性能內(nèi)存數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún)。此類(lèi)系統(tǒng)可以對(duì)最新實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)高效預(yù)設(shè)分析處理模型的查詢(xún),數(shù)據(jù)遲滯低。然而受限于內(nèi)存容量,系統(tǒng)需丟棄原始?xì)v史數(shù)據(jù),無(wú)法在完整大數(shù)據(jù)集上支持Ad-Hoc查詢(xún)分析處理。因此,研發(fā)具有快速、高效、智能且自主可控特點(diǎn)的流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)與平臺(tái)是當(dāng)務(wù)之急。
實(shí)現(xiàn)一個(gè)融合批處理和流處理兩類(lèi)系統(tǒng)且對(duì)應(yīng)用透明的系統(tǒng)級(jí)方案,需要攻克以下幾個(gè)技術(shù)難點(diǎn)。
(1)復(fù)雜指標(biāo)的增量計(jì)算
盡管計(jì)數(shù)、求和、平均等指標(biāo)能夠依靠查詢(xún)結(jié)果合并實(shí)現(xiàn),然而方差、標(biāo)準(zhǔn)差、熵等大部分復(fù)雜指標(biāo)無(wú)法依靠簡(jiǎn)單合并完成查詢(xún)結(jié)果的融合。再者,當(dāng)查詢(xún)涉及熱點(diǎn)數(shù)據(jù)維度及長(zhǎng)周期時(shí)間窗口的復(fù)雜指標(biāo)時(shí),多次重新計(jì)算會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷(xiāo)。
(2)基于分布式內(nèi)存的并行計(jì)算
采用粗放的調(diào)度策略(例如約定在每天的固定時(shí)間將流數(shù)據(jù)導(dǎo)入批處理系統(tǒng))會(huì)造成內(nèi)存資源的極大浪費(fèi),亟須研究實(shí)現(xiàn)一種細(xì)粒度的基于進(jìn)度實(shí)時(shí)感知的融合存儲(chǔ)策略,以極大地優(yōu)化和提升融合系統(tǒng)的內(nèi)存使用效率。
(3)多尺度時(shí)間窗口漂移的動(dòng)態(tài)數(shù)據(jù)處理
來(lái)自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)查詢(xún)請(qǐng)求會(huì)涉及多種尺度的時(shí)間窗口,如“最近5筆刷卡交易的金額”“最近10 min內(nèi)密碼重試次數(shù)”“過(guò)去10年的月均交易額”等。每次查詢(xún)請(qǐng)求都重新計(jì)算結(jié)果會(huì)對(duì)系統(tǒng)性能造成極大的影響,亟須研究實(shí)現(xiàn)一種支持多種時(shí)間窗口尺度(數(shù)秒到數(shù)十年)、多種窗口漂移方式(數(shù)據(jù)驅(qū)動(dòng)、系統(tǒng)時(shí)鐘驅(qū)動(dòng))的動(dòng)態(tài)數(shù)據(jù)實(shí)時(shí)處理方法,以快速響應(yīng)來(lái)自業(yè)務(wù)系統(tǒng)的即席查詢(xún)請(qǐng)求。
(4)高可用、高可擴(kuò)展的內(nèi)存計(jì)算
基于內(nèi)存介質(zhì)能夠大大提升數(shù)據(jù)分析及處理能力,然而由于其易揮發(fā)的特性,一般需要采用多副本的方式來(lái)實(shí)現(xiàn)基于內(nèi)存的高可用方案,這使得“如何確保不同副本的一致性”成為一個(gè)待解決的問(wèn)題。此外,在集群內(nèi)存不足或者部分節(jié)點(diǎn)失效時(shí),“如何讓集群在不間斷提供服務(wù)的同時(shí)重新平衡”同樣是一個(gè)待解決的技術(shù)難題。亟須研究分布式多副本一致性協(xié)議以及自平衡的智能分區(qū)算法,以進(jìn)一步提升流處理集群的可用性以及可擴(kuò)展性。
“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)在上述領(lǐng)域取得了一系列突破,該技術(shù)提供基于時(shí)間窗口漂移的動(dòng)態(tài)數(shù)據(jù)快速處理,支持計(jì)數(shù)、求和、平均、最大、最小、方差、標(biāo)準(zhǔn)差、K階中心矩、遞增/遞減、最大連續(xù)遞增/遞減、唯一性判別、采集、過(guò)濾等多種分布式統(tǒng)計(jì)計(jì)算模型,并且實(shí)現(xiàn)了復(fù)雜事件、上下文處理等實(shí)時(shí)分析處理模型集的高效管理技術(shù)。
3 平臺(tái)縱覽
基于“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù),研發(fā)了“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)。其應(yīng)用框架如圖1所示,具有良好的靈活性和適應(yīng)性。平臺(tái)的數(shù)據(jù)裝載模塊負(fù)責(zé)從具體業(yè)務(wù)系統(tǒng)中接入實(shí)時(shí)流數(shù)據(jù),數(shù)據(jù)抽取模塊負(fù)責(zé)批量抽取歷史數(shù)據(jù),模型裝載模塊負(fù)責(zé)將分析處理模型集中的計(jì)算模型和腳本加載到平臺(tái)中。當(dāng)收到業(yè)務(wù)系統(tǒng)發(fā)出的實(shí)時(shí)查詢(xún)請(qǐng)求時(shí),“流立方”平臺(tái)能夠根據(jù)分析處理模型在完整大數(shù)據(jù)集上實(shí)時(shí)計(jì)算出相應(yīng)的指標(biāo),并進(jìn)行判斷,將結(jié)果反饋給業(yè)務(wù)系統(tǒng)。
在測(cè)試環(huán)境為8臺(tái)服務(wù)器(每臺(tái)服務(wù)器配置24核 CPU、256 GB內(nèi)存),同時(shí)計(jì)算16個(gè)統(tǒng)計(jì)指標(biāo)(涉及4個(gè)維度,包含計(jì)數(shù)、求和、平衡、最大、最小、標(biāo)準(zhǔn)差、過(guò)濾、去重、排序、復(fù)雜事件處理等多種算法)的性能測(cè)試中,“流立方”平臺(tái)達(dá)到了單節(jié)點(diǎn)寫(xiě)入大于43 000 TPS、8節(jié)點(diǎn)讀取大于100萬(wàn)TPS、平均時(shí)延為1~2 ms的優(yōu)異性能,如圖2所示。
“流立方”平臺(tái)在解決批式大數(shù)據(jù)和流式大數(shù)據(jù)融合實(shí)時(shí)處理技術(shù)難題,實(shí)現(xiàn)優(yōu)異性能的同時(shí),還解決了流式大數(shù)據(jù)處理平臺(tái)面臨的兩大工程化難題。一是作業(yè)的編排效率問(wèn)題。大部分開(kāi)源流處理平臺(tái)在完成一個(gè)流處理編排時(shí),都需要經(jīng)過(guò)拓?fù)湓O(shè)計(jì)、代碼編寫(xiě)、功能測(cè)試、打包部署等環(huán)節(jié),一般需要一周的時(shí)間才能完成。“流立方”平臺(tái)通過(guò)基于“所見(jiàn)即所得”的在線(xiàn)作業(yè)編排管理,將上線(xiàn)任務(wù)耗時(shí)降低到分鐘級(jí),大大提升了流處理作業(yè)的編排效率。二是流處理作業(yè)的靈活變更問(wèn)題。流處理平臺(tái)擅長(zhǎng)進(jìn)行邏輯預(yù)先定義的增量計(jì)算,盡管其計(jì)算效率極高,但計(jì)算靈活度受到限制。例如,某業(yè)務(wù)需要統(tǒng)計(jì)過(guò)去3個(gè)月的數(shù)據(jù),現(xiàn)有的流處理平臺(tái)在該業(yè)務(wù)上線(xiàn)3個(gè)月后才能完全生效,這樣的工作方式使流處理技術(shù)在實(shí)際應(yīng)用中受到很大的局限。“流立方”平臺(tái)創(chuàng)新性地引入流媒體播放器的錄制與重放思路,在原始數(shù)據(jù)進(jìn)入流處理平臺(tái)時(shí),通過(guò)順序?qū)懙姆绞匠志没环菰紨?shù)據(jù),在需要上線(xiàn)新的計(jì)算作業(yè)時(shí),即刻重發(fā)指定時(shí)間窗口內(nèi)的原始數(shù)據(jù),從而實(shí)現(xiàn)快速(分鐘級(jí)甚至秒級(jí))計(jì)算作業(yè)上線(xiàn)。
“流立方”平臺(tái)引入了一系列創(chuàng)新技術(shù),在性能、可用性、可擴(kuò)展性等多個(gè)層面提升了流處理平臺(tái)的處理能力,滿(mǎn)足金融領(lǐng)域在內(nèi)的眾多領(lǐng)域的業(yè)務(wù)及運(yùn)維需求。引入數(shù)據(jù)沖突智能規(guī)避技術(shù),解決了流式處理中的熱點(diǎn)數(shù)據(jù)處理問(wèn)題,從而解決了大顆粒數(shù)據(jù)維度的處理效率問(wèn)題;引入Paxos一致性協(xié)議,解決內(nèi)存存儲(chǔ)計(jì)算時(shí)多副本一致性問(wèn)題,提供了面向運(yùn)維人員透明的一致性解決方案;引入智能分區(qū)技術(shù),基于一致性散列技術(shù),進(jìn)一步將散列值拆解為散列塊,通過(guò)散列塊的平滑遷移解決存儲(chǔ)集群的可伸縮性設(shè)計(jì)問(wèn)題,確保對(duì)于運(yùn)維人員的集群變更透明性;引入計(jì)算作業(yè)的動(dòng)態(tài)運(yùn)行時(shí)加載技術(shù),規(guī)避了作業(yè)手工打包部署的問(wèn)題,進(jìn)一步提升了開(kāi)發(fā)人員的工作效率。
在國(guó)內(nèi)某大型銀行卡收單機(jī)構(gòu)組織的招標(biāo)測(cè)試中,測(cè)試環(huán)節(jié)為兩臺(tái)低配置虛擬機(jī),測(cè)試數(shù)據(jù)為該機(jī)構(gòu)的數(shù)千萬(wàn)筆交易流水,計(jì)算邏輯包括50多條規(guī)則,涉及30多個(gè)統(tǒng)計(jì)指標(biāo)。在該測(cè)試環(huán)節(jié)下,兩家國(guó)外著名廠(chǎng)商中,一家廠(chǎng)商的計(jì)算時(shí)間長(zhǎng)達(dá)24 h,另一家老牌數(shù)據(jù)庫(kù)軟件提供商則未能在一天內(nèi)完成計(jì)算。相較于這些國(guó)外著名廠(chǎng)商的大數(shù)據(jù)處理平臺(tái),“流立方”平臺(tái)能夠在3 h內(nèi)完成所有計(jì)算,且正確率為100%。
4 應(yīng)用場(chǎng)景
“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)在金融、交通、電信、公安等行業(yè)具有廣泛的應(yīng)用場(chǎng)景。以金融風(fēng)控反欺詐為例,部署“流立方”風(fēng)控系統(tǒng)僅需在交易前端增加風(fēng)控探頭,將實(shí)時(shí)交易數(shù)據(jù)旁路接入系統(tǒng)。“流立方”風(fēng)控系統(tǒng)根據(jù)融合了專(zhuān)家知識(shí)和機(jī)器學(xué)習(xí)結(jié)果的數(shù)百條規(guī)則對(duì)每筆交易進(jìn)行風(fēng)險(xiǎn)評(píng)估,判斷是否允許進(jìn)行該筆交易,流程如圖3所示。該系統(tǒng)平均響應(yīng)時(shí)間在6 ms以下,并發(fā)數(shù)超過(guò)50 000筆/s。同時(shí),實(shí)現(xiàn)這一性能僅需要4臺(tái)服務(wù)器。
基于“流立方”的金融風(fēng)控反欺詐技術(shù)體系包含技術(shù)(如設(shè)備指紋、代理偵測(cè)、生物識(shí)別、關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)等技術(shù))、知識(shí)(如盜卡反欺詐、偽卡反欺詐、信用卡套現(xiàn)、營(yíng)銷(xiāo)反欺詐等規(guī)則與模型)、數(shù)據(jù)(如虛假手機(jī)數(shù)據(jù)、代理IP數(shù)據(jù)、P2P失信數(shù)據(jù)等標(biāo)識(shí)數(shù)據(jù))三大板塊。技術(shù)部分中的設(shè)備指紋技術(shù)通過(guò)主被動(dòng)混合的形式采集設(shè)備中軟硬相關(guān)要素,結(jié)合概率論等算法為每一個(gè)設(shè)備頒發(fā)一個(gè)全球唯一的指紋編碼,這些指紋編碼在反欺詐的整個(gè)過(guò)程中起到非常積極的作用;代理偵測(cè)技術(shù)通過(guò)短時(shí)間內(nèi)掃描IP相關(guān)端口來(lái)識(shí)別那些開(kāi)啟代理的IP,并在這些IP訪(fǎng)問(wèn)金融服務(wù)時(shí)進(jìn)行識(shí)別;生物識(shí)別技術(shù)通過(guò)采集設(shè)備上用戶(hù)的鼠標(biāo)點(diǎn)擊、觸摸、鍵盤(pán)敲擊等行為識(shí)別操作者是人還是機(jī)器以及是否操作者本人的問(wèn)題;關(guān)聯(lián)分析技術(shù)在底層通過(guò)圖數(shù)據(jù)庫(kù)存儲(chǔ)不同節(jié)點(diǎn)以及關(guān)系信息,最終在界面上通過(guò)圖的形式進(jìn)行欺詐者關(guān)聯(lián)分析及復(fù)雜網(wǎng)絡(luò)分析;機(jī)器學(xué)習(xí)技術(shù)通過(guò)有監(jiān)督、無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法提升欺詐識(shí)別的準(zhǔn)確率及覆蓋率,并結(jié)合流立方技術(shù)提供模型的事中預(yù)測(cè)能力。
基于上述技術(shù)體系,研發(fā)了銀行業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)、互聯(lián)網(wǎng)支付業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)、電商業(yè)務(wù)風(fēng)險(xiǎn)實(shí)時(shí)監(jiān)控系統(tǒng)等金融風(fēng)控反欺詐系列解決方案。這些方案已應(yīng)用到銀行、第三方支付機(jī)構(gòu)、互聯(lián)網(wǎng)金融等領(lǐng)域的上百家企業(yè)。目前50%以上的線(xiàn)下交易都在“流立方”的保護(hù)下進(jìn)行,基于“流立方”的金融風(fēng)控反欺詐解決方案每天為我國(guó)的金融機(jī)構(gòu)抵御上億次的攻擊。該技術(shù)已經(jīng)成為我國(guó)金融安全領(lǐng)域基礎(chǔ)設(shè)施必不可少的組成部分。
此外,在互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)中,“流立方”同樣能發(fā)揮巨大作用。如今網(wǎng)絡(luò)機(jī)器人遍布票務(wù)、電商、招聘、銀行、政府、社交等各類(lèi)網(wǎng)站,消耗了40%~60%的網(wǎng)絡(luò)流量。網(wǎng)絡(luò)機(jī)器人不僅消耗網(wǎng)絡(luò)資源、影響正??蛻?hù)訪(fǎng)問(wèn)、增加網(wǎng)站運(yùn)營(yíng)成本,還會(huì)爬取產(chǎn)品、價(jià)格信息,形成不正當(dāng)競(jìng)爭(zhēng),甚至混淆網(wǎng)站用戶(hù)生態(tài),影響營(yíng)銷(xiāo)分析。傳統(tǒng)的控制策略通過(guò)采取屏蔽頻繁訪(fǎng)問(wèn)、設(shè)置驗(yàn)證碼等方式防御網(wǎng)絡(luò)機(jī)器人,無(wú)法應(yīng)對(duì)日益智能化的新型網(wǎng)絡(luò)機(jī)器人?;?ldquo;流立方”的互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)通過(guò)在Web服務(wù)器上嵌入插件或者獨(dú)立的嗅探器(sniffer)程序,將全流量的Web訪(fǎng)問(wèn)請(qǐng)求旁路到獨(dú)立的機(jī)器防御集群,進(jìn)行實(shí)時(shí)的流量分析及防御決策,并將決策后的結(jié)果實(shí)時(shí)回饋到Web服務(wù)器插件中。Web服務(wù)器插件在判定當(dāng)前訪(fǎng)問(wèn)的設(shè)備或者IP地址等是機(jī)器人時(shí),能夠自動(dòng)改寫(xiě)響應(yīng)內(nèi)容,根據(jù)不同的風(fēng)險(xiǎn)級(jí)別自動(dòng)拒絕交易或?qū)⒃L(fǎng)問(wèn)者引導(dǎo)到第三方圖形驗(yàn)證碼服務(wù)商進(jìn)行機(jī)器人驗(yàn)證。訪(fǎng)問(wèn)者在通過(guò)驗(yàn)證后可以繼續(xù)正常訪(fǎng)問(wèn)Web服務(wù)。該系統(tǒng)還創(chuàng)新地將設(shè)備指紋以及人機(jī)識(shí)別服務(wù)運(yùn)用到機(jī)器防御系統(tǒng)中,不僅增加了可分析維度,提升了控制顆粒度,同時(shí)能夠?qū)跒g覽器內(nèi)核的高級(jí)爬蟲(chóng)進(jìn)行防護(hù)。此外,將機(jī)器防御規(guī)則、數(shù)據(jù)服務(wù)、設(shè)備指紋、人機(jī)識(shí)別以及圖形驗(yàn)證碼以軟件即服務(wù)(software as a service,SaaS)的形式提供服務(wù),進(jìn)一步降低了互聯(lián)網(wǎng)網(wǎng)站客戶(hù)的運(yùn)維門(mén)檻,提升了產(chǎn)品競(jìng)爭(zhēng)力。該機(jī)器防御系統(tǒng)工作過(guò)程如圖4所示。
基于“流立方”的實(shí)時(shí)機(jī)器防御系統(tǒng)通過(guò)多服務(wù)器訪(fǎng)問(wèn)流水關(guān)聯(lián)決策、長(zhǎng)周期數(shù)據(jù)決策、復(fù)雜規(guī)則爬蟲(chóng)識(shí)別、設(shè)備維度爬蟲(chóng)識(shí)別、人機(jī)識(shí)別等技術(shù),實(shí)現(xiàn)了微秒級(jí)(400~800μs)的識(shí)別時(shí)延,同時(shí)具有機(jī)器人識(shí)別管控一體化、輕量級(jí)接入等優(yōu)點(diǎn)。根據(jù)已經(jīng)接入機(jī)器防御服務(wù)的幾十家客戶(hù)的反饋,基于“流立方”平臺(tái)的防御系統(tǒng)對(duì)機(jī)器人識(shí)別覆蓋率在95%以上,準(zhǔn)確率為99.9%。該機(jī)器防御系統(tǒng)能夠攔截這些客戶(hù)業(yè)務(wù)系統(tǒng)中占原有訪(fǎng)問(wèn)總流量80%~90%的來(lái)自網(wǎng)絡(luò)機(jī)器人的訪(fǎng)問(wèn)流量,使得其業(yè)務(wù)系統(tǒng)服務(wù)器的壓力降為原來(lái)的10%。由于基于“流立方”的機(jī)器防御系統(tǒng)的卓越識(shí)別及控制機(jī)器人的能力,當(dāng)前,全國(guó)最大的票務(wù)平臺(tái)正在對(duì)此服務(wù)進(jìn)行全面的測(cè)試,希望能夠進(jìn)一步提升其票務(wù)服務(wù)能力。
此外,基于“流立方”的流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)在智慧交通領(lǐng)域也大有作為。通過(guò)實(shí)時(shí)分析從預(yù)埋在全國(guó)各地的攝像頭采集的車(chē)牌信息,配合地理位置信息服務(wù)以及基于地理信息系統(tǒng)(geographic information system,GIS)的最短交通距離計(jì)算,實(shí)現(xiàn)實(shí)時(shí)套牌車(chē)信息抓取,為進(jìn)一步打擊違法犯罪服務(wù)提供幫助;通過(guò)實(shí)時(shí)分析交叉路口雙向的車(chē)流量信息,實(shí)時(shí)控制每個(gè)路口的紅綠燈、智能變換潮汐車(chē)道及可變車(chē)道,從而大大提升城市的通行效率。
“熱數(shù)據(jù)”帶來(lái)無(wú)與倫比的價(jià)值,數(shù)據(jù)從產(chǎn)生開(kāi)始,其應(yīng)用價(jià)值隨時(shí)間的流逝呈現(xiàn)指數(shù)式下降,如何充分應(yīng)用“熱數(shù)據(jù)”是一個(gè)新生事務(wù),是一個(gè)長(zhǎng)期任務(wù),也是流式大數(shù)據(jù)處理技術(shù)大有可為之處。“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)和平臺(tái)在金融、電信、交通、公安、海關(guān)、網(wǎng)絡(luò)安全等需要引入“事中”感知分析決策模式的行業(yè)都具有廣闊的應(yīng)用前景。
基于批式大數(shù)據(jù),可以不斷學(xué)習(xí)新的知識(shí),累積新的經(jīng)驗(yàn)。然而,在應(yīng)用這些知識(shí)和經(jīng)驗(yàn)時(shí),流式大數(shù)據(jù)更能夠極大限度地挖掘“熱數(shù)據(jù)”的潛在價(jià)值。這使得流式大數(shù)據(jù)技術(shù)具備更有效的應(yīng)用推廣價(jià)值。
流式大數(shù)據(jù)實(shí)時(shí)處理是大數(shù)據(jù)時(shí)代信息化的重要抓手。采用“事中”甚至“事前”模式實(shí)現(xiàn)感知、分析、判斷、決策等功能的智能系統(tǒng)需要流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)的支撐。此外,流式大數(shù)據(jù)實(shí)時(shí)處理可以為大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)提供計(jì)算框架支撐。“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)可為研制融合邏輯推理、概率統(tǒng)計(jì)、眾包、神經(jīng)網(wǎng)絡(luò)等多種形態(tài)的下一代人工智能統(tǒng)一計(jì)算框架提供支持。