自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

反欺詐架構(gòu)中的數(shù)據(jù)架構(gòu)及其技術(shù)挑戰(zhàn)

譯文
大數(shù)據(jù) 架構(gòu)
反欺詐系統(tǒng)架構(gòu)方面的一半工作可能花在了穩(wěn)健而靈活的數(shù)據(jù)基礎(chǔ)設(shè)施上。要是沒有數(shù)據(jù),規(guī)則和模型就玩不轉(zhuǎn)。許多時(shí)候,你需要從不同的角度和不同的距離來(lái)看待同一批數(shù)據(jù),還需要能夠不斷以低成本獲取新數(shù)據(jù);你遲早會(huì)發(fā)現(xiàn)自己擁有海量數(shù)據(jù),因此擁有一套可擴(kuò)展、穩(wěn)健的基礎(chǔ)設(shè)施來(lái)管理這些數(shù)據(jù)是核心。

【51CTO.com快譯】數(shù)據(jù)、規(guī)則和模型,這些是反欺詐軟件系統(tǒng)的基本構(gòu)建模塊。我會(huì)在一系列文章中介紹這些基礎(chǔ)模塊。

[[166414]]

關(guān)鍵:合適的數(shù)據(jù)在合適的時(shí)間以合適的格式呈現(xiàn)

反欺詐系統(tǒng)架構(gòu)方面的一半工作可能花在了穩(wěn)健而靈活的數(shù)據(jù)基礎(chǔ)設(shè)施上。要是沒有數(shù)據(jù),規(guī)則和模型就玩不轉(zhuǎn)。許多時(shí)候,你需要從不同的角度和不同的距 離來(lái)看待同一批數(shù)據(jù),還需要能夠不斷以低成本獲取新數(shù)據(jù);你遲早會(huì)發(fā)現(xiàn)自己擁有海量數(shù)據(jù),因此擁有一套可擴(kuò)展、穩(wěn)健的基礎(chǔ)設(shè)施來(lái)管理這些數(shù)據(jù)是核心。

這么說(shuō)可能過于簡(jiǎn)單了。下面我們來(lái)看看你要處理的一些常見類型的數(shù)據(jù):

聚集

  • 例子:客戶的終生支出(合計(jì))、SKU的爭(zhēng)議數(shù)(計(jì)數(shù))、客戶使用的所有IP地址(聚集和重復(fù)數(shù)據(jù)刪除),以及某國(guó)別的最新采購(gòu)期(最小/最大)。
  • 目的:對(duì)于迅速?gòu)牟煌嵌攘私饽硞€(gè)帳戶或?qū)嶓w很有用,你可以了解大局以及相應(yīng)交易與之相比如何。
  • 技術(shù)挑戰(zhàn):
    • ·實(shí)時(shí)聚集,還是預(yù)聚集?
      • “實(shí)時(shí)”的優(yōu)點(diǎn):可獲得粒度更細(xì)的最新數(shù)據(jù)。
      • “實(shí)時(shí)”的缺點(diǎn):尤其是聚集的數(shù)據(jù)量很龐大時(shí),操作開銷很大;原始數(shù)據(jù)源與反欺詐決策緊密相關(guān)。
      • 預(yù)聚集的優(yōu)點(diǎn):可以將開銷很大的數(shù)據(jù)處理交給異步處理機(jī)制,那樣決策時(shí)數(shù)據(jù)檢索起來(lái)速度快,成本低;決策服務(wù)完全依賴聚集和專用的欺詐數(shù)據(jù),而不是原始事務(wù)數(shù)據(jù)源。
      • 預(yù)聚集的缺點(diǎn):由于具有異步性,聚集的數(shù)據(jù)可能過時(shí)。
      • 通 常來(lái)說(shuō),數(shù)據(jù)在決策時(shí)讀取,但是因影響數(shù)據(jù)的活動(dòng)而出現(xiàn)帶外變更(添加、更新和刪除)。比如說(shuō),在結(jié)賬決策點(diǎn),你可能想要評(píng)估這個(gè)用戶退了多少次商品。退 貨的流程有別于正常結(jié)賬,而且本身有全然不同的生命周期。因此,結(jié)賬時(shí)聚集退貨數(shù)量沒有意義。此外,某個(gè)正常用戶帳戶的退貨數(shù)量應(yīng)該遠(yuǎn)低于結(jié)賬數(shù)量,所以 按結(jié)賬數(shù)量計(jì)算退貨數(shù)量是一種過分行為,浪費(fèi)資源。
      • 通常來(lái)說(shuō),預(yù)聚集比實(shí)時(shí)聚集更具擴(kuò)展性。
  • 盡可能使用增量聚集
    • 簡(jiǎn)單的例子就是用戶的最大采購(gòu)量。一般來(lái)說(shuō),你會(huì)保存用戶輸入的最大數(shù),如果新的數(shù)量大于之前的最大數(shù),你就換成新的數(shù)量;不然,你就忽視。每當(dāng)需要聚集時(shí)檢索用戶的所有交易,并從中找到最大數(shù)沒有太多的意義。
    • 一個(gè)比較復(fù)雜的例子是SKU的爭(zhēng)議數(shù)。每當(dāng)你收到一個(gè)新的爭(zhēng)議,你可能只想為最后一個(gè)數(shù)+1,而不是查詢SKU的所有爭(zhēng)議。當(dāng)然了,這需要觸發(fā)系統(tǒng)(可能是消息分發(fā)框架)來(lái)保證分發(fā),而且只分發(fā)一次。
  • Lambda架構(gòu)

想要集兩者之眾長(zhǎng)?使用Lambda架構(gòu)怎么樣?通過聚集批處理層(通常是舊數(shù)據(jù),在“較慢”但更具可擴(kuò)展的“大數(shù)據(jù)”基礎(chǔ)設(shè)施上執(zhí)行)和速度層(實(shí)時(shí)增量聚集最新數(shù)據(jù),在Samza或Spark Streaming之類的流處理基礎(chǔ)設(shè)施上執(zhí)行),這就能同時(shí)獲得可擴(kuò)展性和新鮮度。

 

  • 例子:在過去90秒內(nèi)來(lái)自某個(gè)IP地址的企圖登錄次數(shù);過去10分鐘來(lái)自某個(gè)用戶的企圖“添加信用卡”的次數(shù);過去24小時(shí)內(nèi)來(lái)自同一個(gè)Geohash的新注冊(cè)次數(shù)。
  • 目的:騙子們常常采用蠻力惡意活動(dòng)來(lái)攻擊商家。比如說(shuō),蠻力登錄攻擊的癥狀是,同一個(gè)IP地址在短短的時(shí)間內(nèi)多次企圖登錄。騙子們還在短短的時(shí)間內(nèi),通過未起疑心的商家的“增添信用卡”流程,測(cè)試竊取的信用卡號(hào)碼。
  • 速度與聚集有何不同?速度通常衡量某個(gè)活動(dòng)在一段比較短的時(shí)間內(nèi)(比如秒鐘、分鐘或小時(shí))發(fā)生得多快,而聚集通常與更長(zhǎng)的時(shí)間段有關(guān)。
  • 技術(shù)挑戰(zhàn):
    • 由于它處理較短的時(shí)間,可用性延遲是有待優(yōu)化的主要方面。你也許能夠使用同一個(gè)消息分發(fā)系統(tǒng),就像在聚集使用場(chǎng)合下那樣,以觸發(fā)速度計(jì)算,但是要認(rèn)真評(píng)估和監(jiān)控端到端延遲。畢竟,60秒鐘的延遲會(huì)讓你的目標(biāo)速度“過去60秒鐘的登錄次數(shù)”毫無(wú)用處。
    • 如果異步處理系統(tǒng)帶來(lái)了無(wú)法忍受的延遲,你可能需要考慮實(shí)時(shí)查詢數(shù)據(jù)。沒錯(cuò),它存在與我們?cè)谏厦婢奂褂脠?chǎng)合下談?wù)摰耐瑯尤秉c(diǎn),不過幸好時(shí)間短,因而查詢性能仍比較好。
    • 速 度計(jì)算的另一個(gè)常見要求是,可以靈活地?fù)碛胁煌亩鄠€(gè)維度,也就是說(shuō)可以交叉分析(slice and dice)。比如說(shuō),你可能想要知道在過去5分鐘來(lái)自同一個(gè)IP地址的登錄次數(shù),但是可能還想知道在過去5分鐘登錄同一帳戶的次數(shù);那么,何不計(jì)算同一 IP地址登錄到同一帳戶的次數(shù)。這就需要你用預(yù)定義的維度/存儲(chǔ)桶聚集數(shù)據(jù)(事先知道訪問模式),或者以一種查詢起來(lái)非常靈活的方式來(lái)存儲(chǔ)原始數(shù)據(jù)(換句 話說(shuō),你沒必要事先定義訪問模式)。至于后一種實(shí)施方法,ElasticSearch之類的技術(shù)會(huì)行得通。

查詢

  • 例子:有了一個(gè)IP地址,找到地理位置信息(經(jīng)度、緯度、國(guó)家和城市);從信用卡的BIN(銀行識(shí)別號(hào))到發(fā)卡行名稱和銀行所在國(guó);從郵 政編碼到地理位置信息。除了你免費(fèi)獲得(來(lái)自公共數(shù)據(jù))或通過購(gòu)買獲得的外部查詢數(shù)據(jù)外,許多內(nèi)部生成的查詢數(shù)據(jù)也非常有用,比如說(shuō)來(lái)自IP地址的壞事務(wù) 在事務(wù)總數(shù)中的比例,來(lái)自某個(gè)國(guó)家的虛假注冊(cè)數(shù)量,等等。
  • 目的:查詢數(shù)據(jù)(外部或內(nèi)部)是合成的情報(bào),它剖析了某些工具的風(fēng)險(xiǎn)狀況,或者提供了可用于進(jìn)一步評(píng)估的生成數(shù)據(jù)。從IP地址到地理位置的查詢推導(dǎo),以及從(開票)郵政編碼到地理位置的推導(dǎo),讓你能夠計(jì)算出交易地址與開票地址之間的距離。
  • 技術(shù)挑戰(zhàn):
    • 大多數(shù)查詢數(shù)據(jù)并不經(jīng)常變化。比如說(shuō),BIN查詢可能每月最多更新一次,IP內(nèi)部風(fēng)險(xiǎn)可能沒必要為每個(gè)事務(wù)重新計(jì)算,但是可以每天重新計(jì)算。所以,這種類型的模式對(duì)批處理來(lái)說(shuō)很理想。
    • 許多數(shù)據(jù)會(huì)海量查詢,比如說(shuō)每筆事務(wù)。由于它們相對(duì)靜態(tài),緩存是一種出色的策略。內(nèi)存提供的緩存顯著縮短了延遲。視數(shù)據(jù)集的大小和延遲要求而定,它們可以與決策服務(wù)一同緩存(速度最快),或者通過集中式緩存層來(lái)緩存。
    • 如果內(nèi)存不適合緩存數(shù)據(jù)集,又需要文件系統(tǒng),仍可以通過索引數(shù)據(jù)在內(nèi)存中文件中位置來(lái)進(jìn)行優(yōu)化,那樣第一輪是從內(nèi)存獲得數(shù)據(jù)的位置,然后直接訪問文件中的該位置。查看mmap(https://en.wikipedia.org/wiki/Mmap)。
    • 即便數(shù)據(jù)集在單個(gè)節(jié)點(diǎn)裝不下,也可以進(jìn)行分區(qū)后分發(fā)。數(shù)據(jù)可以在其中一個(gè)節(jié)點(diǎn)上,目錄節(jié)點(diǎn)可以將查詢請(qǐng)求轉(zhuǎn)發(fā)給含有數(shù)據(jù)的那個(gè)節(jié)點(diǎn)。
    • ·然查詢數(shù)據(jù)不常變化,但是它們通常很龐大。這樣一來(lái),更新起來(lái)有難度。最笨拙的辦法就是,更新期間,翻新整個(gè)數(shù)據(jù)集。你可能想要考慮創(chuàng)建一個(gè)全新版本的數(shù)據(jù)集,將它與工作版本并行上傳,然后在新版本驗(yàn)證完畢后換掉。這確保更新過程中沒有停機(jī)時(shí)間。
    • 在外部,你可能想要簡(jiǎn)化自動(dòng)獲取更新的過程,通過通知新版本可用性來(lái)調(diào)度或觸發(fā)。
    • 在內(nèi)部,計(jì)算查詢數(shù)據(jù)對(duì)分析型數(shù)據(jù)基礎(chǔ)設(shè)施來(lái)說(shuō)是完美任務(wù),比如數(shù)據(jù)倉(cāng)庫(kù)及/或Hadoop。同樣,你需要一條管道,以盡可能少的人力,將生成數(shù)據(jù)傳輸?shù)缴a(chǎn)環(huán)境。

圖形

  • 例子:誰(shuí)從同一個(gè)IP地址注冊(cè),誰(shuí)使用同樣的信用卡,誰(shuí)是在你網(wǎng)站上展示同樣異常瀏覽模式的用戶。
  • 目的:用戶基本上是好的,騙子只是少數(shù)。不斷回到你的平臺(tái)來(lái)欺騙的是一小撮壞人,他們使用不同的身份(假冒或真實(shí)的身份)。檢測(cè)誰(shuí)是你所知道的騙子,是防止欺詐的一種有效方法。
  • 技術(shù)挑戰(zhàn):
    • 關(guān)系數(shù)據(jù)庫(kù)并不以圖形關(guān)系見長(zhǎng),尤其是需要多度關(guān)聯(lián)的情況下(A與B關(guān)聯(lián),B與C關(guān)聯(lián),因而A與C關(guān)聯(lián))。
    • 圖形數(shù)據(jù)庫(kù)(比如Neo4j)非常適合這個(gè)用途。或者,Triplestore又叫RDF(資源描述框架)也可以。
  • 要考慮的方面:
    • 為 你的圖形關(guān)系正確建模。比如說(shuō),你可能試圖通過將通過IP地址1.2.3.4與用戶B關(guān)聯(lián)的用戶A建模成“A->B”, IP 1.2.3.4作為該鏈接的屬性。然而,想添加同樣使用1.2.3.4的用戶C,你就需要表示A->C和B->C,這2個(gè)鏈接每個(gè)都有屬性 1.2.3.4。這種情況下的IP地址“隱藏起來(lái)”或不是顯式的。因而,同樣的IP地址重復(fù)、單獨(dú)表示。為這種場(chǎng)景建模的更好方法就是 A->IP(.2.3.4)、B->IP(1.2.3.4)、C->IP(1.2.3.4)。由于IP(1.2.3.4)是圖形中的同 一個(gè)節(jié)點(diǎn),A、B和C通過它關(guān)聯(lián)起來(lái)。想發(fā)現(xiàn)誰(shuí)通過IP地址與A關(guān)聯(lián)起來(lái),這是個(gè)簡(jiǎn)單圖形,從A開始遍歷,沿著外出到IP節(jié)點(diǎn)的邊緣,然后從IP節(jié)點(diǎn)進(jìn)入 到用戶節(jié)點(diǎn)。
    • 很難擴(kuò)展圖形數(shù)據(jù)庫(kù)。傳統(tǒng)的數(shù)據(jù)庫(kù)擴(kuò)展方法是分段(sharding)。由于圖形的性質(zhì)(互相關(guān)聯(lián)的節(jié)點(diǎn)),幾乎不可能對(duì) 圖形分段。你可能想要考慮根據(jù)你的獨(dú)特?cái)?shù)據(jù)進(jìn)行分區(qū)。比如說(shuō),如果欺騙攻擊由特定的國(guó)家來(lái)區(qū)別,或受制于特定的國(guó)家,也許可以把屬于同一個(gè)國(guó)家的實(shí)體扔入 到單一圖形數(shù)據(jù)庫(kù)節(jié)點(diǎn),每個(gè)國(guó)家及/或地區(qū)有各自的節(jié)點(diǎn)。

日志

  • 例子:決策時(shí)的所有數(shù)據(jù)點(diǎn)及數(shù)值;用戶的會(huì)話和點(diǎn)擊流數(shù)據(jù)。
  • 目的:值得關(guān)注的活動(dòng)發(fā)生時(shí),可以深入了解狀態(tài)信息非常重 要,因?yàn)槭潞?,?shù)據(jù)點(diǎn)可能被新的數(shù)值覆蓋。知道時(shí)間點(diǎn)的數(shù)值有助于a)調(diào)查研究和b)訓(xùn)練你的模型。用戶如何使用你的服務(wù)和網(wǎng)站,他們?cè)L問哪些頁(yè)面,訪問 順序怎樣,他們花了多少時(shí)間,這些都是值得關(guān)注的數(shù)據(jù),可以區(qū)別正常使用模式和欺詐使用模式。
  • 技術(shù)挑戰(zhàn):
    • 數(shù)據(jù)庫(kù)可以用來(lái)跟蹤這些數(shù)據(jù)點(diǎn),但是這些是日志數(shù)據(jù),從不變化,支持事務(wù)的聯(lián)機(jī)數(shù)據(jù)庫(kù)是大材小用。
    • 日志系統(tǒng)是非常適合于此的完美工具??梢詫⑺鼈冇浫氲轿募到y(tǒng)日志文件,讓它們定期傳輸?shù)介L(zhǎng)期存儲(chǔ)系統(tǒng),比如Flume和HDFS;或者使用Kafka將它們發(fā)布到數(shù)據(jù)流,讓它們?cè)谔幚砗螅谰眯员4娴介L(zhǎng)期存儲(chǔ)系統(tǒng)。

至于規(guī)則和模型,敬請(qǐng)關(guān)注下幾期文章。

原文標(biāo)題:Data Architecture in an Anti-Fraud Architecture

【51CTO.com獨(dú)家譯文,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明來(lái)源】

責(zé)任編輯:Ophira 來(lái)源: 51CTO.com
相關(guān)推薦

2024-05-09 12:01:37

2011-03-29 13:11:49

混合云架構(gòu)

2015-09-17 10:30:45

2015-09-25 10:46:48

2020-11-04 09:41:07

大數(shù)據(jù)信貸技術(shù)

2020-11-12 18:48:54

安全電商數(shù)據(jù)中臺(tái)

2022-09-12 07:59:13

操作系統(tǒng)LVM模式

2023-07-31 07:43:29

保險(xiǎn)反欺詐前沿技術(shù)

2017-02-11 09:58:19

2023-03-05 20:28:49

數(shù)據(jù)數(shù)據(jù)集架構(gòu)

2018-12-24 11:13:32

WOT2018AI人工智能

2023-06-05 12:59:03

2022-06-06 07:52:41

反欺詐技術(shù)AI

2021-08-05 11:27:06

瑞數(shù)信息Gartner安全

2016-07-01 15:36:18

云計(jì)算

2015-10-15 15:56:51

大數(shù)據(jù)金融互聯(lián)網(wǎng)

2019-09-29 08:32:08

Docker容器模塊

2020-01-10 09:44:30

Docker容器模塊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)