自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

螞蟻集團(tuán) EB 級(jí)大數(shù)據(jù)治理架構(gòu)與實(shí)踐

大數(shù)據(jù)
本文將分享螞蟻集團(tuán)在大數(shù)據(jù)治理實(shí)踐過程中沉淀的經(jīng)驗(yàn)。螞蟻的數(shù)據(jù)來源眾多,包括行為日志、系統(tǒng)服務(wù)端收集的數(shù)據(jù)等。從類型上看,有DB 類、日志類、log 類等,還有消息類的和非結(jié)構(gòu)化的數(shù)據(jù)。

一、數(shù)據(jù)治理概況

業(yè)界對(duì)于數(shù)據(jù)治理的定義有很多種,螞蟻在數(shù)據(jù)治理時(shí)主要關(guān)注對(duì)企業(yè)運(yùn)轉(zhuǎn)非常關(guān)鍵的架構(gòu)、安全、合規(guī)、質(zhì)量和價(jià)值這五個(gè)方面。

圖片

為什么是這五個(gè)方面呢?

  • 首先,要保證整個(gè)數(shù)據(jù)在業(yè)務(wù)上是可以流轉(zhuǎn)起來的、是可用的,包含兩個(gè)基本要求:首先是要符合最近關(guān)注度非常高的用戶隱私、反洗錢等監(jiān)管法律的要求,保障數(shù)據(jù)是合規(guī)的;第二是要保證數(shù)據(jù)在各個(gè)環(huán)境上的存儲(chǔ)、流轉(zhuǎn)和使用都是安全的。這些是在安全合規(guī)領(lǐng)域要重點(diǎn)去解決的問題。
  • 其次,交付給業(yè)務(wù)的數(shù)據(jù)不能錯(cuò)漏,也不能延遲,這屬于數(shù)據(jù)質(zhì)量范疇,這個(gè)領(lǐng)域主要解決讓業(yè)務(wù)敢用數(shù)據(jù)的問題。
  • 另外,大數(shù)據(jù)領(lǐng)域有非常多的人在協(xié)同開發(fā),希望產(chǎn)出的數(shù)據(jù)是有序的,既是可復(fù)用的又是好用的,所以,需要重點(diǎn)做好數(shù)據(jù)架構(gòu)的規(guī)劃和治理,包括數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和主數(shù)據(jù)等。
  • 最后,數(shù)據(jù)是一個(gè)閉環(huán)的生態(tài),從拿到數(shù)據(jù)到加工數(shù)據(jù),再到賦能業(yè)務(wù),希望整個(gè)過程是可持續(xù)的,在這個(gè)可持續(xù)的過程中需要有數(shù)據(jù)價(jià)值的體現(xiàn)。價(jià)值可以分成兩類,一類是負(fù)向的價(jià)值成本,包括數(shù)據(jù)運(yùn)轉(zhuǎn)過程中計(jì)算、存儲(chǔ)、數(shù)據(jù)資產(chǎn)帶來的機(jī)器資源成本;另一類是正向的業(yè)務(wù)價(jià)值,是指數(shù)據(jù)被使用消費(fèi)過程中發(fā)揮的價(jià)值。業(yè)界一直在關(guān)注數(shù)據(jù)的正向價(jià)值,從數(shù)據(jù)要素來講,核心是將數(shù)據(jù)從原來的資源或者產(chǎn)品,轉(zhuǎn)化成面向未來的商品。對(duì)數(shù)據(jù)價(jià)值的衡量是未來一大趨勢(shì)。

本次分享聚焦于其中的兩個(gè)命題:數(shù)據(jù)質(zhì)量治理和計(jì)存治理。接下來將分別進(jìn)行介紹。

二、數(shù)據(jù)質(zhì)量治理

1. 數(shù)據(jù)質(zhì)量產(chǎn)生分析

圖片

螞蟻的數(shù)據(jù)來源眾多,包括行為日志、系統(tǒng)服務(wù)端收集的數(shù)據(jù)等。從類型上看,有DB 類、日志類、log 類等,還有消息類的和非結(jié)構(gòu)化的數(shù)據(jù)。大模型出來之后,我們通過一系列工具,將這些數(shù)據(jù)都存儲(chǔ)到了螞蟻一站式的大數(shù)據(jù)工作平臺(tái)上,經(jīng)過批流的處理進(jìn)行分析洞察、決策服務(wù)。也就是說,數(shù)據(jù)從業(yè)務(wù)中來,通過模型算法加工,最終又回到了業(yè)務(wù)中去。整個(gè)流轉(zhuǎn)過程非常復(fù)雜,涉及到很多的工具引擎,中間任何環(huán)節(jié)和操作都可能引發(fā)數(shù)據(jù)質(zhì)量問題。提供給業(yè)務(wù)的數(shù)據(jù)錯(cuò)了、漏了或者延遲了,是經(jīng)常遇到的一個(gè)痛點(diǎn)。

2. 數(shù)據(jù)質(zhì)量治理挑戰(zhàn)

在介紹螞蟻如何進(jìn)行數(shù)據(jù)質(zhì)量治理之前,先來了解一下螞蟻的業(yè)務(wù)形態(tài)。第一部分是大家感知的“冰山之上”的 C 端業(yè)務(wù),包含芝麻分、螞蟻森林、花唄、借唄等;第二部分是面向機(jī)構(gòu)監(jiān)管的“冰山之下”的業(yè)務(wù),包括機(jī)構(gòu)清算、計(jì)息、計(jì)提等,這些業(yè)務(wù)需要大量的技術(shù)支撐,甚至是數(shù)據(jù)加算法融匯,以追求價(jià)值的最大化。在金融業(yè)務(wù)極度嚴(yán)苛的要求下,做好整體的數(shù)據(jù)質(zhì)量保障是非常重要的。

圖片

數(shù)據(jù)質(zhì)量治理面臨著諸多挑戰(zhàn),主要包括:

  • 業(yè)務(wù)方面:螞蟻業(yè)務(wù)發(fā)展快,變更非常多,任何一次變更出錯(cuò)都可能有很大的影響。無論從用戶體驗(yàn),還是智能化角度,對(duì)數(shù)據(jù)產(chǎn)出的時(shí)效都有非常高的要求。
  • 數(shù)據(jù)方面:大部分是金融層面的業(yè)務(wù),對(duì)數(shù)據(jù)質(zhì)量的要求也非常高。
  • 用戶方面:整條鏈路上有非常多的角色參與,比如有 BI 團(tuán)隊(duì)、技術(shù)團(tuán)隊(duì)、數(shù)據(jù)團(tuán)隊(duì)和產(chǎn)品運(yùn)營(yíng)團(tuán)隊(duì)等等。每個(gè)人的基本認(rèn)知和專業(yè)水平都不一樣,人為操作可能也會(huì)帶來一定的風(fēng)險(xiǎn)。

目前螞蟻整體日均變更任務(wù)量在幾千次以上,每天日運(yùn)行任務(wù)調(diào)度實(shí)例達(dá)到了百萬次以上,數(shù)據(jù)應(yīng)用的核心消費(fèi)場(chǎng)景有數(shù)萬個(gè),數(shù)據(jù)質(zhì)量已經(jīng)成為螞蟻業(yè)務(wù)發(fā)展的基石和驅(qū)動(dòng)器之一。這也是為什么今天螞蟻非常重視數(shù)據(jù)質(zhì)量建設(shè)的原因。

3. 數(shù)據(jù)質(zhì)量頂層設(shè)計(jì)

在這么復(fù)雜的情況下,怎么解決數(shù)據(jù)質(zhì)量的問題呢?單點(diǎn)處理問題很難全面保障數(shù)據(jù)質(zhì)量,很有可能拆東墻補(bǔ)西墻,或者這里解決了那里卻漏掉了。進(jìn)行全面的數(shù)據(jù)質(zhì)量治理,需要有良好的頂層設(shè)計(jì),我們將風(fēng)險(xiǎn)分成三類:數(shù)據(jù)技術(shù)引擎風(fēng)險(xiǎn)、數(shù)據(jù)內(nèi)容風(fēng)險(xiǎn)及數(shù)據(jù)應(yīng)用風(fēng)險(xiǎn)。

圖片

具體落地的核心思路如下。首先,保障目標(biāo)重點(diǎn)聚焦于高可用和資金安全業(yè)務(wù)場(chǎng)景:

  • 事前,做到整體的研發(fā)質(zhì)量保障,包括測(cè)試、仿真等工作;
  • 事中,重點(diǎn)解決變更風(fēng)險(xiǎn)的管控;
  • 事后,當(dāng)出現(xiàn)問題的時(shí)候,要確保整個(gè)生產(chǎn)運(yùn)行是高可用的,需要重點(diǎn)建設(shè)主動(dòng)發(fā)現(xiàn)和快速恢復(fù)的能力。
  • 另外,還成立了數(shù)據(jù)和技術(shù)的聯(lián)合藍(lán)軍對(duì)整個(gè)保障體系去做攻擊,來驗(yàn)證布防是否可靠。

4. 數(shù)據(jù)質(zhì)量治理架構(gòu)

圖片

從縱向來看,螞蟻的數(shù)據(jù)質(zhì)量治理架構(gòu)總體分為三層:

  • 能力層,包含質(zhì)量管控、質(zhì)量識(shí)別、故障恢復(fù)和風(fēng)險(xiǎn)治理的能力,并建立了統(tǒng)一質(zhì)量元數(shù)據(jù)中心,為后面 AI 加質(zhì)量的嘗試及相關(guān)能力的演進(jìn)打下了一個(gè)非常好的基礎(chǔ)。建議在做質(zhì)量風(fēng)險(xiǎn)保障時(shí),要重視元數(shù)據(jù)的建設(shè),而且前期就要做好規(guī)劃。同時(shí),圍繞元數(shù)據(jù),我們結(jié)合大規(guī)模機(jī)器學(xué)習(xí)等算法去嘗試探索智能化的波動(dòng)、異常、離散等異常及風(fēng)險(xiǎn)點(diǎn)的識(shí)別。
  • 系統(tǒng)層,主要圍繞數(shù)據(jù)測(cè)試、發(fā)布管控、變更管理、質(zhì)量監(jiān)控、應(yīng)急演練和質(zhì)量治理建設(shè)六大產(chǎn)品的能力。
  • 業(yè)務(wù)層,作為數(shù)據(jù)中臺(tái),產(chǎn)品能力開放給業(yè)務(wù)數(shù)據(jù)團(tuán)隊(duì)、質(zhì)量團(tuán)隊(duì)使用,幫助建設(shè)每個(gè)業(yè)務(wù)數(shù)據(jù)質(zhì)量的門戶,包含整個(gè)應(yīng)用分級(jí)管控研發(fā)流程、全鏈路的質(zhì)量監(jiān)控運(yùn)維平臺(tái)等。

從橫向來看,質(zhì)量治理貫穿全鏈路系統(tǒng),并建設(shè)了組織文化和制度規(guī)范。組織文化包含數(shù)據(jù)攻防、質(zhì)量審計(jì)、質(zhì)量保障小組等,做到了全局高效拉通。制度規(guī)范包含質(zhì)量保障規(guī)范、基線管理手冊(cè)、發(fā)布變更手冊(cè)等,形成了全局制度上的規(guī)范。

在整個(gè)實(shí)施過程中,重點(diǎn)是以止損量/故障數(shù)核心指標(biāo)為抓手,發(fā)現(xiàn)保障體系里面的問題,通過核心指標(biāo)驅(qū)動(dòng)整個(gè)體系持續(xù)地迭代和優(yōu)化。

5. 數(shù)據(jù)質(zhì)量治理方案

接下來深入介紹數(shù)據(jù)質(zhì)量治理圍繞事前、事中、事后的技術(shù)能力。技術(shù)上處理離線數(shù)據(jù)故障有一個(gè)核心目標(biāo)——“五分鐘內(nèi)發(fā)現(xiàn)故障,五十分鐘內(nèi)恢復(fù)執(zhí)行”。處理線上數(shù)據(jù)故障的目標(biāo)是“一分鐘發(fā)現(xiàn)問題,五分鐘定位問題,十分鐘恢復(fù)執(zhí)行”。之所以離線和線上的目標(biāo)不同,是因?yàn)殡x線數(shù)據(jù)整條鏈路比較長(zhǎng),定位和恢復(fù)需要較長(zhǎng)的時(shí)間,另外,當(dāng)前的故障發(fā)現(xiàn)能力、元數(shù)據(jù)時(shí)效性等也存在一定局限性。

圖片

執(zhí)行的核心策略包括事前、事中、事后三部分。

  • 事前要做到可管控、可仿真和可灰度,在需求階段做分級(jí)變更定義,在研發(fā)階段做規(guī)范、測(cè)試和發(fā)布,在預(yù)發(fā)階段做仿真回放和 AB 灰度;
  • 事中要做到可監(jiān)控、可演練、可應(yīng)急,數(shù)據(jù)全鏈路和應(yīng)急監(jiān)控等各個(gè)環(huán)節(jié)都能做演練和巡檢;
  • 事后要做到可度量、可審計(jì)和可持續(xù),包括事件管理、問題故障審計(jì)報(bào)告、案例學(xué)習(xí)和晉級(jí)可晉級(jí)考試等,螞蟻每年會(huì)有一次公司級(jí)別的數(shù)據(jù)紅藍(lán)攻防,也有一年兩到三次的必須參加的安全生產(chǎn)晉級(jí)考試的運(yùn)營(yíng)活動(dòng)。

6. 數(shù)據(jù)質(zhì)量治理案例

(1)數(shù)據(jù)變更免疫

數(shù)據(jù)變更免疫的核心目標(biāo)是希望讓錯(cuò)誤代碼不發(fā)布到生產(chǎn)。為了實(shí)現(xiàn)這一目標(biāo)構(gòu)建了幾道防線:事前構(gòu)建變更準(zhǔn)入防線,將變更必須滿足的“三板斧”要求、發(fā)布窗口要求等風(fēng)險(xiǎn)底線要求植入到變更準(zhǔn)入的防線;事中構(gòu)建變更灰度防線,在變更生效之前,用真實(shí)的流程去預(yù)驗(yàn)驗(yàn)證,提前發(fā)現(xiàn)問題;事后重點(diǎn)是變更監(jiān)控,變更生效之后,能夠持續(xù)監(jiān)控變更的業(yè)務(wù)變化,有問題快速進(jìn)行恢復(fù)。

下面這張圖,是面向發(fā)布環(huán)節(jié)研發(fā)的發(fā)布管控產(chǎn)品。

圖片

所有的變更在通過該產(chǎn)品發(fā)布都需要進(jìn)行校驗(yàn),類似于現(xiàn)在業(yè)界比較火 DataOps,將測(cè)試、灰度、仿真、監(jiān)控全部納入到流程中,做到在發(fā)布的時(shí)候自動(dòng)化地進(jìn)行質(zhì)量監(jiān)控和巡檢。

(2)紅藍(lán)攻防

紅藍(lán)攻防的核心思路是通過故障的注入,對(duì)生產(chǎn)鏈路進(jìn)行模擬攻擊,發(fā)現(xiàn)防控體系的薄弱點(diǎn)。

圖片

模擬在線環(huán)境,用任務(wù)攻擊和數(shù)據(jù)攻擊兩種方法進(jìn)行攻擊。在進(jìn)行數(shù)據(jù)紅藍(lán)攻防的過程中需要解決三個(gè)核心問題:

  • 如何不影響生產(chǎn)?因?yàn)閿?shù)據(jù)是一條鏈,上游污染了,整條數(shù)據(jù)就污染了,而且恢復(fù)成本極高。在生產(chǎn)環(huán)境中,構(gòu)建仿真無損環(huán)境進(jìn)行無差別的供給,通過攻防平臺(tái)相應(yīng)的數(shù)據(jù)鏈路在無損環(huán)境里面去植入,從而不影響生產(chǎn)環(huán)境。
  • 如何選擇攻擊對(duì)象?主要選擇數(shù)據(jù)入口,比如數(shù)據(jù)同步、回流任務(wù)、人群標(biāo)簽、有時(shí)效性保障的業(yè)務(wù)基線場(chǎng)景等,要重點(diǎn)關(guān)注有止損、有輿情的場(chǎng)景,比如算錢等更重要的且效果更顯性化的場(chǎng)景。
  • 如何有效地攻擊?要確保所有的攻擊字段能夠幫助業(yè)務(wù)發(fā)現(xiàn)有效的生產(chǎn)風(fēng)險(xiǎn),核心是通過歷史故障的分析和平移,以及重大業(yè)務(wù)變更的演練。另外,在核心的攻擊能力方面,構(gòu)建了 SQL 注入等能力,以及數(shù)據(jù)大幅度波動(dòng)、內(nèi)容格式突然異常、資金字段錯(cuò)位、任務(wù)重復(fù)的回流等多種方法。

紅藍(lán)攻防在螞蟻連續(xù)組織了四到五年,整個(gè)公司級(jí)別的紅藍(lán)攻防自動(dòng)化的攻擊次數(shù)達(dá)到四十多萬次,推動(dòng)數(shù)據(jù)質(zhì)量核對(duì)規(guī)則和配置超過了五十萬家,也發(fā)現(xiàn)了非常多的潛在問題。

三、數(shù)據(jù)計(jì)存治理

1. 數(shù)據(jù)計(jì)存治理面臨的挑戰(zhàn)

下面這張圖是 2019 年螞蟻離線集群存儲(chǔ)使用率的曲線圖,安全存儲(chǔ)的水位線是 85%,一旦超過了 85% 就可能引發(fā)異常問題。從圖中不難發(fā)現(xiàn),2019 年下半年集群存儲(chǔ)使用率都在 85% 以上,當(dāng)時(shí)出了不少安全生產(chǎn)問題。

圖片

計(jì)存治理會(huì)影響到安全生產(chǎn)。當(dāng)時(shí)集群的物理容量規(guī)模已經(jīng)達(dá)到了 EB 級(jí),大概有幾百萬張數(shù)據(jù)表,參與數(shù)據(jù)研發(fā)的人員數(shù)量是幾千級(jí)別的。在這樣一個(gè)背景下,我們開始思考計(jì)存治理的方案。

2. 數(shù)據(jù)計(jì)存治理核心思路

圖片

計(jì)存治理的核心思路是從組織設(shè)計(jì)、規(guī)范制定和平臺(tái)建設(shè)三個(gè)方面去落地。執(zhí)行的時(shí)候,通過戰(zhàn)役拉動(dòng)支撐整個(gè)業(yè)務(wù)并進(jìn)行資產(chǎn)升級(jí),通過運(yùn)營(yíng)活動(dòng)進(jìn)行成本規(guī)范的傳播和文化的建設(shè)。

  • 在組織設(shè)計(jì)層面,成立了數(shù)據(jù)架構(gòu)小組。從架構(gòu)域的維度統(tǒng)籌整個(gè)公司的數(shù)據(jù)架構(gòu)和成本治理的工作。設(shè)立數(shù)據(jù)管理崗位和晉升的通道,制定研發(fā)協(xié)作機(jī)制和流程。其中,數(shù)據(jù)管理的崗位和晉升通道的設(shè)置非常關(guān)鍵,因?yàn)閿?shù)據(jù)治理和數(shù)據(jù)管理,與數(shù)據(jù)研發(fā),雖然都屬于數(shù)據(jù)域領(lǐng)域,但能力與技能要求是不一樣的,成長(zhǎng)需要以不同的視角去看,所以設(shè)計(jì)了獨(dú)立的晉升通道。
  • 在規(guī)范制定層面,產(chǎn)出了螞蟻數(shù)據(jù)架構(gòu)規(guī)范、研發(fā)管理規(guī)范和數(shù)據(jù)治理管控規(guī)則。
  • 在平臺(tái)建設(shè)層面,研發(fā)側(cè)正向地提升研發(fā)質(zhì)量和管控資產(chǎn)無序增長(zhǎng),治理側(cè)搭建平臺(tái)化的治理工具,形成一套自動(dòng)化的治理機(jī)制。

3. 數(shù)據(jù)計(jì)存治理策略

從開源和節(jié)流兩個(gè)方面具體落地實(shí)施。

圖片


  • 開源:數(shù)倉原來的資源是獨(dú)享的,數(shù)倉和在線是分開的,而且數(shù)倉資源需求量非常大。在線數(shù)據(jù)庫的資源使用率不高,基本在 25% 左右,夜間使用率可能更低,而輸出儲(chǔ)藏在夜間有非常高的計(jì)算資源需求,能不能把在線數(shù)據(jù)庫空閑的資源共享給數(shù)倉離線計(jì)算呢?
  • 節(jié)流:整體邏輯是數(shù)倉從任務(wù)和數(shù)據(jù)的角度盡可能去優(yōu)化和節(jié)約,包含存儲(chǔ)治理、計(jì)算治理、任務(wù)治理。

4. 面向開源的數(shù)據(jù)計(jì)存治理方案

圖片

以前數(shù)倉是獨(dú)立的專用集群,機(jī)器、存儲(chǔ)均獨(dú)立購(gòu)買。為了提供高效服務(wù),在線應(yīng)用會(huì)在本地化進(jìn)行多層部署。要能與在線應(yīng)用混合部署,首先要把數(shù)倉集群的架構(gòu)變更到能跟在線應(yīng)用混部的跨層模式,既可以提升資源利用率,又能保證穩(wěn)定性。如果做成這樣的“機(jī)房架構(gòu)”,有兩個(gè)問題必須解決:首先,如何確保數(shù)倉在高峰期不受在線資源的搶占,保證數(shù)倉高保業(yè)務(wù)在高峰期仍然可以穩(wěn)定運(yùn)行;其次,數(shù)倉有大量的數(shù)據(jù)交互,一旦跨層會(huì)有大量的跨層數(shù)據(jù)訪問,從而帶來大量的網(wǎng)絡(luò)開銷,這也會(huì)直接影響數(shù)倉的正常運(yùn)行。

為了解決這兩個(gè)問題,核心有三件事:

  • 將數(shù)倉應(yīng)用層的數(shù)據(jù)訪問統(tǒng)一收斂到數(shù)據(jù)中間層;
  • 對(duì)數(shù)據(jù)中間層的熱數(shù)據(jù)做跨層冗余;
  • 將業(yè)務(wù)進(jìn)行分級(jí),對(duì)于高保的業(yè)務(wù)給予獨(dú)占的資源,跟在線資源做適當(dāng)?shù)母綦x,防止資源擠占。

存量的數(shù)據(jù)任務(wù)都是開放讀取的,也存在大量的跨層訪問,需要將存量也無風(fēng)險(xiǎn)遷移到整個(gè)混部的集群上來。

圖片

事前做項(xiàng)目規(guī)劃,對(duì)業(yè)務(wù)項(xiàng)目劃分、資源使用進(jìn)行評(píng)估,產(chǎn)出遷移的列表;事中進(jìn)行遷移的改造工作,包括部署巡檢規(guī)則、進(jìn)行代碼改造和架構(gòu)的升級(jí)、部署發(fā)布管控,避免熱度及大表跨集群拷貝等;事后,做日常的巡檢和持續(xù)優(yōu)化,包括對(duì)跨層任務(wù)持續(xù)的監(jiān)控、對(duì)不合理的代碼進(jìn)行改造、對(duì)熱表做集群的緩存等,減少網(wǎng)絡(luò)帶寬帶來的集群負(fù)載。

完成混合部署后,數(shù)倉可以共享在線資源,在沒有額外增加機(jī)器成本的情況下,整個(gè)數(shù)倉增加了 50% 的可用彈性計(jì)算資源,而且數(shù)倉任務(wù)平均等待時(shí)長(zhǎng)降低了 50%,同時(shí),在線應(yīng)用的 CPU 利用率也從 25% 提高到了 40%,從全局來看,資源利用率提升非常明顯。

總結(jié)來說,開源的思路就是在做數(shù)據(jù)治理的時(shí)候不僅僅是只看數(shù)倉,還要將數(shù)倉的上下游及周邊環(huán)節(jié)協(xié)同起來,作為一個(gè)整體來看。

5. 面向節(jié)流的數(shù)據(jù)計(jì)存治理方案

圖片

面向節(jié)流的優(yōu)化可以分成幾類:

  • 引擎優(yōu)化,比如參數(shù)優(yōu)化,調(diào)度優(yōu)化;
  • 模型優(yōu)化,比如數(shù)倉架構(gòu)的鏈路、數(shù)倉設(shè)計(jì)、代碼語法、數(shù)據(jù)壓縮格式等;
  • 代碼優(yōu)化,比如 join 的優(yōu)化、UDF 的優(yōu)化等;
  • 資產(chǎn)管理優(yōu)化,如果整個(gè)鏈路在業(yè)務(wù)上都沒有應(yīng)用,則考慮鏈路的整體下線,實(shí)現(xiàn)更敏捷的下線。

節(jié)流的整體思路就是用技術(shù)的方法提升治理自動(dòng)化率,實(shí)現(xiàn)自動(dòng)識(shí)別、歸因分析、自動(dòng)清理,形成常態(tài)化的管控能力。

下面分享兩個(gè)“小成本,大收益”的案例。

(1)漸進(jìn)計(jì)算

圖片

漸進(jìn)計(jì)算的適用場(chǎng)景是固定窗口或者滑動(dòng)窗口指標(biāo)計(jì)算。有固定起止日期的時(shí)間段叫固定窗口(比如年度、1 月 1 日至今等),有固定時(shí)長(zhǎng)的時(shí)間段叫做滑動(dòng)窗口(比如近 30 天)。固定窗口和滑動(dòng)窗口計(jì)算相同指標(biāo)時(shí)有很多共性,兩者在計(jì)算過程中的中間表是可以復(fù)用的,如果每次查詢都重新計(jì)算就會(huì)造成計(jì)算資源的浪費(fèi)。漸進(jìn)計(jì)算的核心原理是“用空間換時(shí)間”,自動(dòng)生成可持續(xù)滾動(dòng)中間表,將中間計(jì)算的過程表保留下來,每次查詢時(shí)用哈希的方式快速去讀取,不用再重復(fù)計(jì)算。上圖右側(cè)是一個(gè)風(fēng)控業(yè)務(wù)的案例,用漸進(jìn)計(jì)算優(yōu)化后,每天計(jì)算消耗從 795 CU 降到了 22 CU,收益非常顯著。

(2)存儲(chǔ)歸檔

圖片

存儲(chǔ)歸檔適用于數(shù)據(jù)查詢頻次不高的冷數(shù)據(jù)場(chǎng)景。通過對(duì)數(shù)倉數(shù)據(jù)的初步分析發(fā)現(xiàn),一般訪問當(dāng)天數(shù)據(jù)的頻率在 80% 左右,訪問前一天數(shù)據(jù)的頻率在 10%-15% 左右,3 天前的數(shù)據(jù)很少被訪問。同時(shí),考慮到一旦對(duì)冷數(shù)據(jù)進(jìn)行壓縮或者重排之后,存儲(chǔ)空間雖然會(huì)下降,但是讀取時(shí)的計(jì)算性能會(huì)消耗比較大,綜合考慮,將一定時(shí)間內(nèi)(比如 7 天、30 天等)未被讀取的數(shù)據(jù)定為冷數(shù)據(jù),對(duì)其進(jìn)行壓縮處理。當(dāng)然也不是“一刀切”的方式,可以基于更精細(xì)的分析進(jìn)行冷數(shù)據(jù)的定義和處理。

冷數(shù)據(jù)的處理邏輯分為兩類:

一類叫歸檔,核心就是采用 RAID 格式的存儲(chǔ),用 n 個(gè)數(shù)據(jù)塊和 m 個(gè)校驗(yàn)塊的模式建設(shè)歸檔的能力。這樣,用 8 個(gè)數(shù)據(jù)塊和 3 個(gè)校驗(yàn)塊就達(dá)到了 1.375 的備份,一般都是 3 備份。

另一類是重排壓縮,是 distribute 和 sort by 的結(jié)合,與電腦的磁盤整理一樣,當(dāng)很多空間是碎片化存儲(chǔ)的時(shí)候,通過重排壓縮把行與行之間相似的字段壓縮存儲(chǔ)。比如,相鄰兩行都有彭歡,存儲(chǔ)的時(shí)候只存一個(gè)彭歡,并且告知兩行都有彭歡的信息,用這種模式去優(yōu)化存儲(chǔ)。用技術(shù)的方法,不需要進(jìn)行各個(gè)團(tuán)隊(duì)到每個(gè)人的存儲(chǔ)或者優(yōu)化,就可以帶來非常大的收益。在一個(gè)案例中,網(wǎng)關(guān)流量日志重排壓縮后,減少了約 30% 的存儲(chǔ)容量。當(dāng)然在進(jìn)行重排壓縮的時(shí)候也有一些注意事項(xiàng):distribute 環(huán)節(jié)不要將數(shù)據(jù)打散;不適合 Json 串類型字段,重復(fù)率不?;不需要 order by 全局排序,sort by 分區(qū)內(nèi)排序即可;歸檔操作降低了可靠性,不如默認(rèn)的 3 副本。

進(jìn)一步,希望根據(jù)數(shù)據(jù)的冷熱程度,建立自動(dòng)化的識(shí)別和分級(jí)存儲(chǔ)方案,從而實(shí)現(xiàn)成本的分級(jí)優(yōu)化。

圖片

將數(shù)據(jù)分級(jí)成四類,在用戶無感知的情況下進(jìn)行自動(dòng)化的數(shù)據(jù)差異化存儲(chǔ)。

  • 高頻訪問:熱點(diǎn)數(shù)據(jù),1 SSD  + 3 HDD
  • 熱數(shù)據(jù):訪問頻率正常,3HHD
  • 歸檔數(shù)據(jù):數(shù)據(jù)需要長(zhǎng)期保留,訪問頻次低的,1.375 RAID HDD 歸檔模式
  • 冷備存儲(chǔ):數(shù)據(jù)需長(zhǎng)期保留,訪問頻次極低(比如監(jiān)管數(shù)據(jù)等),單獨(dú)建立了冷備集群,壓縮比非常高,但是讀取時(shí)耗費(fèi)的計(jì)算資源比較高,一般是以 90 天的邏輯長(zhǎng)期保留。

四、對(duì)數(shù)據(jù)治理未來的思考

最后,分享對(duì)數(shù)據(jù)治理未來的幾點(diǎn)思考。

  • 一體化:數(shù)據(jù)在哪里治理就在哪里,隨著大模型、ChatGPT、AI 的出現(xiàn),以及螞蟻?zhàn)陨順I(yè)務(wù)的發(fā)展,目前關(guān)注在傳統(tǒng)離線上的數(shù)據(jù)治理,未來會(huì)轉(zhuǎn)變?yōu)榛诤}一體(在線、離線、實(shí)時(shí)、圖計(jì)算等)做一體化的數(shù)據(jù)治理,解決成本、合規(guī)和效率的問題。
  • 價(jià)值化:數(shù)據(jù)作為生產(chǎn)要素,從內(nèi)部的產(chǎn)品變?yōu)榱魍ǖ纳唐?,涉及到共享交易和開放,在數(shù)據(jù)確權(quán)價(jià)值的衡量及隱私保護(hù)方面去探索和突破價(jià)值點(diǎn)。
  • 智能化:加入大模型做更智能的數(shù)據(jù)治理,原來是人工走向規(guī)則,接下來會(huì)探索更智能的方向。
責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2020-11-19 15:01:26

京東大數(shù)據(jù)數(shù)據(jù)平臺(tái)

2024-10-15 08:14:51

2024-04-22 07:56:32

數(shù)據(jù)倉庫數(shù)據(jù)中臺(tái)數(shù)據(jù)服務(wù)

2024-01-11 08:15:52

大數(shù)據(jù)成本治理Hadoop

2024-03-26 06:46:52

大數(shù)據(jù)數(shù)據(jù)治理大數(shù)據(jù)資產(chǎn)治理

2015-05-26 09:41:45

china-pub

2023-04-10 07:34:30

2022-12-30 15:27:13

2024-10-21 08:43:16

2021-06-10 19:10:32

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用大數(shù)據(jù)技術(shù)

2023-06-15 07:24:11

數(shù)據(jù)治理EB級(jí)數(shù)倉

2020-03-06 05:42:47

大數(shù)據(jù)隊(duì)架構(gòu)工作指標(biāo)

2023-04-21 13:15:01

2024-11-13 08:47:24

2021-05-21 16:26:46

數(shù)據(jù)安全治理

2021-09-06 15:39:00

大數(shù)據(jù)技術(shù)醫(yī)療

2023-09-07 20:31:48

外灘大會(huì)螞蟻集團(tuán)圖學(xué)習(xí)系統(tǒng)

2015-06-12 14:20:35

2024-02-19 08:12:15

DIKW 模型指標(biāo)系統(tǒng)數(shù)據(jù)倉庫

2020-07-10 08:50:37

大數(shù)據(jù)銀行技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)