自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里巴巴數據穩(wěn)定性治理實踐

大數據
天下數倉工程師苦值班久矣,面對大規(guī)模的數據處理任務,復雜的處理鏈路與層次結構,數據團隊在數據穩(wěn)定性保障方面通常面臨較大的壓力。今天主要以平臺建設方的視角,結合穩(wěn)定性治理的實際場景,將阿里多年來基于自身特點總結出的數據穩(wěn)定性治理的實踐經驗與探索,與大家進行分享。

一、阿里在數據穩(wěn)定性保障中遇到的問題

1、阿里大數據工作開展架構

圖片

阿里大數據計算的離線數據處理部分,主要是基于MaxCompute引擎+DataWorks大數據開發(fā)治理平臺來完成日常的數據開發(fā)管理工作。平臺產品方在響應數據研發(fā)、數據管理等團隊的數據治理需求過程中,通過沉淀的相關規(guī)范和方法論,逐步積累落地到平臺產品模塊中,形成了完整的大數據開發(fā)治理鏈路。

阿里內部通過這樣一套統(tǒng)一的大數據計算技術體系,來支撐不同的業(yè)務的發(fā)展和創(chuàng)新。從最早的淘寶、天貓電商業(yè)務,到后續(xù)的優(yōu)酷、高德、菜鳥等板塊,業(yè)務的蓬勃發(fā)展,帶來了單日EB級的數據處理量,DataWorks上單日千萬級別的數據處理調度實例數,以及高達50多種的復雜業(yè)務依賴關系。

高并發(fā)的數據任務背后,是上萬名平臺數據工作者,進行日常的數據加工與運維管理分析,以滿足業(yè)務對于各種場景下的數據要求以及各類數據治理需求。

圖片

2、數據穩(wěn)定性問題的常見表現

通常業(yè)務方對于數據的基本要求為每天能夠準時看到正確的數據,越重視數據即時交互與用戶體驗的應用場景,對于數據穩(wěn)定性的要求也越高。因此數據團隊除了進行本身的數據研發(fā)以外,最關鍵的問題是保障數據的穩(wěn)定產出。

圖片

面對如此大規(guī)模的數據處理任務、如此復雜的處理鏈路與層次結構,數據團隊在穩(wěn)定性保障方面也面臨不小的壓力,數據運維機制應運而生。最直接的方式是用人力來保障數據產出。針對數據問題,平臺提供了各類告警方式,比如通過短信、電話、郵件、釘釘等快速地發(fā)送告警信息。

但在人力保障過程中,一方面,大量的離線處理在夜間執(zhí)行,出現問題后值班人員需要整夜盯盤和響應異常;另一方面,問題處理可能需依賴上下游協調,跨團隊、跨業(yè)務的協作排查效率較低;有的還需等待集群計算資源,這導致值班工作變成辛苦、低效且耗時很長的過程。

同時,這種運維值班加單任務負責人問題響應機制并沒有在本質上解決數據穩(wěn)定性問題,數據產出失敗、產出延遲、數據異常等問題依然屢屢發(fā)生。這些問題通常由多種因素引起,有可能是代碼本身或配置錯誤,有可能是平臺資源的問題,也有可能是上游源頭側的級聯問題,甚至是人員誤操作、系統(tǒng)誤識別及誤報等問題。

圖片

以上圖中的真實案例為例,問題的解決也常常面臨著責任機制、優(yōu)先級分配、上下游協作機制等現實資源瓶頸問題,導致處理效果不佳。所引起的客戶投訴和資損故障,在不斷地提醒數倉團隊重視數據穩(wěn)定性問題。

二、阿里數據穩(wěn)定性治理方案

1、數據穩(wěn)定性治理原則

圖片

實際上,數據穩(wěn)定性保障的問題根源在于人力資源及計算資源是有限的,大量的數據交互與人員交互又是不可避免的。為了解決復雜數據鏈路系統(tǒng)里的這些問題,數據團隊在不斷地升級優(yōu)化數據穩(wěn)定性治理方案。基于數據是服務于業(yè)務的前提,結合業(yè)務方對于客戶的承諾,以及業(yè)務的優(yōu)先級來評估需要投入的運維力量,設置對應的數據產出約定。

數據穩(wěn)定性治理的原則,即為,通過合理的人力協作及治理工作,高效保障業(yè)務所需的重點數據,能及時、準確產出,滿足數據對業(yè)務的約定。實現重要數據重點保障,嚴重問題優(yōu)先處理,故障機制掛鉤責任機制。

2、如何定義重點數據

圖片

首先要定義出重點數據。通過對業(yè)務部門的應用進行盤點,劃分應用等級,數據資產的話也會根據其支撐的業(yè)務應用去評定資產等級,高等級資產一般會配備高等級的穩(wěn)定性保障。有了這樣的級別標簽之后,則可以建立配套的故障等級機制。一般來說,數據異常時長越久、資產等級越高,對應的故障級別越高。故障會有對應的責任團隊去認領、復盤,以及保障運維資源。

3、如何保障重點數據的及時性與準確性

圖片

那么如何去保障數據重點數據的及時性和準確性呢?以單點運維保障機制來講,建設初期的時候,數據節(jié)點少,數據鏈路少,可以通過責任人做監(jiān)控運維的方式,對每個節(jié)點進行監(jiān)控。但是在數據鏈路復雜了之后,不同的角色都要對自己負責的單點任務或者單點表去進行梳理和運維,導致在配置單點監(jiān)控告警時,配置邏輯繁雜,且基于人肉識別的方式難以準確地完成監(jiān)控運維保障。傳統(tǒng)的單任務監(jiān)控機制只適用于小規(guī)模團隊的監(jiān)控配置。

圖片

真正面向于應用去做對應的監(jiān)控配置時,穩(wěn)定性治理方案的最大轉變,其實就是把單任務監(jiān)控轉為全鏈路的基線監(jiān)控。按照業(yè)務優(yōu)先級,結合全鏈路數據血緣梳理出與最終產出節(jié)點相關聯的數據任務節(jié)點。如上圖示例,圖中的K節(jié)點和L節(jié)點為分別給到不同業(yè)務方的產出節(jié)點,通過血緣可以梳理出數據工作流。對應的監(jiān)控,只需要在 DataWorks里面配置我們稱之為基線監(jiān)控的兩條鏈路就可以?;€針對核心應用對應的任務組,包括產出的上下游所有節(jié)點。通過基線能提高對業(yè)務或產品整體運行情況的認知,并前瞻性的予以優(yōu)化以保障其穩(wěn)定。

圖片

基線鏈路信息中包含了產出時間要求、告警余量、報警方式、接收人等。系統(tǒng)就會根據基線鏈路設定的基線優(yōu)先級,識別穩(wěn)定性保障重要程度,分配計算資源與調度資源。

圖片

基線可保障核心任務資源穩(wěn)定。按照優(yōu)先級為核心數據產出進行重要性分級,高優(yōu)先級任務會獲得更多的調度與計算資源。平臺每隔30秒會識別目前的資源情況,進行資源向重點任務傾斜與自動調整,減輕相關責任人的告警處理工作量。那如果在系統(tǒng)自動調整的情況下,基線任務還是沒有辦法按時產出,則會通知到當日的值班人員,提前干預延遲任務來保障最終的基線不會破線引起故障。

圖片

在穩(wěn)定性治理方案中,除了對數據及時性的保障,還需要對數據準確性進行治理?;谝酝涷?,數據準確性的問題,大概40%來自于數據源頭方的變動和一些數據質量問題,因此數據鏈路源頭側的業(yè)務數據也應引入到整體的保障機制里。通過DataWorks數據質量規(guī)則保障重點數據的準確性,在數據引入層設置好對應的監(jiān)控數據穩(wěn)定性相關的質量規(guī)則,如果出現了問題,則通過數據質量的強規(guī)則機制提前去阻斷任務,讓基線監(jiān)控告警提前暴露出風險。

4、如何實現合理的團隊協同

圖片

基于數據穩(wěn)定性治理研發(fā)協作流程,穩(wěn)定性治理團隊基于基線協調各環(huán)節(jié)保障。在研發(fā)過程中,數據研發(fā)和數據測試需要對數據的穩(wěn)定性進行事前保障,研發(fā)類角色與運維類角色進行事中監(jiān)控,事后再與質量團隊協同進行問題的復盤,共同建立各角色、各流程中有共識的數據穩(wěn)定性保障規(guī)則。

圖片

同時需完善角色設置與責任認定機制。設置基線評審委員會和基線評審小組來確定基線的合理性,評審基線的等級是否合理;設置基線負責人角色,作為基線的第一責任人,進行基線的整體管理,關注基線的風險,推動任務責任人與質量負責人以及平臺的資源運維方去評估風險,解決問題;設置任務負責人角色,了解運維保障的機制和規(guī)范,保障任務問題能夠及時響應和處理;基線保障的業(yè)務方負責人,需為業(yè)務訴求的合理性做背書,輔助基線負責人推動基線優(yōu)化落地;計算平臺側負責人,則需要關注資源情況是否符合基線的穩(wěn)定性要求,執(zhí)行應急運維的操作,如資源的擴容、優(yōu)先級調整等。

三、阿里數據穩(wěn)定性治理實踐

圖片

基于DataWorks的常見分析和處理手段,最直接的產品工具界面其實就是基線下鏈路運行的甘特圖。甘特圖展現了節(jié)點任務的先后順序,每個單點任務的實際運行時間和預估運行時間、預警時間與破線時間?;诨€運維的告警一般分為兩類,一是執(zhí)行之前的提前預警,二是執(zhí)行之后的即時告警。通過甘特圖可對影響產出的超長任務、調度依賴配置錯誤、單點運行失敗、全鏈路運行緩慢等問題進行識別與預警。下面是幾個實例。

圖片

上圖是一個超長任務的例子,在基線實例已經生成,但還未運行前,就對破線風險進行了預警。

圖片

上圖是一個調度依賴配置錯誤的例子。

圖片

上圖是實際運行中的排查,一個單點運行失敗的例子。如果在歷史產出時間節(jié)點前還沒有處理好,就會有一些應急手段來保證數據產出。

圖片

上圖反應的是全鏈路的運行變慢,但沒有特別突出的問題,通常是集群資源不足導致的,需要及時進行資源優(yōu)化和擴容操作。

圖片

圖片

基線應用團隊總結歸納了實際運維中的常用應急操作,比如停止任務、重跑、續(xù)跑、解除依賴、置成功等操作。

圖片

針對上游業(yè)務、數倉流程和平臺引擎在日常的基線告警治理過程中出現的問題,進行了梳理和分類,找到問題根因和對應的優(yōu)化方式,形成了《故障處理手冊》。

圖片

評估穩(wěn)定性治理的效果,兩個核心指標就是基線的破線率和運維人員的起夜率。若破線率和起夜率在逐步下降,或者穩(wěn)定在很低值的時候,則可以說明數據穩(wěn)定性是做得較好的。

圖片

以內部某數倉團隊為例,經過穩(wěn)定性治理后,破線率和起夜率都大幅下降。整體數據運維和研發(fā)的效率都有了大幅提升,這就是穩(wěn)定性治理的意義所在。

四、事前穩(wěn)定性治理探索

圖片

穩(wěn)定性問題更重要的是能在事前就進行預防和消除。治理工作在數據研發(fā)的全鏈路中,將實踐中沉淀下來的主動化治理手段融入到各個環(huán)節(jié)中去,構建主動規(guī)范建模、主動規(guī)范校驗、自動質量監(jiān)控等治理策略。

圖片

事前的主動規(guī)范數據建模,需要在數據建模系統(tǒng)中,先設定數據標準,形成模型評審機制,明確數據指標對應的標準規(guī)范、口徑與質量要求。

圖片

有了明確的標準要求后,可基于DataWorks數據治理中心內置檢查項,對于治理問題的新增引入進行自動預防攔截,提升事前問題攔截率。

圖片

數據穩(wěn)定性治理的目標為打造主動式,可量化、可持續(xù)的全鏈路數據治理。將DataWorks的數據治理融入開發(fā)流程,拋棄“先開發(fā)后治理”的模式,保障DataWorks的數據治理成效可量化、可持續(xù)運營,避免“應對式治理”。

圖片

我們也已將穩(wěn)定性治理的經驗提供給了阿里云上的用戶來使用,歡迎大家來參與DataWorks相關的試用活動,希望能幫助更多企業(yè)找到更好的可落地的數據治理方案。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-04-26 18:36:13

2023-03-01 18:32:16

系統(tǒng)監(jiān)控數據

2023-06-20 07:46:27

數據治理大數據建設

2024-12-05 09:12:43

2023-08-28 06:58:40

2023-10-26 06:55:46

大數據數據倉庫

2022-05-13 12:14:44

CSS項目技能

2019-01-29 15:25:11

阿里巴巴數據庫分庫分表

2023-08-22 14:29:05

大前端

2022-09-16 08:23:22

Flink數據湖優(yōu)化

2022-05-05 19:20:24

數據系統(tǒng)穩(wěn)定性峰會數據系統(tǒng)

2010-06-28 10:43:47

2022-09-15 08:33:27

安全生產系統(tǒng)Review

2023-06-30 08:43:36

2013-08-22 09:41:52

阿里巴巴去IOE王堅

2023-05-30 07:27:45

高可用架構流量

2025-02-11 10:13:05

2023-11-26 17:51:00

阿里云故障本質

2018-01-02 09:23:38

數據分析算法阿里巴巴
點贊
收藏

51CTO技術棧公眾號