DataOps關(guān)鍵技術(shù)能力模型實(shí)踐
隨著數(shù)字化轉(zhuǎn)型的普及和深入,大數(shù)據(jù)技術(shù)在各類行業(yè)中普遍落地使用,企業(yè)生產(chǎn)、營銷、運(yùn)營等各環(huán)節(jié)中的 數(shù)據(jù)將普遍被采集,數(shù)據(jù)應(yīng)用開發(fā)需求增長與數(shù)據(jù)用戶角色的復(fù)雜致使企業(yè)數(shù)據(jù)開發(fā)、數(shù)據(jù)運(yùn)維工作量以及數(shù)據(jù)應(yīng) 用交付協(xié)調(diào)難度大大增加。海量數(shù)據(jù)的爆發(fā)式增長給數(shù)據(jù)價(jià)值挖掘帶來了一系列的挑戰(zhàn):數(shù)據(jù)孤島阻礙數(shù)據(jù)的共享 與統(tǒng)一,數(shù)據(jù)在各部門間協(xié)作困難,單點(diǎn)自動(dòng)化難以支撐整體效能提升。DataOps作為一種新興的數(shù)據(jù)處理與管理 方法,強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)自動(dòng)化,既能為數(shù)據(jù)工作者提供敏捷的數(shù)據(jù)開發(fā)支持,同時(shí)也簡化了數(shù)據(jù)交付的周期,提升數(shù) 據(jù)生產(chǎn)者與數(shù)據(jù)消費(fèi)者的協(xié)同效率,成為企業(yè)數(shù)字化轉(zhuǎn)型快速釋放數(shù)據(jù)生產(chǎn)力的最佳方案。
1.什么是DataOps
DataOps 是一種數(shù)據(jù)管理實(shí)踐,它通過自動(dòng)化和協(xié)作來提高數(shù)據(jù)的質(zhì)量和分析能力。它借鑒了 DevOps 的原則,將文化、自動(dòng)化、測量和分享的理念應(yīng)用于數(shù)據(jù)管理和分析流程,以實(shí)現(xiàn)數(shù)據(jù)的快速交付和高質(zhì)量管理。DataOps 強(qiáng)調(diào)跨部門的協(xié)作,通過整合數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者,打破數(shù)據(jù)孤島,促進(jìn)團(tuán)隊(duì)之間的協(xié)作,從而提高數(shù)據(jù)的可用性和分析的準(zhǔn)確性。
DataOps 的關(guān)鍵能力包括數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、任務(wù)運(yùn)維等全鏈路數(shù)據(jù)處理能力,以及數(shù)據(jù)地圖、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等數(shù)據(jù)治理和運(yùn)營能力。它通過自動(dòng)化技術(shù)簡化數(shù)據(jù)管理功能,如數(shù)據(jù)傳輸、流程自動(dòng)化等,以提高數(shù)據(jù)的可用性和準(zhǔn)確性。DataOps 還鼓勵(lì)持續(xù)測試和監(jiān)控?cái)?shù)據(jù)管道,確保它們的正常運(yùn)行和正確治理。
在實(shí)際應(yīng)用中,DataOps 可以幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)一體化編輯、數(shù)據(jù)集成、數(shù)據(jù)管控等功能,提高數(shù)據(jù)研發(fā)效率。例如,金融行業(yè)可以通過 DataOps 實(shí)現(xiàn)反洗錢、實(shí)時(shí)盈虧計(jì)算、監(jiān)管報(bào)送等核心應(yīng)用的自動(dòng)化和實(shí)時(shí)性,提升業(yè)務(wù)流程的效率和準(zhǔn)確性。
DataOps 的趨勢表明,數(shù)據(jù)可觀察性將成為強(qiáng)制性要求,AI 將推動(dòng)數(shù)據(jù)可觀察性的發(fā)展,并且數(shù)據(jù)基礎(chǔ)設(shè)施的現(xiàn)代化將受到 AI 的推動(dòng)。數(shù)據(jù)工程師的角色將不會因 AI 的發(fā)展而消失,反而會變得更加重要,他們需要了解如何將生成性人工智能與數(shù)據(jù)管道結(jié)合,以自動(dòng)獲取價(jià)值。
開源項(xiàng)目如 Apache SeaTunnel 和 Apache DolphinScheduler 在 DataOps 領(lǐng)域取得了顯著成就,它們提供了實(shí)時(shí)多源數(shù)據(jù)集成工具和大數(shù)據(jù)工作流調(diào)度平臺,已經(jīng)在多個(gè)行業(yè)中得到應(yīng)用。
2.DataOps 關(guān)鍵技術(shù)
數(shù)據(jù)采集與集成:大數(shù)據(jù)系統(tǒng)需要解決各類場景下的采集與數(shù)據(jù)集成問題,如不同數(shù)據(jù)部署方式(本地部署、云部署、跨云部署 等)、多種數(shù)據(jù)形式(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)、各類型數(shù)據(jù)(批量式、增量式/流式數(shù)據(jù))。
數(shù)據(jù)存儲:隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)量的不斷增長,以及分析數(shù)據(jù)來源的多樣化,之前的存儲系統(tǒng)設(shè)計(jì)已經(jīng)無 法滿足大數(shù)據(jù)應(yīng)用的需求,存在很多挑戰(zhàn),如容量問題、延遲問題、安全問題、成本問題、高可用訴求、靈活性訴 求。為了應(yīng)對大數(shù)據(jù)對存儲系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲領(lǐng)域內(nèi)在不懈努力提升數(shù)據(jù)存儲系統(tǒng)的能力,主要提升有3個(gè)方 面:提升系統(tǒng)的存儲容量、提升系統(tǒng)的吞吐量、系統(tǒng)的容錯(cuò)性。
批流計(jì)算:批計(jì)算處理的是“固定的”、有界的數(shù)據(jù)集。數(shù)據(jù)的導(dǎo)入與計(jì)算通常是嚴(yán)格地分成兩個(gè)階段,即先將數(shù)據(jù)導(dǎo) 入,再對數(shù)據(jù)進(jìn)行計(jì)算與處理,一般需要關(guān)注高吞吐量。流計(jì)算處理的是“不固定的”、無界的數(shù)據(jù)流。在一些場 景下,數(shù)據(jù)會不停地產(chǎn)生,當(dāng)數(shù)據(jù)產(chǎn)生之后要立刻對其進(jìn)行分析與處理。在這種情況下,數(shù)據(jù)的導(dǎo)入與計(jì)算往往是 同時(shí)發(fā)生的,數(shù)據(jù)進(jìn)入計(jì)算系統(tǒng)后就要立刻對其進(jìn)行響應(yīng),一般關(guān)注的是低延時(shí)。業(yè)內(nèi)的一個(gè)熱點(diǎn)方向就是批流一 體,包括計(jì)算的批流一體和存儲的批流一體,這樣可以降低系統(tǒng)維護(hù)成本、保障數(shù)據(jù)質(zhì)量和一致性,進(jìn)一步混合調(diào) 度提高資源使用率。
湖倉一體:湖倉一體是一種將數(shù)據(jù)湖的靈活性和數(shù)倉的易用性、規(guī)范性、高性能結(jié)合起來的新型融合架構(gòu),類似于在湖邊 搭建了很多小倉庫,有的負(fù)責(zé)數(shù)據(jù)分析,有的運(yùn)轉(zhuǎn)機(jī)器學(xué)習(xí),有的用來檢索音視頻等,數(shù)據(jù)源流都可以從數(shù)據(jù)湖里輕松獲取。這樣就打通了數(shù)據(jù)倉庫和數(shù)據(jù)湖,將數(shù)據(jù)倉庫的高性能及管理能力與數(shù)據(jù)湖的靈活性融合了起來,底層 支持多種數(shù)據(jù)類型并存,能實(shí)現(xiàn)數(shù)據(jù)間的相互共享,上層可以通過統(tǒng)一封裝的接口進(jìn)行訪問,可同時(shí)支持實(shí)時(shí)查詢 和分析,為企業(yè)進(jìn)行數(shù)據(jù)治理帶來了更多的便利性。
多維分析:多維數(shù)據(jù)中的維是指人們觀察事物的角度,同樣的數(shù)據(jù)從不同的維度進(jìn)行觀察可能會得到不同的結(jié)果,同時(shí)也 使人們更加全面和清楚地認(rèn)識事物的本質(zhì)。多維分析可以對多維形式組成的數(shù)據(jù)進(jìn)行切片、切塊、上卷、下鉆、旋 轉(zhuǎn)等分析操作,使分析者、決策者能夠從多個(gè)角度、多個(gè)側(cè)面去觀察數(shù)據(jù)、對比數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中 的信息和內(nèi)涵。
數(shù)據(jù)可視化:數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效的傳達(dá)與溝通信息。但是,這并不意味著數(shù)據(jù)可視化就一定 因?yàn)橐獙?shí)現(xiàn)其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復(fù)雜。為了有效的傳達(dá)思想概 念,美學(xué)形式與功能需要齊頭并進(jìn),通過直觀的傳達(dá)關(guān)鍵的方面與特征,從而實(shí)現(xiàn)對于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集 的深入洞察。數(shù)據(jù)可視化技術(shù)的基本思想,是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成 數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進(jìn)行更深入 的觀察和分析。
數(shù)據(jù)血緣:數(shù)據(jù)血緣是指數(shù)據(jù)的全生命周期中,數(shù)據(jù)從產(chǎn)生、處理、加工、融合、流轉(zhuǎn)到最終消亡,數(shù)據(jù)之間自然形成一 種關(guān)系。其記錄了數(shù)據(jù)產(chǎn)生的鏈路關(guān)系,這些關(guān)系與人類的血緣關(guān)系比較相似,所以被成為數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)血 緣分析是元數(shù)據(jù)管理的重要應(yīng)用之一,其梳理系統(tǒng)、表、視圖、存儲過程、ETL、程序代碼、字段等之間的關(guān)系, 并采用圖數(shù)據(jù)庫進(jìn)行可視化展示。
3.DataOps能力模型
DataOps能力模型圍繞數(shù)據(jù)開發(fā)流水線,從業(yè)務(wù)需求出發(fā),以創(chuàng)造業(yè)務(wù)價(jià)值為目標(biāo),形成“4+3”的能力框架,即 4 個(gè)核心環(huán)節(jié)和 3 項(xiàng)實(shí)踐保障。DataOps能力模型框架的提出,旨在幫助企業(yè)建立對DataOps工作的宏觀視圖,了解DataOps能力建設(shè)的核心主線與保障體系,為企業(yè)的能力建設(shè)提供參考。
為了不斷提高數(shù)據(jù)產(chǎn)品交付效率與質(zhì)量,實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展的目標(biāo),DataOps的數(shù)據(jù)流水線以數(shù)據(jù)工程化能力為核心,構(gòu)建出數(shù)據(jù)研發(fā)管理、數(shù)據(jù)交付管理、數(shù)據(jù)運(yùn)維和價(jià)值運(yùn)營四個(gè)環(huán)節(jié)。
(1). 數(shù)據(jù)研發(fā)管理
數(shù)據(jù)研發(fā)管理是指以研發(fā)治理一體化為目標(biāo),構(gòu)建標(biāo)準(zhǔn)化的數(shù)據(jù)開發(fā)流程。企業(yè)在數(shù)據(jù)開發(fā)階段,構(gòu)建數(shù)據(jù)研發(fā)治理一體化流程,將數(shù)據(jù)治理工作前置,把數(shù)據(jù)治理工作與數(shù)據(jù)開發(fā)工作有機(jī)結(jié)合,能夠加強(qiáng)數(shù)據(jù)治理與開發(fā)工作的協(xié)同配合,同時(shí)降低數(shù)據(jù)治理后置所產(chǎn)生的風(fēng)險(xiǎn)。此外,在數(shù)據(jù)研發(fā)階段加強(qiáng)對數(shù)據(jù)需求的約束,并利用自助分析能力來提前探查或解決部分?jǐn)?shù)據(jù)需求,大幅提升了數(shù)據(jù)需求的溝通效率,減少了部分研發(fā)工作壓力。數(shù)據(jù)研發(fā)管理包括需求管理、設(shè)計(jì)管理、數(shù)據(jù)開發(fā)和自助分析四部分內(nèi)容。
(2). 數(shù)據(jù)交付管理
數(shù)據(jù)交付管理是指以提升交付效率和質(zhì)量為目標(biāo),建設(shè)持續(xù)測試和交付能力。企業(yè)在數(shù)據(jù)的交付與部署階段,通過構(gòu)建自動(dòng)化的測試和交付流水線,加強(qiáng)數(shù)據(jù)版本與代碼質(zhì)量的管理,幫助企業(yè)提升數(shù)據(jù)產(chǎn)品交付的自動(dòng)化水平,加快交付速度,提高交付質(zhì)量。數(shù)據(jù)交付管理包括配置管理、測試管理、部署與發(fā)布管理三部分內(nèi)容。
(3). 數(shù)據(jù)運(yùn)維
數(shù)據(jù)運(yùn)維是指以全面立體的持續(xù)監(jiān)控、發(fā)現(xiàn)、處理數(shù)據(jù)問題為目標(biāo),構(gòu)建全鏈路可觀測能力。企業(yè)通過構(gòu)建全鏈路數(shù)據(jù)可觀測能力,通過對數(shù)據(jù)研發(fā)運(yùn)營管理全生命周期的效能、資源、質(zhì)量、成本等方面進(jìn)行系統(tǒng)性的監(jiān)測與度量,幫助企業(yè)全面掌握數(shù)據(jù)研發(fā)運(yùn)營的各環(huán)節(jié)情況,及時(shí)發(fā)現(xiàn)問題、反饋問題、處理問題,進(jìn)而不斷優(yōu)化數(shù)據(jù)開發(fā)全流程。數(shù)據(jù)運(yùn)維包括監(jiān)控管理、資源管理、變更管理、異常管理、持續(xù)優(yōu)化五部分內(nèi)容。
(4). 價(jià)值運(yùn)營
價(jià)值運(yùn)營是指以精益運(yùn)營數(shù)據(jù)為目標(biāo),打造量化驅(qū)動(dòng)變革的能力。企業(yè)基于量化指標(biāo)對數(shù)據(jù)開發(fā)工作的成本進(jìn)行精細(xì)化管理,并驅(qū)動(dòng)企業(yè)對經(jīng)營管理、開發(fā)流程和系統(tǒng)工具持續(xù)優(yōu)化,形成“以數(shù)治數(shù),持續(xù)革新”的閉環(huán)運(yùn)營。價(jià)值運(yùn)營包括成本管理、持續(xù)變革、量化驅(qū)動(dòng)三部分內(nèi)容。
4.DataOps開發(fā)實(shí)踐
為了保證DataOps研發(fā)流水線能夠持續(xù)高效運(yùn)轉(zhuǎn)和迭代完善,企業(yè)需要有力的保障措施。這些要求的目標(biāo)是引導(dǎo)企業(yè)以全局最優(yōu)為目標(biāo),保障數(shù)據(jù)研發(fā)流水線的平滑運(yùn)作。
(1). 系統(tǒng)工具
系統(tǒng)工具是指以企業(yè)“業(yè)務(wù)用數(shù),研發(fā)供數(shù)”的實(shí)際流程為基礎(chǔ),構(gòu)建一體化的技術(shù)平臺。系統(tǒng)工具是企業(yè)實(shí)踐DataOps理念的抓手,通過搭建完整且成熟的DataOps工具鏈,能夠?yàn)槠髽I(yè)的一體化數(shù)據(jù)研發(fā)治理能力提供強(qiáng)有力的技術(shù)支撐。DataOps系統(tǒng)工具應(yīng)具備強(qiáng)大的工具鏈集成能力,能夠整合企業(yè)現(xiàn)有的數(shù)據(jù)治理工具(如數(shù)據(jù)質(zhì)量管理工具、數(shù)據(jù)安全管控工具、元數(shù)據(jù)管理工具等)和數(shù)據(jù)開發(fā)工具(如ETL工具、數(shù)據(jù)倉庫、數(shù)據(jù)科學(xué)平臺等)。通過高度集成這些工具,企業(yè)內(nèi)部可以形成一條完整、流暢的數(shù)據(jù)流水線,支持通過統(tǒng)一數(shù)據(jù)門戶集中展現(xiàn)和管理,并為不同角色的用戶提供便捷訪問、使用、共享數(shù)據(jù)資源的能力,從而實(shí)現(xiàn)數(shù)據(jù)服務(wù)的自助化和標(biāo)準(zhǔn)化。
(2). 組織管理
組織管理是指以打造敏捷、協(xié)同的數(shù)據(jù)驅(qū)動(dòng)型組織為目標(biāo),優(yōu)化組織架構(gòu)、明晰崗位職能。通過重構(gòu)組織架構(gòu)、崗位角色及協(xié)同機(jī)制配合DataOps流水線運(yùn)行。組織管理包括組織架構(gòu)、崗位角色、協(xié)作協(xié)同三部分。
(3). 安全管控
安全管控是指以保證個(gè)人隱私、數(shù)據(jù)安全為目標(biāo),將安全管控嵌入到數(shù)據(jù)流水線中,構(gòu)建數(shù)據(jù)研發(fā)全生命周期的安全管理能力。
數(shù)據(jù)的指數(shù)級增長以及業(yè)務(wù)需求的日益發(fā)展正不斷擴(kuò)大網(wǎng)絡(luò)威脅攻擊面,并帶來新的挑戰(zhàn)。數(shù)據(jù)安全問題由此升級為戰(zhàn)略性的業(yè)務(wù)問題。企業(yè)通過健全數(shù)據(jù)研發(fā)全生命周期的安全意識,以敏捷、全面的方式在數(shù)據(jù)研發(fā)的過程中嵌入安全屬性,從而幫助企業(yè)減少安全事故。安全管控包括安全風(fēng)險(xiǎn)策略、風(fēng)險(xiǎn)管理、安全測試三部分內(nèi)容。
4.DataOps總結(jié)
從業(yè)界DataOps Pipeline廠商的實(shí)踐來看,百花齊放,各有側(cè)重,但都向自動(dòng)化、可編排、可重復(fù)、可持續(xù)方向 不斷演進(jìn)。在數(shù)據(jù)工程能力上不同廠商專注于不同領(lǐng)域構(gòu)建能力,各有所長,有的專注于編排、測試、CI/CD和監(jiān)控 等;有的專注于建模和治理;有的專注于數(shù)據(jù)分析等。DataOps實(shí)踐和發(fā)展需要分階段逐步成熟的演進(jìn)過程,一方面依賴于對業(yè)務(wù)場景匹配構(gòu)建DataOps Pipeline等能 力的成熟度,一方面也與企業(yè)的數(shù)據(jù)治理水平直接相關(guān)。