聯(lián)通數科基于一體化數據平臺的元數據管理實踐
一、背景和挑戰(zhàn)
1. 數據要素發(fā)展背景下的數據平臺工具現(xiàn)狀
近年來,我國對“數據”的戰(zhàn)略地位日益提升,從將其定位為“國家基礎性戰(zhàn)略資源”、“關鍵生產要素”,到國家數據局成立后發(fā)布的“數據要素三年行動計劃”,都顯示了對數據重視程度的不斷增強。這不僅更準確地體現(xiàn)了數據的業(yè)務和經濟價值,也提高了對市場主體在數據管理方面的要求。目標是在龐大的市場規(guī)模、海量數據資源和多樣化應用場景中,充分發(fā)揮數據的乘數效應,推動經濟社會發(fā)展。在不斷地探索和實踐中,數據的標準定義也日益明確。
廣義上,數據是任何形式記錄的信息,包括電子或其他方式。它經過采集、治理、整合等治理分析過程,轉化為“數據資源”。那些能夠帶來經濟利益或其成本能夠可靠計量的數據資源,被定義為“數據資產”,未來可進行會計入表或交易。目前,市場正處于數據資源管理的階段,必須夯實基礎,為數據資產的入表和交易等后續(xù)工作打下堅實基礎。
2. 聯(lián)通數科一體化數據平臺所獲認可與榮譽
聯(lián)通數科一體化數據資產管理平臺獲得了非常多的認可與榮譽,包括工信部、環(huán)保部、DAMA 等頒發(fā)的獎項。2023 年數字資產管理大會的《數據治理產業(yè)圖 2.0》中,我們有 12 項能力入選圖譜。在 2023 年的信通院組織的元數據管理平臺專項評測里,我們的一體化數據資產管理平臺下的元數據管理模塊也是首家首批通過專項評測的平臺工具。
3. 元數據管理的挑戰(zhàn)與解法
針對于元數據管理,我們面臨以下挑戰(zhàn):
(1)操作層面
元數據實施或者運維的過程中,實施人員面臨“找不到、讀不懂、操作難”的問題?!罢也坏健⒆x不懂”是元數據本身要解決的最核心問題,“操作難”是因為傳統(tǒng)的元數據管理工具過多地依賴于人工操作。為了減少人力成本投入、提高元數據的準確性,需要將這部分能力進行自動化,減少分人工操作的復雜性。
(2)管理層面
從整個數據治理管理過程角度,元數據面臨著“對接難,存儲難,見效難”的問題?!皩与y”指如何對多源資源進行統(tǒng)一接入及管理;“存儲難”指的是大量數據占據大量的存儲計算資源,資源的耗費如何通過元數據管理進行生命周期的控制,降低資源的浪費;“見效難”指的是元數據如何去產生價值,能夠體現(xiàn)出效用。
針對上述問題,我們采取了自動化、鏈接+、智能化三個解法。
(1)自動化
減少人工的操作,目前元數據管理平臺部署之后,只需要很少的人工操作,就能夠將整個平臺跑起來,并且后續(xù)也不需要進行定期的維護,只需要在發(fā)生問題的時候進行核驗和排查。
(2)鏈接+
基于一體化平臺內的多個模塊,與元數據平臺進行連接,共同對平臺數據管理過程進行賦能。同時支持對接其它外部管理模塊與平臺進行鏈接,提供標準的對接方式。
(3)智能化
基于大模型、數據虛擬化等技術進行探索,將平臺變得更智能、更好用。
二、探索與實踐
接下來介紹我們基于上述三個解法開展的具體的探索與實踐。
1. 聯(lián)通數科數據資源管理現(xiàn)狀
一體化平臺基于聯(lián)通數科內部的需求進行研發(fā),主要在公司內部進行使用。內部500 + 數據庫、2.3 萬 + 張表、200 萬 + 字段、2000 + 數據節(jié)點,都是通過一體化平臺進行管理的,日均數據量達到 500 TB 級別。
此外我們對于平臺進行了一系列產品化的工作,并拓展了一些外部項目。平臺內的數據服務了 1000 + 家政企客戶,并且基于一體化平臺,交付了 50 多個外部項目,其中包括 20 + 省部級以上的項目,所以我們對于元數據管理具備較強的實施及使用經驗。
2. 一體化元數據管理整體流程
在元數據管理流程中,我們主要關注三類元數據:業(yè)務元數據、技術元數據和管理元數據。流程的起點是建立數據標準,以此為基礎構建邏輯模型,這些活動都屬于業(yè)務元數據的構建階段。在構建邏輯模型的同時,我們補充和整理業(yè)務元數據,為后續(xù)的采集和展示做準備。
隨著邏輯模型的物化,我們進入技術元數據的處理階段,創(chuàng)建物理模型。數據通過采集、加工計算等步驟進入數據倉庫,這是在線事務處理(OLTP)的過程。在這個過程中,物理模型、數據采集任務、數據加工任務等信息作為技術元數據被納入元數據管理平臺。
在數據倉庫建設過程中,我們對每個節(jié)點進行數據質量稽核,并將稽核結果作為技術元數據存儲。此外,在線分析處理(OLAP)過程中的數據指標構建、標簽構建、BI 看板構建等信息也屬于技術元數據的采集范圍。數據倉庫中數據還可被轉換為 API,這些 API 同樣作為技術元數據進行統(tǒng)一管理。
元數據管理平臺最終對數據表、數據指標、數據標簽、BI 看板、API、數據目錄等六大類資源進行統(tǒng)一元數據采集,覆蓋從數據采集到應用的全流程過程。
為了進一步完善元數據管理,我們還與一體化平臺中的其他模塊對接,管理元數據中的相關內容。例如,我們對接數據表的生命周期管理模塊,將生命周期信息作為管理元數據進行管理。同時,我們還對接數據表操作日志記錄和數據安全分類分級的產品模塊。
通過這些步驟,我們構建了一個全面的元數據管理流程,確保數據的準確性、完整性和可用性。
3. 元數據自動化管理
元數據自動化管理的核心目的是減少人工的干預,提升管理效率,并提升元數據的準確性,管理覆蓋元數據的采集、管理、質量、統(tǒng)計分析的全過程。
(1)采集
元數據采集任務只需配置相應的數據表、數據庫等元數據信息,設置采集時間周期、過濾字段后,系統(tǒng)可以按照設置的周期自動執(zhí)行采集任務。支持在采集實例模塊查看每次采集的狀態(tài)(成功或失敗),同時對于采集失敗的任務,可以使用日志分析模塊協(xié)助排查問題。
系統(tǒng)支持采集任務的自動啟停,可以一鍵式地對采集任務進行開關,方便在不需要采集的時候,隨時停止采集任務。
(2)管理
采集好的元數據會自動發(fā)布,形成元數據目錄。如果元數據發(fā)生變化,則可以通過自動定版的方式自動生成版本號,也可以采用手動定版的方式對版本號進行變更。此外,系統(tǒng)基于每個用戶的權限、機構等信息,對元數據的維護權限進行自動控制。
(3)質量
對元數據的質量校驗包括三種校驗方式:一致性稽核、完整性稽核和標準覆蓋稽核。一致性稽核指校驗不同元數據在不同分層或環(huán)境中的變化,并形成分析報告;完整性稽核指分析元數據采集上來之后是否完整;標準覆蓋稽核指元數據每個字段是否關聯(lián)了數據標準。
(4)統(tǒng)計分析
在質量統(tǒng)計模塊展示質量統(tǒng)計報告及數據分析,用以監(jiān)控元數據的質量問題,方便對元數據進行改善和調優(yōu)。同時,基于六大類數據資源形成分層分域、安全等級等統(tǒng)計,幫助用戶隨時明晰平臺內數據資源的整體概況。
4. 元數據平臺鏈接+
傳統(tǒng)的元數據管理只是對表進行管理,而聯(lián)通數科內部還會有其它一些內容鏈接到元數據管理平臺。鏈接內容及方式主要包括:
(1)數據資源類
包括表、分析、API、目錄等四類數據資源。表類資源包括數據模型、集群存儲、邏輯入湖;分析資源包括數據指標、數據標簽、BI 看板;API 包括表轉服務 API,以及第三方注冊的API;目錄包括對外共享、對外開放的數據目錄,也包括數據交易、數據流通場景中的數據目錄等。
(2)任務調度類
主要包括通過平臺執(zhí)行的數據采集、數據加工、數據分析等任務。對任務的 SQL 進行解析,提取鏈路信息,獲取任務執(zhí)行成功或者失敗的情況、執(zhí)行時間、消耗資源等信息,并接入元數據平臺。
(3)外部系統(tǒng)類
除了一體化平臺內部的信息外,我們在項目上也探索將外部的系統(tǒng)集成到平臺,比如通過數據推送(接口或 Kafka)把對方的數據推過來,或者采取數據拉?。↗DBC 或對接)的方式,把系統(tǒng)里面的數據統(tǒng)一納入到元數據管理平臺。
鏈接的內容接到平臺里后,首先由元模型管理模塊定義各類數據資源應該采集的數據,數據采集后落到元模型里面,并產出元數據目錄。元數據目錄與一體化平臺內部的分類分級等模塊聯(lián)動補齊管理數據,形成全鏈血緣分析,最終應用在資產梳理、流向分析、比對驗證等場景。
5. 全鏈血緣管理
基于“鏈接+”的能力,實現(xiàn)了全鏈血緣的管理。數據從采集到最終應用經歷多個步驟,主節(jié)點的上下級血緣鏈接可能超過 10 層甚至 20 層,如何精確定位數據上下游血緣,對于元數據管理非常重要。通過全鏈血緣可以方便清晰地定位問題,避免低效的人工手動排查,數據治理和開發(fā)過程中的每一步都可以清晰呈現(xiàn)。
全鏈血緣主要包括以下幾個應用場景。
- 應用問題定位:這是交付項目中的常見場景,即對于數據應用中產生的問題,進行字段級別的回溯定位。過去表級的回溯只能大概推測問題發(fā)生在哪兒,而現(xiàn)在引入字段級回溯,可以精準定位到具體某一個字段發(fā)生的問題。
- 影響分析:數據變更時進行下游影響查詢,分析下游都有哪些鏈路,進行統(tǒng)一查詢,提前對下游鏈路中可能會產生的影響進行提前的郵件或短信告知。另一方面,如果元數據平臺檢測到上游表不一致,則可以對下游的影響表進行自動預警。
- 使用度分析:使用度是基于主節(jié)點的下游層級進行判斷,層級越多則使用度越高;而復雜度則是找到表的上游的層級,層級越多則復雜度越高。通過使用度、復雜度的排名分析,找到數據治理全鏈關鍵節(jié)點。比如使用度或復雜度排名前 10% 的表可能是關鍵節(jié)點,需要更多的關注。
- 孤島定位:應用數據表加工關系對其進行疑似數據孤島判定,如為孤島數據或長時間不使用的數據,則進行刪除或冷熱存儲介質轉換,釋放資源來給其它更為重要的數據資源。
6. 數據認責及生命周期管理
(1)數據認責
傳統(tǒng)的數據治理的過程,真正出現(xiàn)問題的時候,在大組織里邊很難定位到具體應該由哪個人對問題負責。我們基于元數據平臺向上下游進行拓展,把所有數據資產信息推送到認責系統(tǒng),認責系統(tǒng)對數倉、數據表、數據質量等信息定義責任人,包括總負責人數據 owner、技術負責人和業(yè)務負責人,未來如再出現(xiàn)問題,就可以定位到 owner,由 owner 協(xié)調相應的技術負責人和業(yè)務負責人對數據問題進行處理,數據資源的調整、變更、更新的權限由任責人進行推進負責。
(2)數據生命周期
主要是對數據進行了冷熱溫分層,基于元數據系統(tǒng)結合相應的邏輯規(guī)則,對數據不同分區(qū)進行定位。如長時間不使用則存入溫數據區(qū),如果再長時間不使用則轉到冷據區(qū)。冷數據區(qū)對數據模型有時限控制,超出時限則進行刪除,及時釋放數據資源。
三、總結和展望
1. 元數據智能化探索
(1)元數據智能分類
基于業(yè)務元數據、管理元數據、樣例數據等信息及數據血緣信息智能判斷元數據分層、分域信息,對元數據進行智能分類打標。
(2)元數據智能補齊
通常元數據采集會因為各種原因導致元數據不完整,如果采用人工的方式進行補齊,則消耗資源比較多,并且人工填寫的準確性存疑。而通過基于 AIGC 技術的元數據智能補齊能力,將元數據補齊工作嵌入元數據采集流程,實現(xiàn)采集過程中的自動元數據補齊,業(yè)務人員僅需采集流程結束后進行基本的核對,即可快速、完整地獲取元數據信息。
(3)元數據智能推薦
基于使用者用戶信息及平臺中的操作行為,在用戶進行元數據搜索時,智能推薦用戶感興趣、可能需要查詢的元數據信息;在數據認責過程中,基于分層分域等信息,智能推薦數據 owner、技術負責人、業(yè)務負責人。
2. 元數據管理助力數據資產入表探索
數據資產入表、數據資產估值和數據管理看似是兩個方向,數據管理更偏向技術,數據資產入表更偏向于財務,但實際上二者也有相輔相成的部分,比如數據估值包括成本法、收益法、市場法,在成本法、收益法中,平臺可以對數據資產入表提供幫助。目前數據資產入表多采用咨詢的方式,缺少工具能力助力細化成本,而元數據平臺可以對此場景提供幫助。
(1)全量數據資產盤點
因為元數據管理平臺本身會采集全量的資產進行管理,所以可以為企業(yè)梳理所有資產提供幫助。
(2)對成本進行可計量的探索
包括存儲成本、計算成本、人工成本。計算成本通過數據計算加工任務所消耗的 CPU 或者內存進行核算;人工成本則通過數據計算加工過程中,數據治理人員在平臺進行開發(fā)的時間等信息進行核算。
(3)對數據質量進行評估
基于不同數據質量的情況,作為估值依據。
(4)數據應用
包括 API 的調用情況、數據目錄共享的情況,量化數據產生價值,助力數據資產評估。
以上就是本次分享的內容,謝謝大家。
四、Q&A
Q1:To B 業(yè)務如何打通數據孤島?由于監(jiān)管要求,很多數據是不能明文互通,一體化的元數據如何實現(xiàn)數據的隱私的計算和互聯(lián)互通?
A1:建議采用可信數據資源空間的模式,解決的不能明文互通的監(jiān)管要求的,主要是通過多方的隱私計算或數據沙箱方式進行數據的開發(fā)及利用。
Q2:對于有自己平臺的客戶,如何管理元數據?
A2:在項目拓展過程中,不可能是要求所有的客戶摒棄以往的平臺,我們需要考慮如何把對方的平臺引入進來,盡量把拓展的能力做標準化,比如定義好標準化接口,做一些元模型的定義,在盡可能減少開發(fā)資源的情況下,把這部分元數據進行統(tǒng)一管理。但是這個過程中需要去看對方的配合意愿以及程度。
Q3:元數據的全鏈血緣囊括的范圍是多大?出倉后的數據血緣如何推動全鏈路的血緣管理?
A3:從數據治理整個流程的角度,只要數據進入到一體化平臺內,即意味著已經進入全鏈路血緣監(jiān)控的范圍了。全鏈路血緣包括多類資產管理,如表類資產、數據指標、數據標簽等,所有的資產都應納入管理。數據出倉后,對其來源需要納入權限管理,包括最終的應用方。這需要元數據管理平臺提前做好標準化,方便和上下游的廠商或組織機構進行打通,將對方的數據或者信息推送給我們進行統(tǒng)一管理。