自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

終于有人把元數(shù)據(jù)講明白了

大數(shù)據(jù) 數(shù)據(jù)分析
元數(shù)據(jù)是數(shù)據(jù)的“說(shuō)明書”,完善的元數(shù)據(jù)有利于數(shù)據(jù)使用者了解企業(yè)有什么數(shù)據(jù),它們分布在哪里,數(shù)據(jù)的業(yè)務(wù)含義是什么,數(shù)據(jù)口徑及顆粒度是怎樣的,需要使用數(shù)據(jù)時(shí)應(yīng)該向誰(shuí)提出申請(qǐng),以及如何獲取數(shù)據(jù)。

元數(shù)據(jù)管理工具是企業(yè)數(shù)據(jù)治理的重要抓手,它可以幫助企業(yè)解決數(shù)據(jù)查找難、理解難等問(wèn)題,促進(jìn)數(shù)據(jù)的集成和共享。

一、系統(tǒng)架構(gòu)

從應(yīng)用角度看,元數(shù)據(jù)管理平臺(tái)可分為數(shù)據(jù)源層、元數(shù)據(jù)采集層、元數(shù)據(jù)管理層、元數(shù)據(jù)應(yīng)用層四層架構(gòu),如圖1所示。

1. 數(shù)據(jù)源層

企業(yè)的元數(shù)據(jù)來(lái)自多個(gè)方面:

業(yè)務(wù)系統(tǒng)中的元數(shù)據(jù),例如ERP、CRM、SCM、OA等;

數(shù)據(jù)管理平臺(tái)中的元數(shù)據(jù),例如數(shù)據(jù)倉(cāng)庫(kù)、ODS、數(shù)據(jù)湖等;

數(shù)據(jù)處理工具中的元數(shù)據(jù),例如ETL工具的腳本元數(shù)據(jù);

數(shù)據(jù)分析工具中的元數(shù)據(jù),例如Cognos、Power BI中的元數(shù)據(jù);

各種半結(jié)構(gòu)化數(shù)據(jù)源,例如Word、PDF、Excel等各種格式化電子文件。

2. 元數(shù)據(jù)采集層

元數(shù)據(jù)管理工具是否強(qiáng)大部分體現(xiàn)在其對(duì)各類數(shù)據(jù)源的采集能力上,支持的各類數(shù)據(jù)源類型越多,說(shuō)明元數(shù)據(jù)采集能力越強(qiáng)大。

圖1 元數(shù)據(jù)管理平臺(tái)

元數(shù)據(jù)采集層主要通過(guò)對(duì)各類數(shù)據(jù)源的適配,實(shí)現(xiàn)元數(shù)據(jù)的統(tǒng)一采集,并將其存儲(chǔ)于符合CWM標(biāo)準(zhǔn)的中央元數(shù)據(jù)倉(cāng)庫(kù)中。

3. 元數(shù)據(jù)管理層

元數(shù)據(jù)管理層提供了對(duì)元數(shù)據(jù)的管理、維護(hù)、查詢功能,包括元數(shù)據(jù)查詢、元數(shù)據(jù)管理、元數(shù)據(jù)版本管理、元數(shù)據(jù)變更管理、元數(shù)據(jù)適配器管理等。

4. 元數(shù)據(jù)應(yīng)用層

元數(shù)據(jù)應(yīng)用層提供了元數(shù)據(jù)的瀏覽和分析功能,包括企業(yè)數(shù)據(jù)地圖、元數(shù)據(jù)血統(tǒng)分析、元數(shù)據(jù)影響分析、元數(shù)據(jù)冷熱度分析、元數(shù)據(jù)全鏈分析、元數(shù)據(jù)模型查詢等功能。元數(shù)據(jù)管理工具可以指導(dǎo)企業(yè)數(shù)據(jù)資產(chǎn)管理的建設(shè),支持?jǐn)?shù)據(jù)質(zhì)量的探查,促進(jìn)企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)的落地。

二、元數(shù)據(jù)采集

通過(guò)元數(shù)據(jù)管理平臺(tái)可以將分散、異構(gòu)的信息資源進(jìn)行統(tǒng)一采集、描述、定位、檢索、評(píng)估、分析,實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化,為機(jī)器處理創(chuàng)造可能,從而大大降低數(shù)據(jù)治理的人工成本。

1. 采集內(nèi)容

元數(shù)據(jù)采集內(nèi)容主要包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù),詳細(xì)說(shuō)明見(jiàn)表1。

表1 元數(shù)據(jù)采集內(nèi)容說(shuō)明

2. 采集方式

元數(shù)據(jù)采集方式主要有兩種:自動(dòng)化采集和人工采集。

(1)自動(dòng)化采集

自動(dòng)化采集主要是通過(guò)元數(shù)據(jù)管理工具提供的各類適配器進(jìn)行元數(shù)據(jù)采集。元數(shù)據(jù)適配器是基于不同數(shù)據(jù)源的元數(shù)據(jù)橋接器,不同數(shù)據(jù)源內(nèi)部的元數(shù)據(jù)橋是不同的,因此沒(méi)有一個(gè)萬(wàn)能適配器可以用于所有類型數(shù)據(jù)源的元數(shù)據(jù)采集。

當(dāng)前MySQL、Oracle、PostgreSQL等關(guān)系型數(shù)據(jù)庫(kù)的元數(shù)據(jù)采集方式大都是通過(guò)JDBC連接各種數(shù)據(jù)源的元數(shù)據(jù)所在庫(kù),然后通過(guò)SQL的方式查詢各數(shù)據(jù)源的元數(shù)據(jù)庫(kù)表,提取出元數(shù)據(jù)信息。JDBC就是關(guān)系型數(shù)據(jù)庫(kù)的一個(gè)橋接器。

而對(duì)于一些半結(jié)構(gòu)化、非結(jié)構(gòu)化元數(shù)據(jù),則需要用到圖像識(shí)別、自然語(yǔ)言處理等人工智能技術(shù),構(gòu)建專業(yè)的元數(shù)據(jù)采集適配器,進(jìn)行元數(shù)據(jù)的識(shí)別和采集。

在元數(shù)據(jù)采集過(guò)程中,元數(shù)據(jù)采集適配器十分重要,元數(shù)據(jù)采集既要適配各種DB、各類ETL、各類數(shù)據(jù)倉(cāng)庫(kù)和報(bào)表產(chǎn)品,還要適配各類結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)源。元數(shù)據(jù)采集適配器可以通過(guò)自動(dòng)化的方式對(duì)企業(yè)各類數(shù)據(jù)源的元數(shù)據(jù)進(jìn)行統(tǒng)一采集、統(tǒng)一管理。

(2)人工采集

在元數(shù)據(jù)管理實(shí)踐中,最難采集的往往不是技術(shù)元數(shù)據(jù)或操作元數(shù)據(jù),而是業(yè)務(wù)元數(shù)據(jù)。由于企業(yè)缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),業(yè)務(wù)系統(tǒng)豎井化建設(shè),系統(tǒng)建設(shè)過(guò)程中沒(méi)有對(duì)業(yè)務(wù)元數(shù)據(jù)進(jìn)行統(tǒng)一定義,所以即使通過(guò)元數(shù)據(jù)適配器將業(yè)務(wù)系統(tǒng)的技術(shù)元數(shù)據(jù)采集到元數(shù)據(jù)倉(cāng)庫(kù)中,也很難識(shí)別這些表、視圖、存儲(chǔ)過(guò)程、數(shù)據(jù)結(jié)構(gòu)的業(yè)務(wù)含義。這就需要采用人工的方式對(duì)現(xiàn)有數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù)進(jìn)行補(bǔ)齊,以實(shí)現(xiàn)元數(shù)據(jù)的統(tǒng)一管理。

三、元數(shù)據(jù)管理

1. 元數(shù)據(jù)管理功能

市場(chǎng)上主流的元數(shù)據(jù)管理產(chǎn)品基本都包括元數(shù)據(jù)查詢、元模型管理、元數(shù)據(jù)維護(hù)、元數(shù)據(jù)變更管理、元數(shù)據(jù)版本管理、采集適配器管理、元數(shù)據(jù)接口等功能。

元數(shù)據(jù)查詢:支持按關(guān)鍵字的全文搜索,通過(guò)元數(shù)據(jù)查詢功能可以準(zhǔn)確定位元數(shù)據(jù)。

元模型管理:基于元數(shù)據(jù)管理工具構(gòu)建符合CWM規(guī)范的元數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)元模型統(tǒng)一、集中化管理,支持元模型導(dǎo)入與導(dǎo)出,支持新增、修改、權(quán)限設(shè)置等功能。

元數(shù)據(jù)維護(hù):提供對(duì)信息對(duì)象的基本信息、屬性、被依賴關(guān)系、依賴關(guān)系、組合關(guān)系等元數(shù)據(jù)的新增、修改、刪除、查詢、發(fā)布等功能,以管理企業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)。

元數(shù)據(jù)變更管理:元數(shù)據(jù)的變更需要經(jīng)過(guò)審核才能發(fā)布,元數(shù)據(jù)管理工具提供元數(shù)據(jù)審核、元數(shù)據(jù)版本等功能,以支撐元數(shù)據(jù)的變更管理。

元數(shù)據(jù)版本管理:提供元數(shù)據(jù)的版本管理功能,對(duì)于元數(shù)據(jù)新增、修改、刪除、發(fā)布和狀態(tài)變更都有相應(yīng)的流程,同時(shí)支持元數(shù)據(jù)版本的查詢、對(duì)比、回滾。

采集適配器管理:提供元數(shù)據(jù)采集適配器的新增、修改、刪除、配置等功能。

元數(shù)據(jù)接口:元數(shù)據(jù)管理工具提供統(tǒng)一的元數(shù)據(jù)訪問(wèn)接口服務(wù),一般支持REST或Web Service等接口協(xié)議。通過(guò)元數(shù)據(jù)訪問(wèn)服務(wù),支持企業(yè)元數(shù)據(jù)的共享。

2. 元數(shù)據(jù)分析功能

元數(shù)據(jù)分析功能包括數(shù)據(jù)資源地圖、血緣分析、影響分析、冷熱度分析、關(guān)聯(lián)度分析、對(duì)比分析等。

數(shù)據(jù)資源地圖:基于企業(yè)元數(shù)據(jù)生成并以拓?fù)鋱D的形式展示企業(yè)數(shù)據(jù)資源的全景地圖,方便用戶清晰直觀地查找和瀏覽企業(yè)數(shù)據(jù)資源。

血緣分析:也叫血統(tǒng)分析,采用向上追溯的方式查找數(shù)據(jù)來(lái)源于哪里,經(jīng)過(guò)了哪些加工和處理。常用于在發(fā)現(xiàn)數(shù)據(jù)問(wèn)題時(shí),快速定位和找到數(shù)據(jù)問(wèn)題的原因。

影響分析:功能與血緣分析類似,只是血緣分析是向上追溯,而影響分析是向下追蹤,用來(lái)查詢和定位數(shù)據(jù)去了哪里。常用于當(dāng)元數(shù)據(jù)發(fā)生變更時(shí),分析和評(píng)估變更對(duì)下游業(yè)務(wù)的影響。

冷熱度分析:也叫活躍度分析,用于評(píng)估哪些數(shù)據(jù)是常用的,哪是數(shù)據(jù)是“沉睡”的。

關(guān)聯(lián)度分析:分析不同數(shù)據(jù)實(shí)體之間的關(guān)聯(lián)關(guān)系,從而判斷數(shù)據(jù)的重要程度。

對(duì)比分析:對(duì)于選定的多個(gè)元數(shù)據(jù)或者一個(gè)元數(shù)據(jù)的多個(gè)版本進(jìn)行比較,找出差異,再根據(jù)差異分析對(duì)業(yè)務(wù)的影響。

四、元數(shù)據(jù)應(yīng)用

元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),它可以幫助描述、理解、定位、查找企業(yè)的數(shù)據(jù),支持?jǐn)?shù)據(jù)的管理和使用。元數(shù)據(jù)不僅是數(shù)據(jù)治理的基礎(chǔ),而且在應(yīng)用系統(tǒng)開發(fā)、數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中也發(fā)揮著重要作用。

1. 元數(shù)據(jù)在數(shù)據(jù)治理中的應(yīng)用

元數(shù)據(jù)管理是數(shù)據(jù)治理的基礎(chǔ),它用于定義和描述數(shù)據(jù)、數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)如何管理、如何使用。元數(shù)據(jù)在數(shù)據(jù)治理中的主要應(yīng)用如下:

  • 定義和描述業(yè)務(wù)域、業(yè)務(wù)主題和數(shù)據(jù)實(shí)體;
  • 描述數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)關(guān)系;
  • 描述源系統(tǒng)、目標(biāo)系統(tǒng)、表、視圖、存儲(chǔ)過(guò)程和字段屬性;
  • 定義和描述數(shù)據(jù)資產(chǎn)目錄;
  • 定義和描述主數(shù)據(jù)模型的屬性;
  • 管理數(shù)據(jù)標(biāo)準(zhǔn);
  • 描述數(shù)據(jù)質(zhì)量規(guī)則和數(shù)據(jù)質(zhì)量檢核結(jié)果;
  • 識(shí)別和定義數(shù)據(jù)集中的敏感數(shù)據(jù)、敏感屬性;
  • 血緣分析和影響分析;
  • 描述數(shù)據(jù)流向,數(shù)據(jù)來(lái)自哪里、流向哪里;
  • 描述數(shù)據(jù)管理,誰(shuí)負(fù)責(zé)管理數(shù)據(jù)、在哪里管理;
  • 描述數(shù)據(jù)的使用,誰(shuí)有權(quán)使用數(shù)據(jù)、在哪里使用。

2. 元數(shù)據(jù)在應(yīng)用系統(tǒng)開發(fā)過(guò)程中的應(yīng)用

應(yīng)用系統(tǒng)的開發(fā)一般需要3個(gè)環(huán)境:開發(fā)環(huán)境、測(cè)試環(huán)境和生產(chǎn)環(huán)境。在應(yīng)用系統(tǒng)開發(fā)上線的過(guò)程中,經(jīng)常會(huì)遇到在開發(fā)環(huán)境測(cè)試沒(méi)有問(wèn)題的應(yīng)用系統(tǒng),集成到測(cè)試環(huán)境中或遷移到生產(chǎn)環(huán)境中就會(huì)出現(xiàn)問(wèn)題,例如SQL腳本執(zhí)行不了,缺少數(shù)據(jù)表或視圖,依賴的非空字段數(shù)據(jù)缺失,或者主外鍵關(guān)系、索引不正確等。

針對(duì)以上問(wèn)題,元數(shù)據(jù)管理工具提供了一個(gè)行之有效的破解之法,如圖2所示。

圖2 元數(shù)據(jù)在應(yīng)用開發(fā)過(guò)程中的應(yīng)用

1)通過(guò)元數(shù)據(jù)管理工具對(duì)應(yīng)用系統(tǒng)所涉及的數(shù)據(jù)模型、庫(kù)表結(jié)構(gòu)進(jìn)行規(guī)劃設(shè)計(jì),落地系統(tǒng)級(jí)邏輯模型。

2)基于反向工程將元數(shù)據(jù)管理工具中的數(shù)據(jù)模型導(dǎo)入應(yīng)用系統(tǒng)的開發(fā)、測(cè)試、生產(chǎn)等環(huán)境中,應(yīng)用系統(tǒng)的開發(fā)可以在元數(shù)據(jù)管理工具提供的數(shù)據(jù)模型基礎(chǔ)之上構(gòu)建物理庫(kù)表。

3)通過(guò)元數(shù)據(jù)管理工具自動(dòng)化采集開發(fā)、測(cè)試、生產(chǎn)三個(gè)環(huán)境的庫(kù)結(jié)構(gòu)、表結(jié)構(gòu)、字段結(jié)構(gòu)、視圖與存儲(chǔ)過(guò)程結(jié)構(gòu)等元數(shù)據(jù)。

4)在應(yīng)用系統(tǒng)開發(fā)過(guò)程中,從開發(fā)到測(cè)試部署之前,通過(guò)元數(shù)據(jù)管理工具的對(duì)比分析功能,迅速找到開發(fā)和測(cè)試環(huán)境中不一致的地方,支持在測(cè)試環(huán)境快速部署應(yīng)用系統(tǒng),并確保數(shù)據(jù)環(huán)境的一致性。

同理,應(yīng)用系統(tǒng)在生產(chǎn)環(huán)境中的部署和運(yùn)行也可以采用第4)步,以確保生產(chǎn)環(huán)境與開發(fā)、測(cè)試環(huán)境一致,支持應(yīng)用系統(tǒng)的快速上線。

3. 元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用

數(shù)據(jù)倉(cāng)庫(kù)是用于數(shù)據(jù)分析、支持管理決策的系統(tǒng)。一個(gè)數(shù)據(jù)分析圖表的誕生并不是一帆風(fēng)順的,需要經(jīng)過(guò)多次的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、匯總,才能將數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)依賴關(guān)系、數(shù)據(jù)層次關(guān)系等理清晰,統(tǒng)一數(shù)據(jù)口徑,將復(fù)雜的問(wèn)題簡(jiǎn)單化,讓設(shè)計(jì)者和使用者明確感知到數(shù)據(jù)的整個(gè)生命周期,以支持?jǐn)?shù)據(jù)分析。

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)典型的分層設(shè)計(jì)的數(shù)據(jù)架構(gòu),其分層設(shè)計(jì)反映了數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的加工處理過(guò)程。元數(shù)據(jù)作為數(shù)據(jù)倉(cāng)庫(kù)的核心組成部分,主要用于記錄和管理數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的整個(gè)流轉(zhuǎn)過(guò)程,實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)各層級(jí)數(shù)據(jù)進(jìn)行統(tǒng)一管理,如圖3所示。

圖3 元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用

元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用如下:

  • 描述數(shù)據(jù)源的庫(kù)表結(jié)構(gòu)、數(shù)據(jù)關(guān)系以及每個(gè)數(shù)據(jù)項(xiàng)的定義;
  • 描述數(shù)據(jù)源中每個(gè)數(shù)據(jù)項(xiàng)的值域范圍和更新頻率;
  • 描述數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)映射關(guān)系;
  • 描述數(shù)據(jù)倉(cāng)庫(kù)中有哪些數(shù)據(jù)以及它們來(lái)自哪里;
  • 描述數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)各層中的加工處理過(guò)程;
  • 元數(shù)據(jù)管理工具為數(shù)據(jù)管理者和使用者提供了理解和查詢數(shù)據(jù)的一致語(yǔ)言;
  • 利用元數(shù)據(jù)管理工具的元數(shù)據(jù)變更和版本管理功能,管理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型,支持將元數(shù)據(jù)恢復(fù)到某一版本;
  • 利用元數(shù)據(jù)管理工具的血緣分析、影響分析等功能,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)問(wèn)題快速定位、快速查找;
  • 利用元數(shù)據(jù)管理工具的開放式元數(shù)據(jù)交換標(biāo)準(zhǔn),實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的交換和共享。

五、總結(jié)

元數(shù)據(jù)管理工具提供了可靠、便捷的工具,能夠?qū)ζ髽I(yè)分散的元數(shù)據(jù)進(jìn)行統(tǒng)一、集中化管理,幫助企業(yè)繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標(biāo)明數(shù)據(jù)方位、控制模型變更。利用元數(shù)據(jù)管理工具可以更好地獲取、共享、理解和應(yīng)用企業(yè)的數(shù)據(jù)信息,降低數(shù)據(jù)集成和管理成本,提高數(shù)據(jù)資產(chǎn)的透明度。

關(guān)于作者:

羅小江,用友集團(tuán)助理總裁、平臺(tái)和數(shù)據(jù)智能事業(yè)部總經(jīng)理、北京軟件和信息服務(wù)業(yè)協(xié)會(huì)云計(jì)算專委會(huì)副會(huì)長(zhǎng)、中國(guó)企業(yè)財(cái)務(wù)管理協(xié)會(huì)企業(yè)風(fēng)險(xiǎn)管控專業(yè)委員會(huì)副主任委員。

石秀峰,用友集團(tuán)數(shù)據(jù)治理專家、中國(guó)電子商會(huì)數(shù)據(jù)資源服務(wù)創(chuàng)新專業(yè)委員會(huì)受聘專家、數(shù)據(jù)質(zhì)量管理智庫(kù)(DQPro)受聘專家。

本文摘編于《一本書講透數(shù)據(jù)治理:戰(zhàn)略、方法、工具與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111694489)轉(zhuǎn)載請(qǐng)保留文章出處。

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)倉(cāng)寶貝庫(kù)
相關(guān)推薦

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2022-05-09 20:23:51

數(shù)據(jù)采集

2020-10-29 06:09:37

數(shù)據(jù)中臺(tái)數(shù)據(jù)大數(shù)據(jù)

2022-04-18 07:37:30

數(shù)據(jù)信息知識(shí)

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2021-03-03 21:31:24

量化投資利潤(rùn)

2022-07-31 20:29:28

日志系統(tǒng)測(cè)

2021-12-07 18:24:26

數(shù)據(jù)安全

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2022-05-06 20:18:36

元宇宙Web 3.0網(wǎng)絡(luò)

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2021-10-12 18:31:40

流量運(yùn)營(yíng)前端
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)