自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從管、存、算、規(guī)、治看數(shù)據(jù)資產(chǎn)管理

大數(shù)據(jù) 數(shù)據(jù)分析
如果你參與過(guò)大型企業(yè)BI系統(tǒng)的建設(shè),那就一定能有所感觸。無(wú)數(shù)的決策分析系統(tǒng)成為臨時(shí)的“政績(jī)工程”,一時(shí)名聲大噪之后卻無(wú)人問(wèn)津,大多因?yàn)楹罄m(xù)數(shù)據(jù)不準(zhǔn)確,無(wú)法真正為業(yè)務(wù)、管理提供實(shí)質(zhì)的服務(wù)。這實(shí)則為數(shù)據(jù)分析項(xiàng)目建設(shè)的悲哀。

?據(jù)研究表明,在數(shù)據(jù)分析的整個(gè)過(guò)程中,數(shù)據(jù)準(zhǔn)備會(huì)占大約80%的時(shí)間。怎樣把數(shù)據(jù)收集起來(lái),并確保數(shù)據(jù)可直接用于分析展示,是最麻煩、最耗時(shí)的事情,這在企業(yè)級(jí)的數(shù)據(jù)分析中也被稱為是“最臟最累”的活。倘若數(shù)據(jù)未處理妥當(dāng),炫酷好看的可視化展示也毫無(wú)意義。

如果你參與過(guò)大型企業(yè)BI系統(tǒng)的建設(shè),那就一定能有所感觸。無(wú)數(shù)的決策分析系統(tǒng)成為臨時(shí)的“政績(jī)工程”,一時(shí)名聲大噪之后卻無(wú)人問(wèn)津,大多因?yàn)楹罄m(xù)數(shù)據(jù)不準(zhǔn)確,無(wú)法真正為業(yè)務(wù)、管理提供實(shí)質(zhì)的服務(wù)。這實(shí)則為數(shù)據(jù)分析項(xiàng)目建設(shè)的悲哀。

做好數(shù)據(jù)準(zhǔn)備、保證數(shù)據(jù)質(zhì)量,都是數(shù)據(jù)資產(chǎn)管理的范疇。國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA International)在《DAMA數(shù)據(jù)管理知識(shí)體系指南(原書(shū)第2版)》一書(shū)中,將數(shù)據(jù)管理(DM)定義為“為了交付、控制、保護(hù)并提升數(shù)據(jù)和信息資產(chǎn)的價(jià)值,在其整個(gè)生命周期中制訂計(jì)劃、制度、規(guī)程和實(shí)踐活動(dòng),并執(zhí)行和監(jiān)督的過(guò)程”。

對(duì)于數(shù)據(jù)管理的職能,DAMA將其歸為十一大類:數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)和操作、數(shù)據(jù)安全、數(shù)據(jù)集成和互操作、文件和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量,如圖1所示。

圖片

▲圖1 DAMA數(shù)據(jù)管理框架

其中,數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)和操作、數(shù)據(jù)集成和互操作、文件和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)、元數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能屬于“數(shù)據(jù)準(zhǔn)備”的范疇,數(shù)據(jù)治理、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量可以統(tǒng)一歸類為“數(shù)據(jù)治理”。

結(jié)合DAMA對(duì)數(shù)據(jù)管理職能的分類及內(nèi)容,可將數(shù)據(jù)準(zhǔn)備分為“管”“存”“算”個(gè)層面,將數(shù)據(jù)治理分為“規(guī)”、“治”兩個(gè)層面,如圖2所示。

圖片

▲圖2 “管” “存” “算” “規(guī)” “治”

1.數(shù)據(jù)之“管”

數(shù)據(jù)之“管”指狹義的數(shù)據(jù)管理,是對(duì)不同類別的數(shù)據(jù)采取不同的數(shù)據(jù)管理模式。這里我們把數(shù)據(jù)分為四個(gè)層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù))。通過(guò)數(shù)據(jù)之“管”,來(lái)確保數(shù)據(jù)來(lái)源的可靠性、數(shù)據(jù)內(nèi)容的準(zhǔn)確性、數(shù)據(jù)安全性及數(shù)據(jù)粒度的精細(xì)性。

不同的數(shù)據(jù),根據(jù)其特性在數(shù)據(jù)量、更新頻率、數(shù)據(jù)質(zhì)量和生命周期上有不同的特點(diǎn)。從數(shù)據(jù)的作用及管理的方式上來(lái)講,我們把數(shù)據(jù)分為四個(gè)層次:元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、一般數(shù)據(jù)(交易數(shù)據(jù)),如圖3所示。這里提到的數(shù)據(jù)之“管”,即指管理好這四個(gè)層次數(shù)據(jù)。

圖片

▲圖3 數(shù)據(jù)層次

元數(shù)據(jù)(Metadata):通俗地說(shuō)就是描述數(shù)據(jù)的數(shù)據(jù),比如數(shù)據(jù)的名稱、屬性、分類、字段信息、大小、標(biāo)簽等等。要做好數(shù)據(jù)的管理,元數(shù)據(jù)起到了舉足輕重的作用。

參考數(shù)據(jù)(Reference Data):是用于將其他數(shù)據(jù)進(jìn)行分類或目錄整編的數(shù)據(jù),它定義了數(shù)據(jù)可能的取值范圍,可以理解為屬性值域,也就是數(shù)據(jù)字典。參考數(shù)據(jù)一方面有助于在TP(業(yè)務(wù)處理)側(cè)提升業(yè)務(wù)流程的準(zhǔn)確性,另一方面在AP(數(shù)據(jù)分析)側(cè)規(guī)范數(shù)據(jù)的準(zhǔn)確性,為多系統(tǒng)綜合分析提供有利的保障。

主數(shù)據(jù)(Master Data):指具有高業(yè)務(wù)價(jià)值的,關(guān)于關(guān)鍵業(yè)務(wù)實(shí)體的權(quán)威的、最準(zhǔn)確的數(shù)據(jù),被稱為“黃金”數(shù)據(jù)。通常用于建立與交易數(shù)據(jù)的關(guān)聯(lián)關(guān)系來(lái)進(jìn)行多維度的分析。

一般數(shù)據(jù):也就是交易數(shù)據(jù)。相對(duì)來(lái)說(shuō),我們可以認(rèn)為元數(shù)據(jù)、參考數(shù)據(jù)、主數(shù)據(jù)為靜態(tài)數(shù)據(jù),而一般數(shù)據(jù)則是動(dòng)態(tài)數(shù)據(jù)。它一般隨著業(yè)務(wù)的發(fā)生而變化,比如資金交易流水。

2.數(shù)據(jù)之“存”

數(shù)據(jù)之“存”指數(shù)據(jù)存儲(chǔ),指通過(guò)技術(shù)手段將數(shù)據(jù)存儲(chǔ)起來(lái)。涉及三個(gè)關(guān)鍵詞是“數(shù)據(jù)湖”、“數(shù)據(jù)倉(cāng)庫(kù)”和“數(shù)據(jù)集市”。數(shù)據(jù)的有效性、及時(shí)性、相關(guān)性、一致性、安全性、準(zhǔn)確性,其來(lái)源的可靠性、粒度的精細(xì)性,最終都會(huì)體現(xiàn)在“存”之上,具備上述條件的數(shù)據(jù)組合,幫助數(shù)據(jù)實(shí)現(xiàn)了其“豐富性”。

如果把數(shù)據(jù)比作是源源不斷的水,那么,數(shù)據(jù)湖可以比作湖泊,數(shù)據(jù)倉(cāng)庫(kù)可以比作水庫(kù),數(shù)據(jù)集便是超市。水在不斷的加工制造中,最后成為超市中的瓶裝水供人直接食用,就好比原始數(shù)據(jù)經(jīng)過(guò)加工處理最終成為數(shù)據(jù)集市中直接可用于分析的數(shù)據(jù)。如圖4所示。

圖片

▲圖4 數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集

數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集形成了數(shù)據(jù)存儲(chǔ)的三個(gè)層次,三者層層遞進(jìn),各自發(fā)揮著其不同的作用。數(shù)據(jù)湖為非結(jié)構(gòu)化數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、預(yù)測(cè)分析提供了豐富的數(shù)據(jù)土壤;數(shù)據(jù)倉(cāng)庫(kù)通過(guò)規(guī)范化的管理,為企業(yè)、組織系統(tǒng)化的規(guī)范數(shù)據(jù)體系提供了支撐;數(shù)據(jù)集則將數(shù)據(jù)場(chǎng)景化,讓數(shù)據(jù)觸手可得,實(shí)現(xiàn)即席分析。

數(shù)據(jù)湖(Data Lake,DL),是指一個(gè)集中化存儲(chǔ)海量的、多個(gè)來(lái)源、多種類型數(shù)據(jù),并可以對(duì)數(shù)據(jù)進(jìn)行快速加工、分析的平臺(tái)。數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,簡(jiǎn)稱DW或DWH),是為支持決策而產(chǎn)生的數(shù)據(jù)池,它是整個(gè)組織中的各級(jí)人員可能感興趣的、當(dāng)前和歷史的所有類型數(shù)據(jù)的戰(zhàn)略集合。

數(shù)據(jù)集市(Data Mart,DM),是滿足特定的部門(mén)或者用戶的需求,按照多維的方式進(jìn)行存儲(chǔ),生成面向決策分析需求的數(shù)據(jù)集合。

3.數(shù)據(jù)之“算”

數(shù)據(jù)之“算”,指的是數(shù)據(jù)預(yù)處理之“算”。為了保證數(shù)據(jù)分析時(shí)數(shù)據(jù)可用、好用而對(duì)數(shù)據(jù)進(jìn)行的加工。是指對(duì)數(shù)據(jù)的清洗和加工,包括簡(jiǎn)單的清洗和處理,也包括通過(guò)智能手段如借助算法模型對(duì)數(shù)據(jù)的清洗和加工。

數(shù)據(jù)預(yù)處理的關(guān)鍵鏈路如圖5所示。原始數(shù)據(jù)納入數(shù)據(jù)湖的管理,通?;祀s著各種數(shù)據(jù)。要防止數(shù)據(jù)湖變?yōu)閿?shù)據(jù)沼澤,就需要將數(shù)據(jù)碎片分門(mén)別類,將不可洞察的數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù)歸類為數(shù)據(jù)噪聲,留下可洞察的數(shù)據(jù)和相關(guān)的數(shù)據(jù),我們稱之為“信息元”。這類數(shù)據(jù)進(jìn)一步通過(guò)數(shù)據(jù)加工形成整理后的數(shù)據(jù),與可直接洞察的數(shù)據(jù)共同構(gòu)成了可分析的數(shù)據(jù)。

圖片

▲圖5 數(shù)據(jù)預(yù)處理

我們前面提到數(shù)據(jù)處理大約占了數(shù)據(jù)分析80%的時(shí)間,而在數(shù)據(jù)處理的過(guò)程中,數(shù)據(jù)清洗幾乎會(huì)占據(jù)40%~70%的時(shí)間,且數(shù)據(jù)質(zhì)量越差,其占比越高。數(shù)據(jù)清洗不能被孤立的看待,通過(guò)借助對(duì)元數(shù)據(jù)信息、數(shù)據(jù)分布情況的分析,甚至是根據(jù)分析結(jié)果的異常性來(lái)對(duì)數(shù)據(jù)進(jìn)行有效的清理,會(huì)事半功倍。

所以,數(shù)據(jù)清洗和數(shù)據(jù)分析也是相輔相承,互相依賴、互相促進(jìn)的。常見(jiàn)數(shù)據(jù)清洗包括對(duì)缺失值的處理和異常值的處理。

數(shù)據(jù)加工包括數(shù)據(jù)變換、數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換、表間數(shù)據(jù)處理等。ETL(抽取Extract、轉(zhuǎn)換Transform、加載Load)將上述數(shù)據(jù)清洗、數(shù)據(jù)加工的方法串聯(lián)起來(lái),形成完整的數(shù)據(jù)之“算”鏈路體系,是數(shù)據(jù)準(zhǔn)備過(guò)程中最重要的一環(huán)。04數(shù)據(jù)之“規(guī)”

4.數(shù)據(jù)之“規(guī)”

指數(shù)據(jù)規(guī)范,包括對(duì)數(shù)據(jù)規(guī)范的制定和數(shù)據(jù)管理上的規(guī)章制度?!耙?guī)”是確保數(shù)據(jù)有效性、安全性的基石。

數(shù)據(jù)的規(guī)范,包括兩個(gè)層面。一方面針對(duì)數(shù)據(jù)本身,即數(shù)據(jù)標(biāo)準(zhǔn);另一方面是數(shù)據(jù)管理上的規(guī)范和制度。我們可以通俗的理解為數(shù)據(jù)分析中的“法”。

數(shù)據(jù)標(biāo)準(zhǔn)

數(shù)據(jù)來(lái)源的多樣化帶來(lái)了數(shù)據(jù)的不一致性,多源系統(tǒng)數(shù)據(jù)整合的關(guān)鍵首先就是建立數(shù)據(jù)標(biāo)準(zhǔn)。數(shù)據(jù)標(biāo)準(zhǔn)的定義應(yīng)遵循一定的原則,包括唯一性、統(tǒng)一性、通用性、穩(wěn)定性、前瞻性、可行性“六大特性”和系列化、模塊化“兩化原則”。

基于上述特性和原則,數(shù)據(jù)標(biāo)準(zhǔn)從內(nèi)容層次上可以分為語(yǔ)義標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)和數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)。通過(guò)建立語(yǔ)義標(biāo)準(zhǔn)體系,保證整個(gè)組織層面關(guān)于數(shù)據(jù)分析的溝通“在一個(gè)頻道上”;通過(guò)建立數(shù)據(jù)結(jié)構(gòu)體系,統(tǒng)一數(shù)據(jù)資源目錄及數(shù)據(jù)命名規(guī)則以確保數(shù)據(jù)規(guī)整、易查找;通過(guò)建立數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn),根據(jù)業(yè)務(wù)梳理數(shù)據(jù)標(biāo)簽及數(shù)據(jù)描述規(guī)則以提升分析效率。

數(shù)據(jù)規(guī)范

數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行,需要依賴制度的規(guī)范。無(wú)體系、無(wú)制度的管理無(wú)異于一般散沙。數(shù)據(jù)規(guī)范可以大致分為數(shù)據(jù)基礎(chǔ)規(guī)范、數(shù)據(jù)安全規(guī)范、數(shù)據(jù)質(zhì)量規(guī)范三大類,如圖7所示。

圖片

▲圖6 數(shù)據(jù)規(guī)范體系

5.數(shù)據(jù)之“治”

數(shù)據(jù)之“治”指狹義的數(shù)據(jù)治理,實(shí)質(zhì)上指數(shù)據(jù)治理相關(guān)的一套方法及體系,包括了實(shí)踐數(shù)據(jù)之“規(guī)”來(lái)確保數(shù)據(jù)質(zhì)量的過(guò)程和方法。它不僅是技術(shù)上的治理工作,更是以有效滿足組織各層級(jí)管理訴求的有效手段,它應(yīng)該是包括數(shù)據(jù)、應(yīng)用、技術(shù)和組織的四位一體均衡的治理體系。數(shù)據(jù)治理,最重要的目標(biāo)就是保證數(shù)據(jù)質(zhì)量,即數(shù)據(jù)的一致性及準(zhǔn)確性。理論體系總是看起來(lái)完美無(wú)缺,但應(yīng)用到實(shí)際中,

往往是“理想是豐滿的,現(xiàn)實(shí)是骨感的”。先不說(shuō)平臺(tái)如何搭建、技術(shù)如何選擇、如何保障安全性,真正深入到工作中,會(huì)發(fā)現(xiàn),所有技術(shù)上的難題都不是最難的,如何說(shuō)服各個(gè)部門(mén)主動(dòng)配合數(shù)據(jù)收集工作,是最大的難點(diǎn)。所以,數(shù)據(jù)治理實(shí)質(zhì)上并不只是技術(shù)問(wèn)題,更是一個(gè)管理問(wèn)題。做好數(shù)據(jù)治理,一定首先是自上而下的發(fā)起,其次是有足夠的組織保障,再次是建立切實(shí)有效的機(jī)制體系。

圖片

▲圖7 數(shù)據(jù)治理

數(shù)據(jù)治理需要依賴強(qiáng)大的統(tǒng)籌能力和管理能力才能得以實(shí)現(xiàn),對(duì)于較大型的企業(yè)和組織來(lái)說(shuō),通常都是“吃力不討好”的活,要真正通過(guò)數(shù)據(jù)治理做出成效,是一件非常困難的事情。所以,這里一再?gòu)?qiáng)調(diào)的重中之重便是“高層負(fù)責(zé)”。

高層負(fù)責(zé)是基礎(chǔ),切實(shí)有效地將數(shù)據(jù)治理落實(shí)下去,還需要有合理的“組織保障”。各業(yè)務(wù)部門(mén)的人通常都會(huì)被各類事務(wù)纏身,對(duì)他們來(lái)說(shuō),數(shù)據(jù)的梳理、整合一直是被認(rèn)為重要但確經(jīng)常無(wú)暇關(guān)注的事情。建立專門(mén)的數(shù)據(jù)主責(zé)部門(mén),負(fù)責(zé)統(tǒng)一的管理協(xié)調(diào)工作,再由各業(yè)務(wù)部門(mén)配合各類業(yè)務(wù)數(shù)據(jù)的提供和質(zhì)量保障,才是正解。

數(shù)據(jù)團(tuán)隊(duì)快速的運(yùn)轉(zhuǎn)離不開(kāi)“機(jī)制建立”。機(jī)制需要建立在規(guī)范的基礎(chǔ)上,不同的是,它更側(cè)重強(qiáng)調(diào)管理、監(jiān)控和流程。因此,不同的企業(yè)、組織均需要根據(jù)自身的組織架構(gòu)和文化體系制定適合自己的機(jī)制。值得注意的,一方面是各環(huán)節(jié)責(zé)任人的落實(shí),另一方面是需要在全面性和可執(zhí)行性、規(guī)范性和時(shí)效性方面做一個(gè)平衡。

做好數(shù)據(jù)資產(chǎn)管理,是數(shù)據(jù)分析的重要基礎(chǔ)和保障?!肮堋?、“存”、“算”、“規(guī)”、“治”是各類組織做好數(shù)據(jù)資產(chǎn)管理可以借鑒的有效手段。其中,“管”、“存”、“算”是業(yè)界已經(jīng)形成的標(biāo)準(zhǔn)的基礎(chǔ)知識(shí),可以直接使用;“規(guī)”、“治”則在不同的企業(yè)、組織中需要因地制宜,選擇適合自身的規(guī)范制度及治理機(jī)制。關(guān)于作者:陳雪瑩 ,現(xiàn)就職于明源云,曾就職于遠(yuǎn)光軟件,擁有多年企業(yè)管理軟件實(shí)施及數(shù)據(jù)分析平臺(tái)產(chǎn)品管理一線從業(yè)經(jīng)歷,在數(shù)據(jù)分析、產(chǎn)品設(shè)計(jì)及項(xiàng)目管理方面擁有豐富的經(jīng)驗(yàn)。

本文摘編于《智能數(shù)據(jù)分析:入門(mén)、實(shí)戰(zhàn)與平臺(tái)構(gòu)建》,經(jīng)出版方授權(quán)發(fā)布。(書(shū)號(hào):9787111710646)轉(zhuǎn)載請(qǐng)保留文章來(lái)源。?

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)倉(cāng)寶貝庫(kù)
相關(guān)推薦

2020-12-31 11:21:10

聚焦數(shù)據(jù)

2023-04-28 07:34:35

數(shù)據(jù)管理數(shù)據(jù)資產(chǎn)管理

2022-08-23 14:00:48

數(shù)據(jù)管治

2022-06-09 09:40:55

數(shù)據(jù)資產(chǎn)盤(pán)點(diǎn)

2009-09-18 09:37:51

惠普資產(chǎn)管理軟件

2022-02-17 08:16:23

MMU內(nèi)存管理

2021-05-07 17:39:44

數(shù)據(jù)管理IT運(yùn)營(yíng)

2022-09-02 07:39:15

存算存儲(chǔ)私有云

2016-09-14 15:43:01

數(shù)據(jù)資產(chǎn)

2022-10-25 18:02:31

大數(shù)據(jù)存算分離

2020-02-07 09:32:08

數(shù)據(jù)安全數(shù)據(jù)資產(chǎn)管理安全風(fēng)險(xiǎn)

2017-08-18 15:01:26

網(wǎng)利寶資金存管

2015-07-24 11:26:16

數(shù)據(jù)資產(chǎn)管理

2011-07-06 10:35:59

服務(wù)器HPC氣象預(yù)測(cè)

2021-07-06 18:40:00

數(shù)據(jù)安全法

2024-10-08 14:52:37

2023-05-15 11:34:30

物聯(lián)網(wǎng)IOT

2022-05-27 12:42:31

網(wǎng)絡(luò)安全工業(yè)企業(yè)工控安全領(lǐng)域

2021-04-12 13:07:36

數(shù)據(jù)治理數(shù)據(jù)資產(chǎn)CIO
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)