自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)倉(cāng)庫(kù)詳細(xì)介紹之?dāng)?shù)據(jù)質(zhì)量理論與經(jīng)驗(yàn)

大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)質(zhì)量管理是對(duì)數(shù)據(jù)從計(jì)劃、收集、記錄、存儲(chǔ)、回收、分析和展示生命周期的每個(gè)階段里可能引發(fā)的數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

[[437502]]

本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)倉(cāng)與大數(shù)據(jù)」,作者otw30 。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)倉(cāng)與大數(shù)據(jù)公眾號(hào)。

數(shù)據(jù)質(zhì)量管理是對(duì)數(shù)據(jù)從計(jì)劃、收集、記錄、存儲(chǔ)、回收、分析和展示生命周期的每個(gè)階段里可能引發(fā)的數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。數(shù)據(jù)質(zhì)量管理的終極目標(biāo)是通過(guò)可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價(jià)值,并最終為企業(yè)贏得經(jīng)濟(jì)效益。”——以上內(nèi)容摘自百度百科。

筆者觀點(diǎn):“數(shù)據(jù)質(zhì)量管理不單純是一個(gè)概念,也不單純是一項(xiàng)技術(shù)、也不單純是一個(gè)系統(tǒng),更不單純是一套管理流程,數(shù)據(jù)質(zhì)量管理是一個(gè)集方法論、技術(shù)、業(yè)務(wù)和管理為一體的解決方案。通過(guò)有效的數(shù)據(jù)質(zhì)量控制手段,進(jìn)行數(shù)據(jù)的管理和控制,消除數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)而提升企業(yè)數(shù)據(jù)變現(xiàn)的能力。在數(shù)據(jù)治理過(guò)程中,一切業(yè)務(wù)、技術(shù)和管理活動(dòng)都圍繞這個(gè)目標(biāo)和開(kāi)展”。

備注:我覺(jué)得最后一句話不太嚴(yán)謹(jǐn),因?yàn)閿?shù)據(jù)質(zhì)量只是數(shù)據(jù)治理的一個(gè)子集。

注:以上總結(jié)摘抄自公眾號(hào)“談數(shù)據(jù)”,作者石秀峰

0x00 聊聊四個(gè)常見(jiàn)的數(shù)據(jù)管理知識(shí)體系

網(wǎng)上數(shù)據(jù)質(zhì)量相關(guān)的文章真多,而且閱讀量都還挺高,很多數(shù)據(jù)方面的號(hào)主也喜歡反復(fù)寫(xiě)。由此可見(jiàn),數(shù)據(jù)質(zhì)量對(duì)于數(shù)據(jù)工作者的重要性非常之高。

DAMA 知識(shí)體系

國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA 國(guó)際)是一個(gè)全球性的專業(yè)組織,成立于 1980 年,一直致力于數(shù)據(jù)管理和數(shù)字化的研究、實(shí)踐及相關(guān)知識(shí)體系的建設(shè)。主要包含兩部分:DAMA 數(shù)據(jù)管理知識(shí)體系和專業(yè)考試認(rèn)證。

DAMA 數(shù)據(jù)管理知識(shí)體系(DMBOK框架),有車輪圖(由 11 個(gè)數(shù)據(jù)管理職能領(lǐng)域)和環(huán)境因素六邊形圖(包含 7 個(gè)基本環(huán)境要素)構(gòu)成。其中,數(shù)據(jù)管理職能包括數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)建模和設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)和操作、數(shù)據(jù)安全、數(shù)據(jù)集成和互操作、文檔和內(nèi)容管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)與商務(wù)智能、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理?;经h(huán)境要素包括目標(biāo)與原則、組織與文化、工具、活動(dòng)、角色和職責(zé)、交付成果、技術(shù)。

DAMA 金字塔圖(Aiken 金字塔)中的四個(gè)階段

DAMA 金字塔圖,從數(shù)據(jù)、信息到知識(shí)逐層遞進(jìn),將數(shù)據(jù)管理知識(shí)劃分為四個(gè)階段,指導(dǎo)大家分階段學(xué)習(xí) DAMA 知識(shí)體系和開(kāi)展數(shù)據(jù)管理工作。

專業(yè)考試認(rèn)證,在國(guó)外的名稱是數(shù)據(jù)管理專業(yè)人員認(rèn)證( CDMP ),引入國(guó)內(nèi)后,DAMA 中國(guó)對(duì) CDMP 進(jìn)行了適當(dāng)本地化重構(gòu)。分為:數(shù)據(jù)治理工程師( CDGA)和數(shù)據(jù)治理專家( CDGP ),三個(gè)證書(shū)國(guó)際通用。

對(duì)于個(gè)人來(lái)說(shuō),想長(zhǎng)期從事數(shù)據(jù)管理方面工作,有證和沒(méi)證多少還是有些區(qū)別的。退一步講,不為考證,學(xué)點(diǎn)知識(shí)也是好的。

數(shù)據(jù)管理成熟度評(píng)估模型

DCMM 是國(guó)家工信部信軟司主導(dǎo),具有中國(guó)特色,在數(shù)據(jù)管理領(lǐng)域的國(guó)家級(jí)標(biāo)準(zhǔn)。是企業(yè)數(shù)據(jù)管理能力建設(shè)的指導(dǎo)性理論和能力評(píng)估標(biāo)準(zhǔn)。

DCMM 建設(shè)概念圖

DCMM 等級(jí)定義

DCMM 將數(shù)據(jù)管理能力成熟度劃分為五個(gè)等級(jí),自低向高依次為初始級(jí)、受管理級(jí)、穩(wěn)健級(jí)、量化管理級(jí)和優(yōu)化級(jí),不同等級(jí)代表企業(yè)數(shù)據(jù)管理和應(yīng)用的成熟度水平不同。

當(dāng)然了,國(guó)家的認(rèn)證對(duì)很多企業(yè)還是很有吸引力的,這不還有人付費(fèi)求 DCMM 評(píng)估申請(qǐng)材料模板的:付費(fèi)求一套文件!!!

最近國(guó)家層面的數(shù)據(jù)管理證書(shū) CDP(Certified DCMM Professional)也馬上要出臺(tái)了,該證書(shū)也是依賴于 DCMM 體系。喜大普奔!工信部數(shù)據(jù)管理人才證書(shū)!!!

數(shù)據(jù)治理

數(shù)據(jù)治理概念也是這幾年國(guó)內(nèi)的熱點(diǎn)了,數(shù)據(jù)方向的面試也經(jīng)常被問(wèn)到,但每個(gè)人對(duì)其理解差異也很大。

這里給出認(rèn)可讀比較高的 DAMA 國(guó)際的定義:數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)的管理活動(dòng)行使權(quán)力和控制的活動(dòng)集合(規(guī)劃、監(jiān)控和執(zhí)行)。

數(shù)據(jù)治理是一個(gè)大而全的知識(shí)體系。在數(shù)據(jù)管理的幾乎所有領(lǐng)域(或者數(shù)據(jù)生產(chǎn)加工應(yīng)用全流程),數(shù)據(jù)治理都應(yīng)該參與其中,保證數(shù)據(jù)管理能夠朝著一個(gè)更好的方向發(fā)展。

對(duì)于已經(jīng)構(gòu)建好的數(shù)據(jù)體系,我們需要搜集現(xiàn)有問(wèn)題并排列好優(yōu)先級(jí),做為數(shù)據(jù)治理工作的階段性目標(biāo),比如數(shù)據(jù)質(zhì)量、成本控制、數(shù)據(jù)規(guī)范、數(shù)據(jù)模型、數(shù)據(jù)安全等等。

數(shù)據(jù)資產(chǎn)管理

數(shù)據(jù)管理的概念從 80 年代提出已經(jīng)接近 40 年了,數(shù)據(jù)治理的提法也有近 20年了,而數(shù)據(jù)資產(chǎn)管理的提出基本是最近 5 年的事情。

數(shù)據(jù)資產(chǎn)(Data Asset)是指由企業(yè)擁有或者控制的,能夠?yàn)槠髽I(yè)帶來(lái)未來(lái)經(jīng)濟(jì)利益的,以物理或電子的方式記錄的數(shù)據(jù)資源,如文件資料、電子數(shù)據(jù)等。在企業(yè)中,并非所有的數(shù)據(jù)都構(gòu)成數(shù)據(jù)資產(chǎn), 數(shù)據(jù)資產(chǎn)是能夠?yàn)槠髽I(yè)產(chǎn)生價(jià)值的數(shù)據(jù)資源。

數(shù)據(jù)資產(chǎn)管理(DAM,Data Asset Management)是指規(guī)劃、控制和提供數(shù)據(jù)及信息資產(chǎn)的一組業(yè)務(wù)職能,包括開(kāi)發(fā)、執(zhí)行和監(jiān)督有關(guān) 數(shù)據(jù)的計(jì)劃、政策、方案、項(xiàng)目、流程、方法和程序,從而控制、保 護(hù)、交付和提高數(shù)據(jù)資產(chǎn)的價(jià)值。數(shù)據(jù)資產(chǎn)管理是需要充分融合業(yè)務(wù)、 技術(shù)和管理,來(lái)確保數(shù)據(jù)資產(chǎn)保值增值。

企業(yè)管理數(shù)據(jù)資產(chǎn)就是通過(guò)對(duì)數(shù)據(jù)的生命周期的管理,提高數(shù)據(jù)資產(chǎn)質(zhì)量,促進(jìn)數(shù)據(jù)在“內(nèi)增值,外增效”兩方面的價(jià)值變現(xiàn)。數(shù)據(jù)先被規(guī)范性定義、創(chuàng)建或獲得,然后存儲(chǔ)、維護(hù)和使用,最終被銷毀。數(shù)據(jù)的生命周期開(kāi)始于數(shù)據(jù)獲取之前,企業(yè)先期制定數(shù)據(jù)規(guī)劃、定義 數(shù)據(jù)規(guī)范,以期獲得實(shí)現(xiàn)數(shù)據(jù)采集、交付、存儲(chǔ)和控制所需的技術(shù)能 力。數(shù)據(jù)資產(chǎn)管理一般來(lái)說(shuō)包括統(tǒng)籌規(guī)劃、管理實(shí)施、稽核檢查和資 產(chǎn)運(yùn)營(yíng)四個(gè)主要階段。

數(shù)據(jù)資產(chǎn)的落地手段:

  • 在底層包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)分級(jí)分類、數(shù)據(jù)地圖、數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量保障機(jī)制。
  • 在上層我們需要建立指標(biāo)體系、標(biāo)簽體系。
  • 最后我們需要建立起一套有效的評(píng)估體系,去檢測(cè)數(shù)據(jù)管理成本和數(shù)據(jù)應(yīng)用價(jià)值。

數(shù)據(jù)倉(cāng)庫(kù)

這個(gè)就不必再做介紹了。本系列主題部分共計(jì)十篇,數(shù)據(jù)治理是單獨(dú)的一篇,可見(jiàn)其重要性。但如果有人問(wèn)我,數(shù)據(jù)倉(cāng)庫(kù)最重要的是什么,我會(huì)回答數(shù)據(jù)應(yīng)用和數(shù)據(jù)質(zhì)量。

我們所有數(shù)據(jù)管理工作開(kāi)展的終極目標(biāo)就是獲取信息創(chuàng)造價(jià)值(了解業(yè)務(wù)現(xiàn)狀、預(yù)測(cè)趨勢(shì)、支持決策、發(fā)現(xiàn)商機(jī)、輔助運(yùn)營(yíng)、數(shù)據(jù)交易等等),而價(jià)值的最終體現(xiàn)基本上都在應(yīng)用上,比如各種報(bào)表、分析報(bào)告、用戶畫(huà)像、運(yùn)營(yíng)支撐、風(fēng)控,甚至數(shù)據(jù)交易、聯(lián)合建模。當(dāng)然這個(gè)價(jià)值可以是現(xiàn)在的也可以是未來(lái)的。

數(shù)據(jù)的各種應(yīng)用解決了數(shù)據(jù)怎么用的問(wèn)題,我們依托應(yīng)用去創(chuàng)造價(jià)值。而數(shù)據(jù)質(zhì)量是應(yīng)用能夠最終真正有用的必要條件。試想一下錯(cuò)誤的數(shù)據(jù)、缺失的數(shù)據(jù)、遲到的數(shù)據(jù)對(duì)于數(shù)據(jù)的價(jià)值體現(xiàn),輕則無(wú)法使用,重則造成決策失誤引起重大損失。

0x01 五大數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)

從數(shù)據(jù)本身的角度:完整性、準(zhǔn)確性、一致性、時(shí)效性(及時(shí)+有效)。

從數(shù)據(jù)使用的角度:可訪問(wèn)性。

完整性

完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在數(shù)據(jù)缺失情況。數(shù)據(jù)缺失主要包括記錄的缺失和重要字段信息的缺失,兩者都會(huì)造成統(tǒng)計(jì)結(jié)果不準(zhǔn)確。

完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障。

例如,某個(gè)穩(wěn)定業(yè)務(wù)的數(shù)據(jù)量每天約為 100 萬(wàn)條記錄,某天突然下降了 1 萬(wàn)條,則可能是出現(xiàn)了記錄缺失。

例如,某科高考成績(jī)表中,每個(gè)考卷分?jǐn)?shù)都對(duì)應(yīng)一個(gè)準(zhǔn)考證號(hào),當(dāng)準(zhǔn)考證號(hào)字段的空值數(shù)大于0時(shí),則可能是出現(xiàn)了信息缺失。

一致性

一致性通常體現(xiàn)在跨度很大的數(shù)據(jù)倉(cāng)庫(kù)中。

例如,某公司有很多業(yè)務(wù)數(shù)倉(cāng)分支,對(duì)于同一份數(shù)據(jù),在不同的數(shù)倉(cāng)分支中必須保證一致性。

例如,從在線業(yè)務(wù)庫(kù)加工到數(shù)據(jù)倉(cāng)庫(kù),再到各個(gè)數(shù)據(jù)應(yīng)用節(jié)點(diǎn),用戶 ID 必須保持同一種類型,且長(zhǎng)度也要保持一致。因此,您需要設(shè)計(jì)數(shù)倉(cāng)的公共層以確保數(shù)據(jù)的一致性。

準(zhǔn)確性

準(zhǔn)確性是指數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確、是否存在異?;蛘咤e(cuò)誤的信息。

例如,成績(jī)單中分?jǐn)?shù)出現(xiàn)負(fù)數(shù)或訂單中出現(xiàn)錯(cuò)誤的買(mǎi)家信息等,這些數(shù)據(jù)都是問(wèn)題數(shù)據(jù)。

確保記錄的準(zhǔn)確性也是保證數(shù)據(jù)質(zhì)量必不可少的一部分。

時(shí)效性

包含兩部分:及時(shí)+有效。保障數(shù)據(jù)的及時(shí)產(chǎn)出才能體現(xiàn)數(shù)據(jù)的價(jià)值,同時(shí)對(duì)于部分時(shí)間敏感型的數(shù)據(jù)也必須在有效期內(nèi)使用才行。

例如,決策分析師通常希望每天上班時(shí)候前就能看到前一天的數(shù)據(jù)。若等待時(shí)間過(guò)長(zhǎng),數(shù)據(jù)失去了及時(shí)性的價(jià)值,數(shù)據(jù)分析工作將失去意義。

例如,運(yùn)維人員需要在收到故障告警的同時(shí)立刻能夠拿到關(guān)鍵的運(yùn)行日志數(shù)據(jù),以便更快的排查問(wèn)題恢復(fù)系統(tǒng)。

有效性

指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和業(yè)務(wù)定義的要求。好吧,這個(gè)可以拿掉,應(yīng)該也是屬于準(zhǔn)確性的范疇吧。

可訪問(wèn)性

對(duì)數(shù)據(jù)用戶來(lái)講,最核心的需求是當(dāng)他們需要用數(shù)據(jù)的時(shí)候,這些數(shù)據(jù)是可以被訪問(wèn)的。他們想知道企業(yè)有哪些數(shù)據(jù)?存放在哪里?以及如何訪問(wèn)到這些數(shù)據(jù)?我們看到很多數(shù)據(jù)平臺(tái)提供的統(tǒng)一數(shù)據(jù)資源目錄功能就是解決這個(gè)問(wèn)題的。

數(shù)據(jù)質(zhì)量問(wèn)題,可以分為這么三類:

  • 源端數(shù)據(jù)問(wèn)題(不準(zhǔn)確、不一致、不完整、不可訪問(wèn))
  • 數(shù)據(jù)處理問(wèn)題(同步集成、計(jì)算、存儲(chǔ)、查詢)(不準(zhǔn)確、不一致、不完整、不及時(shí)、不可訪問(wèn))。
  • 數(shù)據(jù)口徑不一致、各方理解偏差(不準(zhǔn)確、不一致)。

數(shù)據(jù)質(zhì)量保障,是一個(gè)系統(tǒng)化的工程,我們需要全局協(xié)調(diào)一致才行。為了讓大家有更深刻的體會(huì),接下來(lái),我們從三個(gè)角度分別給大家闡述。

0x02 技術(shù)業(yè)務(wù)管理三位一體的保障體系

技術(shù)

我們需要保證數(shù)據(jù)從源端到最終應(yīng)用端流轉(zhuǎn)過(guò)程中的數(shù)據(jù)質(zhì)量,一方面我們需要提高每一位數(shù)據(jù)開(kāi)發(fā)者的技術(shù)能力來(lái)提高模型和 ETL 的設(shè)計(jì)與落地質(zhì)量,另一方面我們使用數(shù)據(jù)質(zhì)量工具來(lái)對(duì) ETL 過(guò)程進(jìn)行監(jiān)控。對(duì)于源端的數(shù)據(jù)問(wèn)題,有時(shí)候也可以通過(guò)技術(shù)手段解決,比如編碼映射、ID-Mapping、缺失值補(bǔ)全等等。

  • 數(shù)據(jù)模型設(shè)計(jì)的質(zhì)量問(wèn)題,例如:數(shù)據(jù)庫(kù)表結(jié)構(gòu)、數(shù)據(jù)庫(kù)約束條件、數(shù)據(jù)校驗(yàn)規(guī)則的設(shè)計(jì)開(kāi)發(fā)不合理,造成數(shù)據(jù)錄入無(wú)法校驗(yàn)或校驗(yàn)不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
  • 數(shù)據(jù)源存在數(shù)據(jù)質(zhì)量問(wèn)題,例如:有些數(shù)據(jù)是從生產(chǎn)系統(tǒng)采集過(guò)來(lái)的,在生產(chǎn)系統(tǒng)中這些數(shù)據(jù)就存在重復(fù)、不完整、不準(zhǔn)確等問(wèn)題,而采集過(guò)程有沒(méi)有對(duì)這些問(wèn)題做清洗處理,這種情況也比較常見(jiàn)。
  • 數(shù)據(jù)采集過(guò)程質(zhì)量問(wèn)題, 例如:采集點(diǎn)、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確,數(shù)據(jù)采集接口效率低,導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
  • 數(shù)據(jù)傳輸過(guò)程的問(wèn)題,例如:數(shù)據(jù)接口本身存在問(wèn)題、數(shù)據(jù)接口參數(shù)配置錯(cuò)誤、網(wǎng)絡(luò)不可靠等都會(huì)造成數(shù)據(jù)傳輸過(guò)程中的發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題。
  • 數(shù)據(jù)裝載過(guò)程的問(wèn)題,例如:數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問(wèn)題。
  • 數(shù)據(jù)存儲(chǔ)的質(zhì)量問(wèn)題,例如:數(shù)據(jù)存儲(chǔ)設(shè)計(jì)不合理,數(shù)據(jù)的存儲(chǔ)能力有限,人為后臺(tái)調(diào)整數(shù)據(jù),引起的數(shù)據(jù)丟失、數(shù)據(jù)無(wú)效、數(shù)據(jù)失真、記錄重復(fù)。
  • 系統(tǒng)之間的數(shù)據(jù)不一致問(wèn)題。

業(yè)務(wù)

有時(shí)候,數(shù)據(jù)質(zhì)量問(wèn)題的根本原因是業(yè)務(wù)問(wèn)題造成的,我們就需要從業(yè)務(wù)著手解決。

我們需要有業(yè)務(wù)專家或者業(yè)務(wù)部門(mén)參與,統(tǒng)一數(shù)據(jù)口徑、糾正理解偏差、通過(guò)深入的溝通明確業(yè)務(wù)方訴求。

數(shù)據(jù)質(zhì)量改進(jìn)的驅(qū)動(dòng)因素永遠(yuǎn)來(lái)自業(yè)務(wù)目標(biāo),不能脫離業(yè)務(wù)需求談數(shù)據(jù)質(zhì)量。制定數(shù)據(jù)質(zhì)量改進(jìn)方案的基礎(chǔ),首先是清晰定義業(yè)務(wù)需求,然后是根據(jù)業(yè)務(wù)需求對(duì)企業(yè)業(yè)務(wù)的長(zhǎng)期影響來(lái)定義數(shù)據(jù)質(zhì)量問(wèn)題的優(yōu)先級(jí)。衡量業(yè)務(wù)影響、定義問(wèn)題優(yōu)先級(jí)有助于明確治理目標(biāo)并跟進(jìn)數(shù)據(jù)質(zhì)量改進(jìn)的進(jìn)度。

  • 業(yè)務(wù)需求不清晰,例如:數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則不清晰,導(dǎo)致技術(shù)無(wú)法構(gòu)建出合理、正確的數(shù)據(jù)模型。
  • 業(yè)務(wù)需求的變更,這個(gè)問(wèn)題其實(shí)是對(duì)數(shù)據(jù)質(zhì)量影響非常大的,需求一變,數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)存儲(chǔ)等環(huán)節(jié)都會(huì)受到影響,稍有不慎就會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題的發(fā)生。
  • 業(yè)務(wù)端數(shù)據(jù)輸入不規(guī)范,常見(jiàn)的數(shù)據(jù)錄入問(wèn)題,如:大小寫(xiě)、全半角、特殊字符等一不小心就會(huì)錄錯(cuò)。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān),錄數(shù)據(jù)的人工作嚴(yán)謹(jǐn)、認(rèn)真,數(shù)據(jù)質(zhì)量就相對(duì)較好,反之就較差。
  • 數(shù)據(jù)作假,對(duì),你沒(méi)看錯(cuò),就是數(shù)據(jù)作假!操作人員為了提高或降低考核指標(biāo),對(duì)一些數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)真實(shí)性無(wú)法保證。

管理

技術(shù)再努力起到的作用畢竟有限,有些事情必須通過(guò)管理手段去約束。通過(guò)管理使得規(guī)范得以貫徹,通過(guò)管理來(lái)提高團(tuán)隊(duì)成員的數(shù)據(jù)質(zhì)量意識(shí),通過(guò)管理手段去協(xié)調(diào)各個(gè)參與方提高效率。

可以建立數(shù)據(jù)質(zhì)量保障委員會(huì),源端團(tuán)隊(duì)負(fù)責(zé)人、數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人、業(yè)務(wù)團(tuán)隊(duì)負(fù)責(zé)人,都要參與其中。統(tǒng)一規(guī)劃頂層設(shè)計(jì),制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)數(shù)據(jù)質(zhì)量的管理機(jī)制,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量。源端的數(shù)據(jù)問(wèn)題最好在源端解決,建立指標(biāo)體系統(tǒng)一各方的數(shù)據(jù)口徑,明確數(shù)據(jù)問(wèn)題的責(zé)任誰(shuí)的問(wèn)題誰(shuí)解決。

總之,只有管理上重視了,整體工作才好開(kāi)展。

  • 認(rèn)知問(wèn)題。企業(yè)管理缺乏數(shù)據(jù)思維,沒(méi)有認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性,重系統(tǒng)而輕數(shù)據(jù),認(rèn)為系統(tǒng)是萬(wàn)能的,數(shù)據(jù)質(zhì)量差些也沒(méi)關(guān)系。
  • 沒(méi)有明確數(shù)據(jù)歸口管理部門(mén)或崗位,缺乏數(shù)據(jù)認(rèn)責(zé)機(jī)制,出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題找不到負(fù)責(zé)人。
  • 缺乏數(shù)據(jù)規(guī)劃,沒(méi)有明確的數(shù)據(jù)質(zhì)量目標(biāo),沒(méi)有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。
  • 數(shù)據(jù)輸入規(guī)范不統(tǒng)一,不同的業(yè)務(wù)部門(mén)、不同的時(shí)間、甚至在處理相同業(yè)務(wù)的時(shí)候,由于數(shù)據(jù)輸入規(guī)范不同,造成數(shù)據(jù)沖突或矛盾。
  • 缺乏有效的數(shù)據(jù)質(zhì)量問(wèn)題處理機(jī)制,數(shù)據(jù)質(zhì)量問(wèn)題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒(méi)有一個(gè)統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法閉環(huán)。
  • 缺乏有效的數(shù)據(jù)管控機(jī)制,對(duì)歷史數(shù)據(jù)質(zhì)量檢查、新增數(shù)據(jù)質(zhì)量校驗(yàn)沒(méi)有明確和有效的控制措施,出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法考核。

小結(jié):影響數(shù)據(jù)質(zhì)量的因素,可以總結(jié)為兩類,客觀因素和主觀因素。客觀因素:在數(shù)據(jù)各環(huán)節(jié)流轉(zhuǎn)中,由于系統(tǒng)異常和流程設(shè)置不當(dāng)?shù)纫蛩兀瑥亩鸬臄?shù)據(jù)質(zhì)量問(wèn)題。主觀因素:在數(shù)據(jù)各環(huán)節(jié)處理中,由于人員素質(zhì)低和管理缺陷等因素,從而操作不當(dāng)而引起的數(shù)據(jù)質(zhì)量問(wèn)題。

0x03 數(shù)據(jù)全周期管理保障體系

數(shù)據(jù)的生命周期從數(shù)據(jù)規(guī)劃開(kāi)始,中間是一個(gè)包括設(shè)計(jì)、創(chuàng)建、處理、部署、應(yīng)用、監(jiān)控、存檔、銷毀這幾個(gè)階段并不斷循環(huán)的過(guò)程。企業(yè)的數(shù)據(jù)質(zhì)量管理應(yīng)貫穿數(shù)據(jù)生命周期的全過(guò)程,覆蓋數(shù)據(jù)標(biāo)準(zhǔn)的規(guī)劃設(shè)計(jì)、數(shù)據(jù)的建模、數(shù)據(jù)質(zhì)量的監(jiān)控、數(shù)據(jù)問(wèn)題診斷、數(shù)據(jù)清洗、優(yōu)化完善等方面。

數(shù)據(jù)規(guī)劃。從企業(yè)戰(zhàn)略的角度不斷完善企業(yè)數(shù)據(jù)模型的規(guī)劃,把數(shù)據(jù)質(zhì)量管理融入到企業(yè)戰(zhàn)略中,建立數(shù)據(jù)治理體系,并融入企業(yè)文化中。

數(shù)據(jù)設(shè)計(jì)。推動(dòng)數(shù)據(jù)標(biāo)準(zhǔn)化制定和貫徹執(zhí)行,根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化要求統(tǒng)一建模管理,統(tǒng)一數(shù)據(jù)分類、數(shù)據(jù)編碼、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),為數(shù)據(jù)的集成、交換、共享、應(yīng)用奠定基礎(chǔ)。

數(shù)據(jù)創(chuàng)建。利用數(shù)據(jù)模型保證數(shù)據(jù)結(jié)構(gòu)完整、一致,執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范數(shù)據(jù)維護(hù)過(guò)程,加入數(shù)據(jù)質(zhì)量檢查,從源頭系統(tǒng)保證數(shù)據(jù)的正確性、完整性、唯一性。

數(shù)據(jù)使用。利用元數(shù)據(jù)監(jiān)控?cái)?shù)據(jù)使用;利用數(shù)據(jù)標(biāo)準(zhǔn)保證數(shù)據(jù)正確;利用數(shù)據(jù)質(zhì)量檢查加工正確。元數(shù)據(jù)提供各系統(tǒng)統(tǒng)一的數(shù)據(jù)模型進(jìn)行使用,監(jiān)控?cái)?shù)據(jù)的來(lái)源去向,提供全息的數(shù)據(jù)地圖支持;企業(yè)從技術(shù)、管理、業(yè)務(wù)三個(gè)方面進(jìn)行規(guī)范,嚴(yán)格執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn),保證數(shù)據(jù)輸入端的正確性;數(shù)據(jù)質(zhì)量提供了事前預(yù)防、事中預(yù)警、事后補(bǔ)救的三個(gè)方面措施,形成完整的數(shù)據(jù)治理體系。

0x04 數(shù)據(jù)流轉(zhuǎn)鏈路保障體系

數(shù)據(jù)源。源端的數(shù)據(jù)問(wèn)題,最好在源端解決。有時(shí)候基于降低下游計(jì)算復(fù)雜度而對(duì)源端做些改造也是必要的。源端解決不了的問(wèn)題需要跟數(shù)據(jù)應(yīng)用端協(xié)商一致制定改造方案。

數(shù)據(jù)集成存儲(chǔ)計(jì)算。通過(guò)制定規(guī)范保證設(shè)計(jì)和開(kāi)發(fā)的高質(zhì)量開(kāi)展減少錯(cuò)誤,通過(guò)數(shù)據(jù)質(zhì)量稽核工具及時(shí)發(fā)現(xiàn)數(shù)據(jù)問(wèn)題,通過(guò)監(jiān)控告警程序?qū)崟r(shí)發(fā)現(xiàn)并處理 ETL 任務(wù)異常。

數(shù)據(jù)應(yīng)用。統(tǒng)一口徑、糾正理解偏差。

0x05 數(shù)據(jù)處理前中后三階段保障體系

事前預(yù)防控制。數(shù)據(jù)開(kāi)發(fā)人員需要提高保證數(shù)據(jù)質(zhì)量意識(shí),同時(shí)組織內(nèi)構(gòu)建完善的數(shù)倉(cāng)規(guī)范,保障模型設(shè)計(jì)、ETL 開(kāi)發(fā)等核心流程的優(yōu)質(zhì)方法論能夠切實(shí)得到貫徹。

事中過(guò)程控制。通過(guò)建立一套切實(shí)可行的數(shù)據(jù)質(zhì)量監(jiān)控體系、設(shè)計(jì)數(shù)據(jù)質(zhì)量稽核規(guī)則、加強(qiáng)從數(shù)據(jù)源頭控制數(shù)據(jù)質(zhì)量、把控整個(gè)數(shù)倉(cāng)設(shè)計(jì)和開(kāi)發(fā)過(guò)程,形成覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)質(zhì)量管理。

事后監(jiān)督控制。出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,清晰定位數(shù)據(jù)技術(shù)責(zé)任人,進(jìn)行整改迭代,保證數(shù)據(jù)質(zhì)量管理形成一個(gè)良性循環(huán),實(shí)現(xiàn)數(shù)據(jù)向優(yōu)質(zhì)資產(chǎn)的轉(zhuǎn)變。

 

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)倉(cāng)與大數(shù)據(jù)
相關(guān)推薦

2021-10-27 11:33:31

數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分層

2018-03-20 09:36:57

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)知識(shí)

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖大數(shù)據(jù)

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2022-07-28 13:47:30

云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)

2020-06-11 08:56:34

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)

2010-07-20 09:26:17

SQL Server

2019-06-06 14:08:37

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析數(shù)據(jù)報(bào)表

2022-12-30 18:31:40

履約商家商品

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2023-08-23 15:33:15

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析

2009-01-19 14:22:58

OLTP數(shù)據(jù)倉(cāng)庫(kù)區(qū)別

2009-05-04 13:19:27

2023-09-05 16:30:53

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析

2024-04-22 13:36:00

數(shù)據(jù)中臺(tái)數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)

2013-03-20 16:23:53

數(shù)據(jù)清洗

2018-07-24 09:28:18

存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)

2022-11-29 17:16:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)