自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一篇文章說清楚如何提升大數(shù)據(jù)質(zhì)量

新聞 大數(shù)據(jù)
正如大家所知,大數(shù)據(jù)建設(shè)的目標是為了融合組織數(shù)據(jù),增加組織的洞察力和競爭力,實現(xiàn)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級。而提高數(shù)據(jù)質(zhì)量是為了鞏固大數(shù)據(jù)建設(shè)成果,解決大數(shù)據(jù)建設(shè)成果不能滿足業(yè)務(wù)要求的問題。

 [[322322]]

正如大家所知,大數(shù)據(jù)建設(shè)的目標是為了融合組織數(shù)據(jù),增加組織的洞察力和競爭力,實現(xiàn)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級。而提高數(shù)據(jù)質(zhì)量是為了鞏固大數(shù)據(jù)建設(shè)成果,解決大數(shù)據(jù)建設(shè)成果不能滿足業(yè)務(wù)要求的問題。并且,數(shù)據(jù)質(zhì)量問題不僅僅是一個技術(shù)問題,它也可能出現(xiàn)在業(yè)務(wù)和管理的過程中。所以,要想提高數(shù)據(jù)質(zhì)量,就必須懂行業(yè)、懂組織、懂業(yè)務(wù)。當然,正如“數(shù)據(jù)博士”Jim barker 所說,我們可以簡單地通過引入一些工具和規(guī)則就可以解決 80% 的問題,也可以引入一個復(fù)雜的系統(tǒng)工程來解決 100% 的質(zhì)量問題,取決于我們希望達到什么樣的質(zhì)量標準。

借此機會,我也很期待各位朋友能夠與我們分享你遇到的數(shù)據(jù)質(zhì)量問題、故事和解決方法,這將對我們的研究和研發(fā)工作帶來莫大的幫助。

為了盡量說清楚數(shù)據(jù)質(zhì)量問題的來龍去脈和解決方法,篇幅較長,我將它分為以下幾個部分:

  1. 大數(shù)據(jù)行業(yè)背景和現(xiàn)狀
  2. 大數(shù)據(jù)行業(yè)發(fā)展過程中出現(xiàn)的問題
  3. 國家標準中的數(shù)據(jù)質(zhì)量評價指標
  4. 數(shù)據(jù)質(zhì)量出現(xiàn)的原因
  5. 解決數(shù)據(jù)質(zhì)量問題的思路

1.大數(shù)據(jù)行業(yè)背景和現(xiàn)狀

2014 年大數(shù)據(jù)被寫入政府工作報告,成為大數(shù)據(jù)政策元年,大數(shù)據(jù)開始成為熱點;2015 年國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展的行動綱要》,國家層面開始“大數(shù)據(jù)”頂層設(shè)計;2016 年工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016 年 -2020 年)》,大數(shù)據(jù)上升為國家戰(zhàn)略;2019 年政府工作報告提出加強新一代信息基礎(chǔ)設(shè)施建設(shè)(新基建),我們也逐步從“數(shù)據(jù)大國”邁向“數(shù)據(jù)強國”。

一篇文章说清楚如何提升大数据质量

根據(jù)華為公司在 2019 年對其自身客戶關(guān)于數(shù)字化轉(zhuǎn)型的一項調(diào)查,只有 5% 的企業(yè)處于觀望,31% 的企業(yè)在規(guī)劃準備,36% 的企業(yè)已經(jīng)開始先期試點,26% 的企業(yè)已經(jīng)大規(guī)模推行,數(shù)據(jù)字化轉(zhuǎn)型已經(jīng)進入深水期。這意味著 95% 的企業(yè)已經(jīng)開始數(shù)字化轉(zhuǎn)弄的工作。

大數(shù)據(jù)經(jīng)過 6 年的快速發(fā)展期,已經(jīng)比較明顯地分為兩個階段,第一階段是大數(shù)據(jù)歸集、治理和價值探索,第二階段是大數(shù)據(jù)價值體現(xiàn)。當下,部分政府和企業(yè)已經(jīng)在第一階段中完成了數(shù)據(jù)的歸集和治理,大步邁入數(shù)據(jù)價值體現(xiàn)的第二階段,努力實現(xiàn)組織的業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)升級。

一篇文章说清楚如何提升大数据质量

然而,大數(shù)據(jù)發(fā)展過程中仍然存在不少困難和問題,缺少整體規(guī)劃和實施路徑,缺少高層支持,部門壁壘難以打破,業(yè)務(wù)價值體現(xiàn)不足,技術(shù)能力不足,等等。就我個人來看,這里最核心的一個問題就是業(yè)務(wù)價值體現(xiàn)不足,沒有業(yè)務(wù)價值的支撐,就不會有各部門領(lǐng)導(dǎo)的支持,更不會有高層的支持和資金的支持。所以,數(shù)字化轉(zhuǎn)型一定要以價值為導(dǎo)向,在一個“點”上做出實際效果以后再進行“面”上的拓展。

2. 大數(shù)據(jù)發(fā)展過程中的質(zhì)量問題

要體現(xiàn)數(shù)據(jù)價值,前提就是數(shù)據(jù)質(zhì)量的保障,質(zhì)量沒有得到 100% 保證的數(shù)據(jù)是很難體現(xiàn)出業(yè)務(wù)價值的,如果基于這些有問題的數(shù)據(jù)做決策支持,或做業(yè)務(wù)辦理,將會得到災(zāi)難性的結(jié)果,讓領(lǐng)導(dǎo)層和數(shù)據(jù)使用方對大數(shù)據(jù)失去信心。

根據(jù)哈工大王志宏先生在科技導(dǎo)報發(fā)表的研究表明,如果沒有良好的數(shù)據(jù)質(zhì)量,大數(shù)據(jù)將會對決策產(chǎn)生誤導(dǎo),甚至產(chǎn)生有害的結(jié)果。

  • 在數(shù)倉建設(shè)上,50% 的數(shù)據(jù)倉庫因數(shù)據(jù)質(zhì)量而被取消或延遲。
  • 在經(jīng)濟損失上,數(shù)據(jù)錯誤每年對美國工業(yè)界造成的經(jīng)濟損失約占 GDP 的 6%。
  • 在醫(yī)療事故上,根據(jù)美國醫(yī)療委員會的統(tǒng)計,由于數(shù)據(jù)錯誤引起的醫(yī)療事故僅在美國每年就導(dǎo)致高達 98000 名患者喪生。
  • 在電信產(chǎn)業(yè)上,數(shù)據(jù)錯誤經(jīng)常導(dǎo)致故障排除的延誤、多余設(shè)備租用和服務(wù)費收取錯誤,損害了企業(yè)信譽甚至?xí)虼耸ズ芏嘤脩簟?/li>
  • 在商業(yè)上,美國零售業(yè)每年僅因標價錯誤就損失 25 億美元。
  • 在金融企業(yè)中:因數(shù)據(jù)質(zhì)量問題導(dǎo)致的信用卡欺詐失察在 2008 年即造成 48 億美元的損失。

被譽為“數(shù)據(jù)博士”的 Jim barker,用一個簡單的醫(yī)學(xué)概念來定義兩種類型的數(shù)據(jù)質(zhì)量問題。

  • 第一類數(shù)據(jù)質(zhì)量問題是比較簡單而明顯的問題,我們可以使用自動化工具檢測到。
  • 第二類數(shù)據(jù)質(zhì)量問題是非常隱秘的問題,大家都知道它是存在的,但它看不見摸不著,更處理不了,因為它需要放在特殊情境才能被檢測到。

它們之間的區(qū)別簡而言之可歸納為如下幾點:

  • 第一類數(shù)據(jù)質(zhì)量問題首先需要“know what”才能來檢測數(shù)據(jù)的完整性、一致性、唯一性和有效性。這些屬性靠數(shù)據(jù)質(zhì)量軟件甚至手動很好地找到。你不需要有很多的背景知識,或者數(shù)據(jù)分析經(jīng)驗。只要按照 4 個屬性驗證它的存在,就可以判定它錯誤的。例如,如果我們在性別領(lǐng)域插入一個 3,我們就可以判定它到底是不是一個有效值。
  • 第二類數(shù)據(jù)質(zhì)量問題需要“know why”來檢測時效性、一致性和準確性屬性。需要研究能力、洞察力和經(jīng)驗,而不是簡簡單單就可以找得出來的。這些數(shù)據(jù)集經(jīng)常從表面上看起來沒有問題。但是問題往往存在于細節(jié)中,需要時間去發(fā)現(xiàn)。Jim 舉的例子就是一份退休人員的雇傭記錄,如果我們不知道他們早已退休的話,是看不出來這個數(shù)據(jù)是錯的。

所以,解決這些數(shù)據(jù)質(zhì)量問題的關(guān)鍵就是需要一個復(fù)雜的、策略化的方法,而非孤立的、片面的來看問題。一旦數(shù)據(jù)質(zhì)量不好,我們就需要尋求自動化與人工的雙重方式才能解決這個問題了。

根據(jù) Jim barker 的經(jīng)驗:

第一類基本涵蓋了 80% 的數(shù)據(jù)質(zhì)量問題,但只消耗了我們 20% 的經(jīng)費成本。

第二類數(shù)據(jù)問題往往需要多方的輸入,以便發(fā)現(xiàn)、標記和根除。雖然我們客戶關(guān)系管理系統(tǒng)中的每個人都有購買日期,但購買日期可能不正確,或者與發(fā)票或發(fā)貨清單不符。只有專家才能通過仔細核查其內(nèi)容來解決問題并手動改進客戶關(guān)系管理系統(tǒng)。

第一類數(shù)據(jù)質(zhì)量的挑戰(zhàn)可以快速解決,但第二類問題提出了一個挑戰(zhàn),必須依靠人類的專業(yè)知識才可以解決。后面會介紹龍石數(shù)據(jù)的做法,我們可以簡單地通過引入一些工具和規(guī)則就可以解決 80% 的問題,也可以引入一個復(fù)雜的系統(tǒng)工程來解決 100% 的質(zhì)量問題,取決于我們希望達到什么樣的質(zhì)量標準。

3. 國家標準中的數(shù)據(jù)質(zhì)量評價指標

目前為止,最權(quán)威的標準是由全國信息技術(shù)標準化技術(shù)委員會提出的數(shù)據(jù)質(zhì)量評價指標(GB/T36344-2018 ICS 35.24.01),它包含以下幾個方面:

一篇文章说清楚如何提升大数据质量

規(guī)范性: 指的是數(shù)據(jù)符合數(shù)據(jù)標準、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。例如 GB/T 2261.1-2003 中定義的性別代碼標準是 0 表示未知性別,1 表示男,2 表示女,9 表示未說明。GB 11643-1999 中定義的居民身份證編碼規(guī)則是 6 位數(shù)字地址碼,8 位數(shù)字出生日期碼,三位數(shù)字順序碼,一位數(shù)字校驗碼。

完整性: 指的是按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。例如互聯(lián)網(wǎng) + 監(jiān)管主題庫中,監(jiān)管對象為特種設(shè)備時,監(jiān)管對象標識必須包含企業(yè)統(tǒng)一社會信用代碼 + 產(chǎn)品品牌 + 設(shè)備編碼,監(jiān)管對象為藥品時,監(jiān)管對象標識必須包含藥品名稱 + 批準文號 + 生產(chǎn)批號。

準確性: 指的是數(shù)據(jù)準確表示其所描述的真實實體(實際對象)真實值的程度。例如互聯(lián)網(wǎng) + 監(jiān)管行政檢查行為中的行政相對人為公民時,證件類型和證件號碼只能是身份證號碼。

一致性: 指的是數(shù)據(jù)與其它特定上下文中使用的數(shù)據(jù)無矛盾的程度。例如許可證信息與法人基礎(chǔ)信息是否一致,檢查計劃與檢查記錄是否匹配。

時效性: 指的是數(shù)據(jù)在時間變化中的正確程度。例如企業(yè)住址搬遷后,企業(yè)法人庫中的住址是否及時更新了。營業(yè)執(zhí)照已經(jīng)辦理,許可照辦理時是否可以及時獲取到營業(yè)執(zhí)照信息。

可訪問性: 指的是數(shù)據(jù)能被訪問的程度。

除此之外,還有一些業(yè)內(nèi)認可的補充指標,并且在質(zhì)量工作的實際開展中,可以根據(jù)數(shù)據(jù)的實際情況和業(yè)務(wù)要求進行擴展,例如:

唯一性: 描述數(shù)據(jù)是否存在重復(fù)記錄(國標歸在準確性中)。

穩(wěn)定性: 描述數(shù)據(jù)的波動是否是穩(wěn)定的,是否在其有效范圍內(nèi)。

可信性: 描述數(shù)據(jù)來源的權(quán)威性、數(shù)據(jù)的真實性、數(shù)據(jù)產(chǎn)生的時間近、鮮活度高。

4. 數(shù)據(jù)質(zhì)量問題出現(xiàn)的原因

大數(shù)據(jù)的建設(shè)和管理是一個專業(yè)且復(fù)雜的工程,涵蓋了業(yè)務(wù)梳理、標準制定、元數(shù)據(jù)管理、數(shù)據(jù)模型管理、數(shù)據(jù)匯聚、清洗加工、中心存儲、資源目錄編制、共享交換、數(shù)據(jù)維護、數(shù)據(jù)失效等等過程。在任何一個環(huán)節(jié)中出錯,都將導(dǎo)致數(shù)據(jù)的錯誤。甚至,源頭數(shù)據(jù)本身就是錯誤的。所以,數(shù)據(jù)質(zhì)量問題不僅僅是一個技術(shù)問題,它也可能出現(xiàn)在業(yè)務(wù)和管理的過程中。

一篇文章说清楚如何提升大数据质量

數(shù)據(jù)質(zhì)量的技術(shù)因素:

  • 數(shù)據(jù)標準制定的質(zhì)量問題:數(shù)據(jù)輸入規(guī)范不統(tǒng)一,不同的業(yè)務(wù)部門、不同的時間、甚至在處理相同業(yè)務(wù)的時候,由于數(shù)據(jù)輸入規(guī)范不同,造成數(shù)據(jù)沖突或矛盾。如果在數(shù)據(jù)的生成過程中包含主觀判斷的結(jié)果,必然會導(dǎo)致數(shù)據(jù)中含有主觀的偏見因素。并且,不是所有行業(yè)都有公認可信的數(shù)據(jù)標準,而組織標準制定過程中容易出現(xiàn)數(shù)據(jù)元描述及理解錯誤,代碼碼集定義不正確、不完整等情況。
  • 數(shù)據(jù)模型設(shè)計的質(zhì)量問題:由于對業(yè)務(wù)理解的不到位或技術(shù)實踐水平不到位,數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)庫約束條件、數(shù)據(jù)校驗規(guī)則的設(shè)計不合理,造成數(shù)據(jù)存儲混亂、重復(fù)、不完整、不準確。
  • 數(shù)據(jù)源本身存在質(zhì)量問題:在生產(chǎn)系統(tǒng)中有些數(shù)據(jù)就存在不規(guī)范、不完整、不準確、不一致等問題,而采集過程沒有對這些問題做清洗加工處理,或清洗加工的程序代碼不正確。
  • 數(shù)據(jù)梳理過程的質(zhì)量問題:在數(shù)據(jù)采集之前,需要梳理組織機構(gòu)、業(yè)務(wù)事項、信息系統(tǒng)、數(shù)據(jù)資源清單等信息,那么對業(yè)務(wù)的理解不到位,將造成梳理報告的不完整或不正確。
  • 數(shù)據(jù)采集過程的質(zhì)量問題:采集點、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確,數(shù)據(jù)采集接口效率低,導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
  • 數(shù)據(jù)清洗加工的質(zhì)量問題:數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問題,甚至未按照數(shù)據(jù)標準開展相應(yīng)的清洗加工工作,自由發(fā)揮的空間過大。并且在數(shù)據(jù)匯聚的過程中,沒有及時建立數(shù)據(jù)的相關(guān)性,導(dǎo)致后期很難補充完善。

數(shù)據(jù)質(zhì)量的業(yè)務(wù)因素:

  • 業(yè)務(wù)理解不到位:數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則、相關(guān)性分析不到位,導(dǎo)致技術(shù)無法構(gòu)建出合理、正確的數(shù)據(jù)模型。
  • 業(yè)務(wù)流程的變更:業(yè)務(wù)流程一變,數(shù)據(jù)模型設(shè)計、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)清洗、數(shù)據(jù)存儲等環(huán)節(jié)都會受到影響,稍有不慎就會導(dǎo)致數(shù)據(jù)質(zhì)量問題的發(fā)生。
  • 數(shù)據(jù)輸入不規(guī)范:常見的數(shù)據(jù)錄入問題,如:大小寫、全半角、特殊字符等一不小心就會錄錯,甚至還會將數(shù)據(jù)輸入到錯誤的字段中,造成“張冠李戴”。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān),錄數(shù)據(jù)的人工作嚴謹、認真,數(shù)據(jù)質(zhì)量就相對較好,反之就較差。
  • 業(yè)務(wù)系統(tǒng)煙囪林立:過去 20 年中,只要是稍大一點的企業(yè)和政府部門,都建設(shè)了一批信息化系統(tǒng)來解決業(yè)務(wù)問題,但也導(dǎo)致了如今信息化整合的痛點和困難,變先發(fā)優(yōu)勢為數(shù)據(jù)困境。
  • 數(shù)據(jù)作假:操作人員為了提高或降低考核指標,對一些數(shù)據(jù)進行處理,使得數(shù)據(jù)真實性無法保證。

數(shù)據(jù)質(zhì)量的管理因素:

  • 人才缺乏:組織以自身的業(yè)務(wù)發(fā)展的主要原則組建團隊,數(shù)據(jù)建設(shè)則依賴于外部服務(wù)公司,而自身沒有建立相應(yīng)的管理手段和監(jiān)督機制,從而無法準確判斷數(shù)據(jù)項目的建設(shè)成效。
  • 流程管理不完善:缺乏有效的數(shù)據(jù)質(zhì)量保障機制和問題處理機制,數(shù)據(jù)質(zhì)量問題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒有一個統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問題無法閉環(huán)。
  • 成員意識不開放:組織管理缺乏數(shù)據(jù)思維,沒有認識到數(shù)據(jù)質(zhì)量的重要性,重系統(tǒng)而輕數(shù)據(jù),認為系統(tǒng)是萬能的,數(shù)據(jù)質(zhì)量差些也沒關(guān)系。組織成員沒有從組織戰(zhàn)略的視角來看待數(shù)據(jù)資產(chǎn),而把數(shù)據(jù)看成是創(chuàng)造它的部門的資產(chǎn),從而導(dǎo)致數(shù)據(jù)冗余、數(shù)據(jù)不一致、數(shù)據(jù)割裂,從而導(dǎo)致數(shù)據(jù)價值難以發(fā)掘。
  • 獎懲機制不明確:沒有明確數(shù)據(jù)歸口管理部門或崗位,缺乏數(shù)據(jù)認責機制,出現(xiàn)數(shù)據(jù)質(zhì)量問題找不到權(quán)威源頭或找不到負責人。缺乏數(shù)據(jù)規(guī)劃,沒有明確的數(shù)據(jù)質(zhì)量目標,沒有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。

5. 如何解決質(zhì)量問題

如前所述,大數(shù)據(jù)的建設(shè)和管理是一個專業(yè)且復(fù)雜的工程,涵蓋了業(yè)務(wù)梳理、標準制定、元數(shù)據(jù)管理、數(shù)據(jù)模型管理、數(shù)據(jù)匯聚、清洗加工、中心存儲、資源目錄編制、共享交換、數(shù)據(jù)維護、數(shù)據(jù)失效等等過程。中間任何一個環(huán)節(jié)出問題,都將導(dǎo)致數(shù)據(jù)質(zhì)量問題。

大部分大型組織經(jīng)過大數(shù)據(jù)建設(shè),已經(jīng)獲得比較好的數(shù)據(jù)建設(shè)成果,也有了比較可觀的數(shù)據(jù)量的積累,但將這些數(shù)據(jù)直接拿來支撐業(yè)務(wù)的辦理卻是一個很大的風險,原因就是只要一筆數(shù)據(jù)不正確,都可能帶來很大的業(yè)務(wù)風險,導(dǎo)致客戶的報怨,這也正是業(yè)務(wù)部門對大數(shù)據(jù)建設(shè)成果報有懷疑態(tài)度的重要原因。龍石數(shù)據(jù)根據(jù)多年數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量實踐經(jīng)驗,根據(jù)大數(shù)據(jù)建設(shè)項目的執(zhí)行過程,將它分為事前預(yù)防、事中監(jiān)控、事后改善三個階段。

一篇文章说清楚如何提升大数据质量

事前預(yù)防

  • 制定質(zhì)量管理機制:基于數(shù)據(jù)管理的復(fù)雜性和誘因的多重性特點,解決數(shù)據(jù)質(zhì)量問題僅僅依靠一個技術(shù)工具是不夠的,我們需要建立長效工作機制。即根據(jù)組織特點,制定符合自身環(huán)境的工作制度,制定每個環(huán)節(jié)的工作流程,規(guī)定各個參與方的責任,確定各項數(shù)據(jù)的權(quán)威部門,制定數(shù)據(jù)質(zhì)量指標,制定數(shù)據(jù)質(zhì)量修復(fù)流程等等。
  • 制定數(shù)據(jù)質(zhì)量標準:數(shù)據(jù)標準成功定義的與否,直接決定了大數(shù)據(jù)建設(shè)的成果和數(shù)據(jù)質(zhì)量的高低,需要在融合國家標準、行業(yè)標準和地方標準的基礎(chǔ)上,融合組織自身的業(yè)務(wù)特色需求。
  • 制定質(zhì)量監(jiān)測模型:數(shù)據(jù)質(zhì)量模型代表的是業(yè)務(wù)需求,它是從業(yè)務(wù)需求的角度而描述出來的質(zhì)量需求。
  • 制定質(zhì)量監(jiān)測規(guī)則:數(shù)據(jù)監(jiān)測規(guī)則代表的具體的質(zhì)量檢測手段,它是從技術(shù)角度來描述數(shù)據(jù)質(zhì)量要求是如何被滿足的,包括規(guī)范性、完整性、準確性、致性、時效性、可訪問性,等等。

事中監(jiān)控

  • 監(jiān)控原始數(shù)據(jù)質(zhì)量:數(shù)據(jù)采集工作從數(shù)據(jù)源頭獲取最原始的數(shù)據(jù),在數(shù)據(jù)采集過程中將數(shù)據(jù)分為“好數(shù)據(jù)”“壞數(shù)據(jù)”,“好數(shù)據(jù)”入庫,“壞數(shù)據(jù)”則反饋給源頭修復(fù),因為數(shù)據(jù)來源部門最懂這些數(shù)據(jù),也最能在源頭上把數(shù)據(jù)問題徹底修復(fù)掉。
  • 監(jiān)控數(shù)據(jù)中心質(zhì)量:經(jīng)過各種采集、清洗、加工過程,數(shù)據(jù)被存入數(shù)據(jù)倉庫中,這些數(shù)據(jù)也將被業(yè)務(wù)部門使用,所以,對于這些成果數(shù)據(jù)的質(zhì)量監(jiān)控和修復(fù)則猶為重要。對于這類數(shù)據(jù)問題,我們可能使用簡單的空值檢查、規(guī)范性檢查、值域檢查、邏輯檢查、一致性檢查、等等規(guī)則就可以檢查出來,也可能需要諸如多源比較、數(shù)據(jù)佐證、數(shù)據(jù)探索、波動檢查、離群檢查等等方法才可以檢查出來。
  • 反饋數(shù)據(jù)質(zhì)量問題:數(shù)據(jù)質(zhì)量監(jiān)控過程中,會發(fā)現(xiàn)兩類問題,一類是源頭的數(shù)據(jù)質(zhì)量問題,一類是數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)質(zhì)量團隊需要將這些問題及時反饋給源頭部門和數(shù)據(jù)倉庫建設(shè)團隊。
  • 考核數(shù)據(jù)質(zhì)量考核:數(shù)據(jù)質(zhì)量的考核是為了能夠引起各個參與部門和參與團隊對數(shù)據(jù)質(zhì)量的重視,需要及時統(tǒng)計分析各種數(shù)據(jù)質(zhì)量問題,并制定出相應(yīng)的應(yīng)對措施。

事后改善

  • 修復(fù)數(shù)據(jù)質(zhì)量問題:發(fā)現(xiàn)質(zhì)量問題不是最終的目標,我們?nèi)砸⑾嚓P(guān)的流程和工具,通過手工、工單、自動化等等手段將質(zhì)量問題修復(fù)掉,從而為業(yè)務(wù)創(chuàng)新提供可靠的數(shù)據(jù)支撐。
  • 收集數(shù)據(jù)質(zhì)量需求:通過數(shù)據(jù)中心的建設(shè),質(zhì)量問題的修復(fù),必然能夠促進數(shù)據(jù)的應(yīng)用,我們?nèi)砸⑼〞车臄?shù)據(jù)質(zhì)量反饋通道,讓各個部門參與到數(shù)據(jù)質(zhì)量的再次完善中來,從而形成建設(shè)、應(yīng)用和反饋的良性循環(huán)。
  • 完善質(zhì)量管理制度:制度和流程的建設(shè)并不是一蹴而就的,我們要在數(shù)據(jù)建設(shè)和質(zhì)量完善的過程中,結(jié)合自身組織結(jié)構(gòu)和業(yè)務(wù)特色,不斷完善工作制度。
  • 完善數(shù)據(jù)質(zhì)量標準:各行各業(yè)不斷涌現(xiàn)新的業(yè)務(wù)形態(tài),原有的業(yè)務(wù)也在不斷的變化,我們要緊跟業(yè)務(wù)的變化,不斷完善符合業(yè)務(wù)需求的數(shù)據(jù)標準。
  • 完善質(zhì)量監(jiān)測模型:如前所述,監(jiān)測模型代表的業(yè)務(wù)需求,業(yè)務(wù)形態(tài)的變化、數(shù)據(jù)標準的變化和質(zhì)量新需求的出現(xiàn),同樣要求監(jiān)測模型能夠做出相應(yīng)的變化。
  • 完善質(zhì)量監(jiān)測規(guī)則:同樣,如今的信息化技術(shù)發(fā)展日新月異,我們要不斷引入各種新技術(shù)來更加智能地發(fā)現(xiàn)和修復(fù)數(shù)據(jù)質(zhì)量問題。

6. 總結(jié)

最后,我們要想把大數(shù)據(jù)建設(shè)做好,就要把數(shù)據(jù)質(zhì)量做好。要把數(shù)據(jù)質(zhì)量做好,就要充分理解業(yè)務(wù),要了解大數(shù)據(jù)建設(shè)的全部過程,要從更高的視角來發(fā)現(xiàn)和解決大數(shù)據(jù)建設(shè)過程當中的各種問題。

 

責任編輯:張燕妮 來源: 架構(gòu)頭條
相關(guān)推薦

2022-07-21 21:19:48

元宇宙

2019-12-06 09:16:23

Linux 開源操作系統(tǒng)

2019-11-23 17:27:54

IO開源

2019-12-03 08:22:42

JWTJWSJWE

2017-01-20 15:01:19

2022-10-08 15:07:06

ChatOps運維

2020-10-09 08:15:11

JsBridge

2019-08-22 10:07:37

SSL協(xié)議TCP

2019-11-25 08:25:47

ZooKeeper分布式系統(tǒng)負載均衡

2015-08-13 11:25:51

大數(shù)據(jù)

2017-09-05 08:52:37

Git程序員命令

2019-07-15 07:58:10

前端開發(fā)技術(shù)

2020-04-22 13:27:20

數(shù)據(jù)分析模塊解決

2022-02-21 09:44:45

Git開源分布式

2023-05-12 08:19:12

Netty程序框架

2021-06-30 00:20:12

Hangfire.NET平臺

2024-06-25 08:18:55

2019-04-17 15:16:00

Sparkshuffle算法

2021-04-09 08:40:51

網(wǎng)絡(luò)保險網(wǎng)絡(luò)安全網(wǎng)絡(luò)風險

2017-01-12 14:50:15

大數(shù)據(jù)Spring Batc框架
點贊
收藏

51CTO技術(shù)棧公眾號