自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

談談12個最常見的數(shù)據(jù)質(zhì)量問題及其來源

大數(shù)據(jù)
據(jù)調(diào)查,56%的組織面臨至少四種不同類型的數(shù)據(jù)質(zhì)量問題,而71%的組織面臨至少三種不同類型的問題。

據(jù)調(diào)查,56%的組織面臨至少四種不同類型的數(shù)據(jù)質(zhì)量問題,而71%的組織面臨至少三種不同類型的問題。組織在設計數(shù)據(jù)質(zhì)量框架和解決數(shù)據(jù)質(zhì)量問題時花費了大量時間和資源。但要獲得良好的結(jié)果,了解這些問題的確切性質(zhì)并首先確定它們?nèi)绾巫罱K出現(xiàn)在系統(tǒng)中是很重要的。

什么是數(shù)據(jù)質(zhì)量問題

數(shù)據(jù)質(zhì)量問題是指數(shù)據(jù)集中存在無法容忍的缺陷,從而降低了該數(shù)據(jù)的可靠性和可信度。

跨不同來源存儲的數(shù)據(jù)必然包含數(shù)據(jù)質(zhì)量問題。由于多種原因,這些問題可能會被引入系統(tǒng),例如人為錯誤、不正確的數(shù)據(jù)、過時的數(shù)據(jù)或組織中缺乏數(shù)據(jù)素養(yǎng)技能。由于數(shù)據(jù)為關(guān)鍵業(yè)務提供動力,因此此類問題可能會給公司帶來一些嚴重的風險和損害。

在所有業(yè)務流程中利用高質(zhì)量數(shù)據(jù)的需求非常明顯。領(lǐng)導者正在投資招聘數(shù)據(jù)質(zhì)量團隊,因為他們想讓人們負責獲得和維持數(shù)據(jù)質(zhì)量。并且設計了復雜的數(shù)據(jù)質(zhì)量框架,采用先進的技術(shù),確保數(shù)據(jù)質(zhì)量管理快速準確。所有這些努力都是為了讓清潔數(shù)據(jù)夢想成真。

但是,如果不首先了解是什么污染了數(shù)據(jù)以及它究竟來自何處,這一切都是不可能的。

公司面臨的12大數(shù)據(jù)質(zhì)量問題

問題#01:缺乏記錄唯一性

一個擁有200-500名員工的普通組織使用大約123個SaaS應用程序。用于捕獲、管理、存儲和使用數(shù)據(jù)的應用程序數(shù)量龐大且種類繁多,是導致數(shù)據(jù)質(zhì)量差的主要原因。在這種情況下最常見的問題是為同一實體存儲多個記錄。

例如,客戶在購買過程中與品牌進行的所有互動都記錄在數(shù)據(jù)庫中的某個位置。這些記錄可能來自網(wǎng)站、登陸頁面表格、社交媒體廣告、銷售記錄、賬單記錄、營銷記錄、購買點記錄等領(lǐng)域。如果沒有系統(tǒng)的方法來識別客戶身份并將新信息與現(xiàn)有信息合并,最終可能會在整個數(shù)據(jù)集中出現(xiàn)重復信息。要修復重復,必須運行高級數(shù)據(jù)匹配算法來比較兩個或多個記錄并計算它們屬于同一實體的可能性。

問題#02:缺乏關(guān)系約束

一個數(shù)據(jù)集通常引用多個數(shù)據(jù)。但是,當兩個或多個不同的數(shù)據(jù)之間沒有定義和強制執(zhí)行任何關(guān)系時,最終可能會得到很多不正確和不完整的信息。

以這種情況為例:客戶門戶包含今年贏得的新業(yè)務以及從去年升級的現(xiàn)有客戶的記錄。除了基本客戶信息外,肯定有一些客戶字段僅適用于NewBusiness和一些僅適用于NewCustomer??梢允褂孟嗤耐ㄓ脭?shù)據(jù)模型處理這兩種情況,但它可能會導致許多數(shù)據(jù)質(zhì)量問題,例如缺少必要的信息,以及客戶記錄中的模糊或不正確的信息。

要處理此類情況,應該始終創(chuàng)建特定的數(shù)據(jù)模型并加強它們之間的關(guān)系。通過在實體之間強制執(zhí)行父/子(超類型/子類型)關(guān)系,可以使處理此信息的人員更好地捕獲、更新和理解數(shù)據(jù)。需要將基本Customer字段與其子子類型(即NewBusiness和ExistingCustomer)分開。

問題#03:缺乏參照完整性

參照完整性意味著數(shù)據(jù)記錄與其引用對應物是真實的。要了解由于缺乏參照完整性而產(chǎn)生的問題,我們考慮一家零售公司的例子。一家零售公司可能將他們的銷售記錄存儲在Sales表中,每條記錄都提到在進行銷售時售出的產(chǎn)品。因此,可能希望在Sales表中找到銷售ID和產(chǎn)品ID。但是,如果Sales記錄引用Product表中不存在的ProductID,則很明顯數(shù)據(jù)集缺乏引用完整性。

這些問題可能會導致團隊創(chuàng)建不正確的報告、運送不正確的產(chǎn)品或?qū)a(chǎn)品運送給不存在的客戶等等。

問題#04:缺乏關(guān)系基數(shù)

關(guān)系基數(shù)是指兩個實體之間可以擁有的最大關(guān)系數(shù)。通常,可以在數(shù)據(jù)對象之間創(chuàng)建不同類型的關(guān)系,這取決于公司允許如何進行業(yè)務交易。

參考以下示例以了解不同數(shù)據(jù)對象之間的基數(shù),例如Customer、Purchase、Location和Product:

  • 一個客戶一次只能有一個位置
  • 一個客戶可以進行多次購買
  • 許多客戶可以來自一個位置
  • 許多客戶可以購買許多產(chǎn)品

如果基數(shù)約束沒有明確定義,它可能會在數(shù)據(jù)集中引起許多數(shù)據(jù)質(zhì)量問題。

問題#05:缺乏屬性的唯一性和意義

我們經(jīng)常發(fā)現(xiàn)與數(shù)據(jù)集屬性或列相關(guān)的問題。很多時候數(shù)據(jù)模型沒有明確定義,因此結(jié)果信息被認為是不可用的。發(fā)現(xiàn)的常見問題有:

  • 存在具有相同名稱的多個列,其中包含一條記錄的不同信息。
  • 存在具有不同名稱的多個列,這在技術(shù)上意味著相同的事物,因此存儲相同的信息。
  • 列標題不明確,會使數(shù)據(jù)輸入操作者混淆要在列中存儲的內(nèi)容。
  • 有些列總是留空;要么是因為它們已被棄用,要么是沒有獲取此類信息的來源。
  • 有些列從未使用過,因此被不必要地存儲。

所有這些場景都描述了數(shù)據(jù)集中的屬性管理不善,并增加了數(shù)據(jù)質(zhì)量問題的數(shù)量。

問題#06:缺乏驗證約束

大多數(shù)數(shù)據(jù)質(zhì)量問題都是由于缺乏驗證約束造成的。驗證約束確保數(shù)據(jù)值有效且合理,并根據(jù)定義的要求進行標準化和格式化。例如,缺少對CustomerName的驗證約束檢查會導致以下錯誤:

  • 名稱中的額外空格(前導、尾隨或中間的雙空格),
  • 使用不適當?shù)姆柡妥址?/li>
  • 名稱的長度太長,
  • 單字母中間名不大寫或不以句號結(jié)尾,
  • 名字、中間名和姓氏的所有字母都大寫,而不是僅將第一個字母大寫。

此外,某些字段可能包含不正確的縮寫和代碼,或其他不屬于屬性域的值。如果這些約束未在數(shù)據(jù)模型中定義并在數(shù)據(jù)入口點上強制執(zhí)行,最終會在數(shù)據(jù)集最關(guān)鍵和最基本的字段(例如客戶姓名)中出現(xiàn)大量驗證錯誤。

問題#07:缺乏準確的公式和計算

數(shù)據(jù)集中的許多字段是從其他字段派生或計算得出的。因此,每次在相關(guān)字段中輸入或更新新數(shù)據(jù)時,都會設計、實施并自動執(zhí)行公式。公式或計算中存在的任何錯誤都可能導致數(shù)據(jù)集的整個列中獲得不正確的信息。這會使用于任何預期目的的字段無效。

根據(jù)其他字段計算的字段示例包括根據(jù)生日計算的年齡、根據(jù)購買的產(chǎn)品數(shù)量計算的適用折扣或任何其他百分比計算。

問題#08:跨來源缺乏一致性

與數(shù)據(jù)相關(guān)的最常見挑戰(zhàn)之一是在所有節(jié)點或數(shù)據(jù)源中維護關(guān)于同一“事物”的一個定義。例如,如果一家公司使用CRM和一個單獨的計費應用程序,則客戶的記錄將出現(xiàn)在這兩個應用程序的數(shù)據(jù)庫中。隨著時間的推移,在所有數(shù)據(jù)庫中保持一致的客戶信息視圖是一項艱巨的任務。

缺乏一致性可能會擾亂企業(yè)所有職能和運營的報告。一致性不僅與數(shù)據(jù)值的含義有關(guān),還與它們的表示有關(guān);例如,當值不適用或不可用時,必須使用一致的術(shù)語來表示所有來源的數(shù)據(jù)不可用。

問題#09:缺乏數(shù)據(jù)完整性

數(shù)據(jù)完整性是指數(shù)據(jù)集中存在必要的字段。數(shù)據(jù)集的完整性可以垂直(屬性級別)或水平(記錄級別)計算。通常,字段被標記為必填以確保數(shù)據(jù)集的完整性,因為并非所有字段都是必需的。

通常會在大量字段留空的數(shù)據(jù)集中發(fā)現(xiàn)此數(shù)據(jù)質(zhì)量問題–大量記錄。但空并不一定意味著不完整。數(shù)據(jù)集的完整性只能通過首先對數(shù)據(jù)模型的每個字段進行如下分類來準確衡量:

  • 字段是必填項嗎?意思是,它不能留空;例如,客戶的名稱。
  • 該字段是可選的嗎?意思是,它不一定需要填寫;例如,客戶的愛好字段。
  • 該字段在某些情況下不適用嗎?意思是,根據(jù)記錄的上下文,它變得無關(guān)緊要,應該留空;例如,未婚客戶的配偶姓名。

問題#10:缺乏數(shù)據(jù)流通

數(shù)據(jù)老化得非常快——無論客戶是否更換了他們的住址、電子郵件地址、聯(lián)系電話等。此類更改可能會影響數(shù)據(jù)集的流通性,并導致產(chǎn)生數(shù)周或數(shù)月的舊數(shù)據(jù),從而導致根據(jù)過時的信息做出關(guān)鍵決策。為確保數(shù)據(jù)集的流通性,可以設置提醒以更新數(shù)據(jù),或?qū)傩缘哪挲g設置限制,確保所有值在給定時間內(nèi)接受審查和更新。

問題#11:缺乏數(shù)據(jù)素養(yǎng)技能

盡管為保護數(shù)據(jù)及其跨數(shù)據(jù)集的質(zhì)量做出了所有正確的努力,但組織中缺乏數(shù)據(jù)素養(yǎng)技能仍然會對數(shù)據(jù)造成很大的損害。員工經(jīng)常存儲錯誤的信息,因為他們不理解某些屬性的含義。此外,他們不知道自己行為的后果,例如在某個系統(tǒng)或某個記錄中更新數(shù)據(jù)會產(chǎn)生什么影響。

這種差異只能通過創(chuàng)建和設計數(shù)據(jù)素養(yǎng)計劃和課程來消除,這些計劃和課程向團隊介紹組織數(shù)據(jù)并解釋:

  • 它包含什么,
  • 每個數(shù)據(jù)屬性的含義,
  • 其質(zhì)量的可接受標準是什么,
  • 輸入/操作數(shù)據(jù)的錯誤和正確方法是什么,
  • 使用什么數(shù)據(jù)來實現(xiàn)給定的結(jié)果。

問題#12:錯誤輸入和其他人為錯誤

錯誤輸入或拼寫錯誤是最常見的數(shù)據(jù)質(zhì)量錯誤來源之一。眾所周知,人類在輸入10,000個數(shù)據(jù)時至少會犯400個錯誤。這表明即使存在唯一標識符、驗證檢查和完整性約束,人為錯誤仍有可能產(chǎn)生并使數(shù)據(jù)質(zhì)量下降。

責任編輯:華軒 來源: 數(shù)據(jù)驅(qū)動智能
相關(guān)推薦

2023-02-09 15:33:48

數(shù)據(jù)質(zhì)量數(shù)據(jù)集

2020-05-28 11:34:08

互聯(lián)網(wǎng)數(shù)據(jù)分析數(shù)據(jù)

2014-08-25 10:24:01

Linux

2015-11-16 09:12:40

android問題開發(fā)

2017-03-01 12:45:48

Linux網(wǎng)卡操作系統(tǒng)

2014-05-04 10:50:03

普元大數(shù)據(jù)

2017-11-09 06:26:05

數(shù)據(jù)分析數(shù)據(jù)質(zhì)量數(shù)據(jù)

2010-11-24 13:31:26

綜合布線

2018-08-02 15:40:59

2016-08-23 01:03:17

2021-11-19 10:40:14

物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全IoT

2018-04-09 11:20:40

數(shù)據(jù)科學項目數(shù)據(jù)

2011-05-10 15:30:22

SEO

2014-10-21 10:30:33

2012-12-24 09:46:50

RDS打印重定向

2020-07-30 08:27:33

Javascript閉包變量

2023-02-06 16:50:46

數(shù)據(jù)治理工具

2017-09-02 10:03:10

大數(shù)據(jù)分析大數(shù)據(jù)數(shù)據(jù)

2011-03-22 13:23:49

數(shù)據(jù)庫術(shù)語

2020-05-29 14:30:35

Kubernetes開發(fā)錯誤
點贊
收藏

51CTO技術(shù)棧公眾號