從 "垃圾 "數(shù)據(jù)到數(shù)據(jù)完整性的轉(zhuǎn)變
數(shù)據(jù)產(chǎn)生的速度越來越快,這已經(jīng)不是什么秘密。根據(jù)IDC的數(shù)據(jù),由于在家里工作、學習和做事的人數(shù)突然增加,2020年產(chǎn)生和復(fù)制了更多的數(shù)據(jù)。此外,據(jù)預(yù)測,未來5年創(chuàng)造的數(shù)字數(shù)據(jù)量將是數(shù)字存儲出現(xiàn)以來所創(chuàng)造數(shù)據(jù)量的兩倍以上。
但這引出了一個問題,這些數(shù)據(jù)有用嗎?還是只是“垃圾”?答案在于組織如何管理他們的數(shù)據(jù),那些做得好的組織不太可能遇到垃圾數(shù)據(jù)。但對于那些沒有正確的工具來管理所有的數(shù)據(jù)來源的企業(yè)來說,答案是肯定的,他們正在處理垃圾數(shù)據(jù)。
在我們討論公司如何擺脫垃圾數(shù)據(jù)的麻煩(和成本)之前,讓我們更深入地了解什么是垃圾數(shù)據(jù)。首先,我們應(yīng)該解決什么是垃圾數(shù)據(jù)的問題:原始數(shù)據(jù)不是垃圾數(shù)據(jù)。這包括從交易系統(tǒng)、產(chǎn)品、設(shè)備和其他來源創(chuàng)建的任何數(shù)據(jù)。
什么是垃圾數(shù)據(jù)?
另一方面,垃圾數(shù)據(jù)是任何不受治理的數(shù)據(jù),當你創(chuàng)建了一個數(shù)據(jù)副本,然后為一個特定的使用案例進行操作,而沒有將改進的數(shù)據(jù)返回到原始數(shù)據(jù)存儲,為下一次使用提高質(zhì)量時,就會產(chǎn)生垃圾數(shù)據(jù)。Salesforce將垃圾數(shù)據(jù)分為四類:缺失的信息、不準確的信息、過時的數(shù)據(jù)和重復(fù)的數(shù)據(jù)。
當個人從一個更大的數(shù)據(jù)集中為一個特定的用例復(fù)制數(shù)據(jù),對其進行修改,然后不將這些修改整合到更大的數(shù)據(jù)集中時,垃圾數(shù)據(jù)就開始積累。例如,如果你在你的記錄系統(tǒng)中有一個正式的客戶地址數(shù)據(jù)庫,只復(fù)制了那些在芝加哥地區(qū)的客戶,并更新了該數(shù)據(jù)的子集,而沒有更新源數(shù)據(jù),你就創(chuàng)造了垃圾數(shù)據(jù)。有了垃圾數(shù)據(jù),你就沒有一個明確的脈絡(luò)或省份,它就不能被其他人輕易地訪問和使用;更糟糕的是,你有多個不一致的“真相”版本。這最終會在一個組織內(nèi)產(chǎn)生多個一次性的數(shù)據(jù)集,而這些數(shù)據(jù)并不能為所有用戶提供價值。垃圾數(shù)據(jù)帶來了問題。
為什么垃圾數(shù)據(jù)是一個問題?
垃圾數(shù)據(jù)會給組織帶來許多問題,例如:
- 不一致的結(jié)果,取決于你是用原始的還是復(fù)制的、修改過的數(shù)據(jù)集,如果數(shù)據(jù)包含不同的信息,會有不同的結(jié)果,包括不同的匹配率、運營失敗,也許最糟糕的是導致糟糕的客戶體驗。
- 不準確的結(jié)果,如果數(shù)據(jù)集是過時的,不完整的,或包含錯誤的信息,輸出也會是這樣。
- 隱私問題,包含任何敏感信息的無人管理的數(shù)據(jù)副本是有風險的,因為可能不符合監(jiān)管的要求,而這種風險往往是高層管理人員所不知道的,直到嚴重的問題發(fā)生,為時已晚。
- 信息安全,在任何可以創(chuàng)建垃圾數(shù)據(jù)的環(huán)境中,都存在著安全問題。這個問題類別的嚴重程度將根據(jù)數(shù)據(jù)的類型而有所不同。常見的例子包括不遵循內(nèi)部程序,違反許可證或知識產(chǎn)權(quán),以及數(shù)據(jù)被黑客攻擊,因為它被儲存在公司的安全操作之外。
- 財務(wù)成本,由于上述任何一個原因,創(chuàng)建和使用垃圾數(shù)據(jù)是低效的。
然而,垃圾數(shù)據(jù)造成的最大問題是,它為實現(xiàn)數(shù)據(jù)完整性構(gòu)建了一個障礙。通過建立數(shù)據(jù)完整性,一個組織能夠更好地發(fā)展和管理一個可信賴的數(shù)據(jù)基礎(chǔ),這個數(shù)據(jù)基礎(chǔ)是準確的、一致的、有背景的,并帶來更明智的商業(yè)決策。
為什么數(shù)據(jù)完整性很重要
數(shù)據(jù)完整性是指數(shù)據(jù)集的質(zhì)量、可靠性、可信度和完整性。它建立在四個關(guān)鍵支柱上:企業(yè)范圍內(nèi)的整合、準確性和質(zhì)量、位置智能和數(shù)據(jù)豐富。
在更大的范圍內(nèi),如果一個組織的數(shù)據(jù)具有完整性,企業(yè)領(lǐng)導人就可以利用這些數(shù)據(jù)做出準確的業(yè)務(wù)決策,從而獲得更好的結(jié)果。在垃圾數(shù)據(jù)的背景下,如果一個公司已經(jīng)實現(xiàn)了數(shù)據(jù)的完整性,他們就不再需要花時間去解決數(shù)據(jù)的不一致性,糾正和審查數(shù)據(jù)。完整性的數(shù)據(jù)已經(jīng)在手邊,這些數(shù)據(jù)可靠并準備好,可以開始工作了。
從垃圾數(shù)據(jù)到數(shù)據(jù)完整性的轉(zhuǎn)變
擺脫垃圾數(shù)據(jù)的最好方法是消除對它的需求。如果一個組織創(chuàng)建了具有高完整性的可訪問數(shù)據(jù)資產(chǎn),并在一個受管理的環(huán)境中確保數(shù)據(jù)可以按照公司的政策、權(quán)利和指導方針使用,那么員工將不再需要創(chuàng)建和維護數(shù)據(jù)的副本來執(zhí)行一個特定的任務(wù)。通過花時間在前期投資其數(shù)據(jù)完整性,公司可以確保其數(shù)據(jù)資產(chǎn)的質(zhì)量和安全性,并適當?shù)靥峁┙o企業(yè),最終節(jié)省時間和金錢。