談?wù)剟?chuàng)建有效數(shù)據(jù)質(zhì)量規(guī)則特別關(guān)注的五大要素
根據(jù) Gartner 的數(shù)據(jù)質(zhì)量市場(chǎng)調(diào)查,低質(zhì)量數(shù)據(jù)每年使公司損失約 1500 萬(wàn)美元,那么如何通過(guò)創(chuàng)建有效的數(shù)據(jù)質(zhì)量規(guī)則來(lái)提高數(shù)據(jù)質(zhì)量呢。
什么是數(shù)據(jù)質(zhì)量規(guī)則
數(shù)據(jù)質(zhì)量規(guī)則是企業(yè)對(duì)其數(shù)據(jù)設(shè)定的要求。這些要求旨在滿(mǎn)足兩個(gè)相互依存的目標(biāo):
1.定義數(shù)據(jù)應(yīng)遵循的格式以及數(shù)據(jù)元素之間應(yīng)存在的依賴(lài)關(guān)系。
2.作為企業(yè)根據(jù)這些要求衡量和檢查其數(shù)據(jù)質(zhì)量的參考。
比方說(shuō),對(duì)于即將發(fā)起的電子郵件營(yíng)銷(xiāo)活動(dòng),我們需要優(yōu)化工作和成本,需要決定篩選出無(wú)效電子郵件。為此,創(chuàng)建簡(jiǎn)單的規(guī)則:
- 電子郵件必須包含“@”符號(hào)。
- '@' 只能使用一次。
- 電子郵件必須包含以下任何或所有內(nèi)容:字母、數(shù)字、非字母字符,例如,! # $ % & ' * + – / = ? ^ _ ` { 。
通過(guò)僅向經(jīng)過(guò)驗(yàn)證的電子郵件發(fā)送消息,企業(yè)將能夠改善與客戶(hù)的溝通,并更好地評(píng)估活動(dòng)在電子郵件打開(kāi)率、點(diǎn)擊率等方面的成功。
然而,這套電子郵件數(shù)據(jù)質(zhì)量規(guī)則絕不是詳盡無(wú)遺的。例如,如果進(jìn)行有針對(duì)性的營(yíng)銷(xiāo)活動(dòng),那么再創(chuàng)建一個(gè)規(guī)則是有意義的。這將幫助企業(yè)避免在消息開(kāi)頭出現(xiàn)令人尷尬的“親愛(ài)的 N/A”或“親愛(ài)的……”:
- 電子郵件引用的“客戶(hù)全名”字段不得為“空”。
如果想驗(yàn)證名稱(chēng)的拼寫(xiě)以正確稱(chēng)呼客戶(hù),可以提出額外的規(guī)則:
- 客戶(hù)的全名只能由字母組成;不允許使用其他字符。
- 只有客戶(hù)姓名、中間名(如果有)和姓氏中的首字母必須大寫(xiě)。
創(chuàng)建有效數(shù)據(jù)質(zhì)量規(guī)則需要考慮的因素
1.業(yè)務(wù)主題專(zhuān)家需要深入?yún)⑴c
不同的部門(mén)有不同的優(yōu)先事項(xiàng)。要制定全面的數(shù)據(jù)質(zhì)量規(guī)則,應(yīng)該正確定義所有主題專(zhuān)家并明智地整合他們的要求。如果不從不同部門(mén)的角度看待數(shù)據(jù),可能會(huì)破壞所有數(shù)據(jù)管理工作。例如,銀行的貸款部門(mén)會(huì)將貸款金額、貸款到期日和月利率視為關(guān)鍵數(shù)據(jù)。他們很可能會(huì)認(rèn)為客戶(hù)名稱(chēng)或客戶(hù)訪(fǎng)問(wèn)過(guò)的分支機(jī)構(gòu)的前綴不值得填寫(xiě)。相反,市場(chǎng)部對(duì)貸款相關(guān)信息不太感興趣,但他們會(huì)找到客戶(hù)數(shù)據(jù)對(duì)于有效溝通和創(chuàng)建單一客戶(hù)視圖非常重要。
2.數(shù)據(jù)質(zhì)量規(guī)則的數(shù)量要適中
在爭(zhēng)取提高數(shù)據(jù)質(zhì)量的過(guò)程中,重要的是不要忘形于太多的質(zhì)量規(guī)則。過(guò)多的數(shù)據(jù)質(zhì)量規(guī)則顯著降低系統(tǒng)性能,因?yàn)樾枰嗟挠?jì)算能力和時(shí)間來(lái)運(yùn)行檢查。根據(jù) 10 條規(guī)則檢查字段與根據(jù) 100 條規(guī)則檢查字段不同。因此,應(yīng)該找到一個(gè)很好的平衡點(diǎn)。
3. 需要采用循序漸進(jìn)的方法
我們不必創(chuàng)建涵蓋所有數(shù)據(jù)的規(guī)則,也不必一口氣解決所有問(wèn)題。我們應(yīng)該對(duì)數(shù)據(jù)進(jìn)行分類(lèi)并定義需要立即關(guān)注并盡最大努力的關(guān)鍵元素。例如,要開(kāi)展有針對(duì)性的營(yíng)銷(xiāo)活動(dòng),“客戶(hù)姓名”、“出生日期”和“電子郵件”字段至關(guān)重要,而家庭住址可被視為有用的額外信息。完成關(guān)鍵數(shù)據(jù)后,可以繼續(xù)處理 #2 優(yōu)先級(jí),依此類(lèi)推。簡(jiǎn)而言之,數(shù)據(jù)質(zhì)量管理是接力賽,而不是短跑,然后采取相應(yīng)的行動(dòng)。
4.單獨(dú)對(duì)待數(shù)據(jù)庫(kù)的每個(gè)字段并相應(yīng)地創(chuàng)建規(guī)則
有多種數(shù)據(jù)質(zhì)量特征,我們的任務(wù)是確定哪些最適合特定領(lǐng)域。我們以'員工全名'和'員工聯(lián)系電話(huà)'為例。第一個(gè)字段包含關(guān)鍵信息,而第二個(gè)字段不包含。所以,“員工姓名”要滿(mǎn)足完整性、唯一性和準(zhǔn)確性的要求,而“員工聯(lián)系電話(huà)”——準(zhǔn)確性和有序性。這些特征應(yīng)反映在數(shù)據(jù)質(zhì)量規(guī)則中,例如:
- 員工全名不得為 N/A(以確保完整性)。
- 一個(gè)'員工全名'必須對(duì)應(yīng)一個(gè)'身份證號(hào)碼'(以確保唯一性)。
- 員工全名必須至少包含一個(gè)空格,必須僅由漢字組成,不允許使用數(shù)字、字母或其他字符(以確保準(zhǔn)確性和完整性)。
- 員工聯(lián)系電話(huà)必須僅包含數(shù)字(以確保準(zhǔn)確性和有序性)。
- 員工聯(lián)系電話(huà)必須采用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的數(shù)字,X 表示 0 至 9 的數(shù)字(以確保準(zhǔn)確性和有序性)。
5. 為數(shù)據(jù)質(zhì)量規(guī)則選擇集中存儲(chǔ)還是本地存儲(chǔ)
如果是大型多元化企業(yè),應(yīng)該決定是將規(guī)則集中存儲(chǔ)還是在每個(gè)企業(yè)本地存儲(chǔ)。每種方法都有其優(yōu)點(diǎn)和缺點(diǎn)。例如,在完全集中的情況下,將采用標(biāo)準(zhǔn)方法來(lái)捕獲客戶(hù)的姓名,無(wú)論他們與什么業(yè)務(wù)進(jìn)行交互。在分散數(shù)據(jù)管理的情況下,可以獲得更大的靈活性,因?yàn)閷⒅魂P(guān)注與特定業(yè)務(wù)方向相關(guān)的數(shù)據(jù)規(guī)則。
綜述
如果決定管理數(shù)據(jù)質(zhì)量,將不可避免地要處理數(shù)據(jù)質(zhì)量規(guī)則。建立這些規(guī)則需要考慮來(lái)自不同部門(mén)的意見(jiàn)、不要?jiǎng)?chuàng)建太多規(guī)則,否則會(huì)損害系統(tǒng)的性能、不必一次完成所有操作、為數(shù)據(jù)庫(kù)的每個(gè)字段選擇單獨(dú)的數(shù)據(jù)質(zhì)量特征、為數(shù)據(jù)質(zhì)量規(guī)則做出集中存儲(chǔ)還是本地存儲(chǔ)的決策。