數(shù)據(jù)架構(gòu)師: 您要治理什么?
Robert Catterall 是一位數(shù)據(jù)庫專家,他想確定實(shí)現(xiàn)數(shù)據(jù)治理的必要性。在 IBM Information Governance Solutions 的主管 Steven Adler 的幫助下,他探索了數(shù)據(jù)治理的原則以及它如何幫助數(shù)據(jù)庫團(tuán)隊(duì)。
我是一位數(shù)據(jù)庫工作者(更準(zhǔn)確地說,是 DB2 工作者)。我的工作處于 IBM Information Management 軟件組合的低層。如果說那些從事分析、主數(shù)據(jù)管理、數(shù)據(jù)集成和其他高層軟件技術(shù)的人是數(shù)據(jù)巨輪的高級(jí)船員,他們站在艦橋上,穿著帶金色肩章的白制服,用雙筒望遠(yuǎn)鏡了望遠(yuǎn)方,那么我是在輪機(jī)艙工作。當(dāng)艦橋上傳來指令,命令我加快數(shù)據(jù)流動(dòng)的速度時(shí),我回答說,“我們已經(jīng)到極限了,船長!” … 但是我仍然要想辦法完成任務(wù)。你們成天談?wù)搼?zhàn)略和模式,而我談?wù)摰氖潜忍睾妥止?jié)、速度和供應(yīng)。歡迎來到我的世界。好了,不打比方了,我們來討論實(shí)際問題吧!
我曾經(jīng)遇到過許多似是而非的概念,最近遇到的一個(gè)是 “數(shù)據(jù)治理”。對(duì)不起,長官,但是這聽起來是針對(duì)某個(gè)問題的解決方案。讓我告訴您一個(gè)小秘密:數(shù)據(jù)是沒有自主行動(dòng)力的,這意味著它不需要 “治理”。它需要操控,我和我的朋友們能夠應(yīng)付,謝謝您。請(qǐng)找別的什么東西去 “治理” 吧!
您說什么?您在談到治理數(shù)據(jù)時(shí),實(shí)際上是打算治理別的什么東西?OK,現(xiàn)在我感興趣了。請(qǐng)多說點(diǎn)兒,我洗耳恭聽。
重點(diǎn)在于人
關(guān)于數(shù)據(jù)治理,我應(yīng)該聽取誰的意見?沒人比 Steve Adler 更合適了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在電話上告訴我 “數(shù)據(jù)治理” 這個(gè)詞在修辭方面的矛盾性實(shí)際上是有意義的:它提醒人們提出問題。“‘數(shù)據(jù)治理’ 究竟是什么意思?” 談話就此展開了。Adler 指出,真正的目標(biāo)是對(duì)行為進(jìn)行治理。
人與數(shù)據(jù)庫交互:他們引導(dǎo)數(shù)據(jù)流的走向;他們解釋并處理數(shù)據(jù)請(qǐng)求。人也會(huì)犯錯(cuò) — 常常是由于他們采用的過程和依賴的應(yīng)用程序系統(tǒng)有缺陷 — 這會(huì)在信息管道中引入錯(cuò)誤,給下游造成數(shù)據(jù)質(zhì)量問題。Adler 指出,數(shù)據(jù)治理的意圖主要是系統(tǒng)化地找到并解決可能引入錯(cuò)誤的點(diǎn)。目標(biāo)是形成決策者能夠信任的數(shù)據(jù) — 還要向他們提供數(shù)據(jù)可信的證明。
這是一個(gè)很不錯(cuò)的說詞。但在加入您的事業(yè)之前,我想看看 “藍(lán)色巨人” 是如何吃 “垃圾食品” 的。Adler 問我是否了解 IBM 的產(chǎn)品目錄。我確實(shí)了解 — 畢竟我為 IBM 工作了 17 年。IBM 有大量信息,有多達(dá) 1.2 億條記錄。顯然,這些記錄中很大一部分包含錯(cuò)誤的信息:錯(cuò)誤、缺失和未及時(shí)發(fā)布的數(shù)據(jù)。在 255 個(gè) IBM 產(chǎn)品公告中,只有 5 個(gè)完全沒有錯(cuò)誤。這真是讓人震撼的統(tǒng)計(jì)數(shù)字。
為了找出數(shù)據(jù)質(zhì)量問題的來源,團(tuán)隊(duì)在通向生產(chǎn)數(shù)據(jù)庫的數(shù)據(jù)流中不同的位置上設(shè)置 “捕捉器”。捕捉器幫助團(tuán)隊(duì)發(fā)現(xiàn)在特定條件下可能發(fā)生的錯(cuò)誤。找出問題的原因之后,團(tuán)隊(duì)就可以設(shè)計(jì)和實(shí)現(xiàn)基于過程和基于技術(shù)的解決方案,從而消除不準(zhǔn)確的信息的來源。
不是我的問題(也許是?)
我想,只要消除可能導(dǎo)致數(shù)據(jù)質(zhì)量問題的條件就行了,所以由您負(fù)責(zé)。我希望您成功。不需要圍著我和 DBA 照管的數(shù)據(jù)庫打轉(zhuǎn) — 它們很可靠。有多可靠?精確度至少有 99.9%。我談?wù)摰臄?shù)據(jù)庫有多少數(shù)據(jù)記錄?生產(chǎn)數(shù)據(jù)庫可能有超過 10 億條記錄。是的,由于數(shù)據(jù)庫規(guī)模如此之大,盡管錯(cuò)誤率非常低,錯(cuò)誤數(shù)量仍然相當(dāng)大。好吧,您說的有道理。在數(shù)據(jù)庫內(nèi)部和周圍放上一些捕捉器可能是好主意。
Adler 說,但是不要就此止步,因?yàn)閿?shù)據(jù)質(zhì)量問題不僅僅是數(shù)據(jù)記錄不準(zhǔn)確。有時(shí)候,急迫的問題是必須處理數(shù)據(jù)分類。例如,一個(gè)組織通過并購形成了更大的規(guī)模,最終通過多個(gè)業(yè)務(wù)線為更大型的企業(yè)客戶提供服務(wù)??蛻艄局槐г拐f,當(dāng)他們通過不同業(yè)務(wù)線的代表向服務(wù)提供組織提出同一個(gè)問題時(shí),卻得到了不同的回答。這是因?yàn)閷?duì)于不同的業(yè)務(wù)線,相同術(shù)語的含義不同。這是數(shù)據(jù)定義問題 — 數(shù)據(jù)治理要通過有效的主數(shù)據(jù)管理 (MDM) 消除此類問題。
如何從 A 到 B?
我承認(rèn),我開始看出數(shù)據(jù)治理的一些價(jià)值了。這個(gè)概念不像我最初認(rèn)為的那么不知所謂。但是,看到潛在價(jià)值和獲得實(shí)際價(jià)值是兩回事兒。如何通過數(shù)據(jù)治理工作獲取價(jià)值?從哪里做起?如何推動(dòng)不斷進(jìn)步?
Adler 告訴我他喜歡的方式分為六個(gè)步驟:
確定目標(biāo)。一些目標(biāo)可以有變動(dòng),其他目標(biāo)是固定的(例如處理數(shù)據(jù)質(zhì)量問題)。是的 — 在出發(fā)之前,必須明確要去哪里。
確定要度量什么。如果想要提高數(shù)據(jù)質(zhì)量,那么如何能夠知道是否已經(jīng)取得了進(jìn)步?可能要檢查存儲(chǔ)庫中一定比例的文檔,記錄信息不正確或缺失的情況。決定度量的過程和條件對(duì)于評(píng)估基線情況和跟蹤過程很重要。我明白了。說說容易:如果想要說服人,就要提供數(shù)字。
了解組織的決策模型。是專制模型?代表模型?還是民主模型?無論是哪種,它適合您的公司嗎?您正在開發(fā)的數(shù)據(jù)治理策略支持這種決策模型嗎?決策 “更好” 的含義是什么?需要做出大量決策嗎?還是要更快地做出決策?我想,在改進(jìn)數(shù)據(jù)質(zhì)量時(shí),總是要花時(shí)間評(píng)估數(shù)據(jù)在自己的環(huán)境中如何驅(qū)動(dòng)決策??赡軙?huì)發(fā)現(xiàn)需要改進(jìn)的東西。
有效地傳播數(shù)據(jù)治理策略。如何把策略的相關(guān)信息告訴相關(guān)人員和感興趣的其他各方?通過電子郵件?通過時(shí)事通訊?不能只依靠同事之間的口頭交流。
度量結(jié)果。數(shù)據(jù)治理策略取得的實(shí)際效果如何?如果已經(jīng)制定了度量進(jìn)展的計(jì)劃(這個(gè)列表中的第二項(xiàng)),那么得到具體的數(shù)字應(yīng)該不太困難。解釋這些數(shù)字會(huì)很有意思。
審查整個(gè)數(shù)據(jù)治理工作。是否采用了適當(dāng)?shù)倪^程?是否應(yīng)用了適當(dāng)?shù)募夹g(shù)?是否實(shí)現(xiàn)了有效的控制?“審查” 這個(gè)詞有點(diǎn)兒讓我不舒服,但是我知道對(duì)于策略來說這是不可缺少的,無論是數(shù)據(jù)治理策略還是其他策略。我不喜歡評(píng)判別人的工作,但是我理解有時(shí)候需要這么做。
這些是非常高級(jí)的檢查項(xiàng),具體的項(xiàng)目計(jì)劃應(yīng)該遠(yuǎn)遠(yuǎn)不只六個(gè)步驟。但是,在面對(duì)復(fù)雜的任務(wù)時(shí),以適當(dāng)方式對(duì)難題進(jìn)行拆分確實(shí)有助于明確工作重點(diǎn)。對(duì)于我來說,Adler 的方法看起來是不錯(cuò)的問題拆分方式。可以以此為基礎(chǔ)開展工作。
好吧,我接受了
一個(gè)城市的居民嘲笑另一個(gè)城市時(shí)會(huì)說,“那兒沒有 ‘那兒’ 這個(gè)概念”。我過去也是這么看待數(shù)據(jù)治理的:很有意思的概念,但是拜托 — 它有什么實(shí)際意義嗎?Steve Adler 在關(guān)于數(shù)據(jù)治理的業(yè)務(wù)價(jià)值的爭論中說服了我。我現(xiàn)在認(rèn)為數(shù)據(jù)治理是有價(jià)值的。
因此,如果信息管理領(lǐng)域的大人物再到數(shù)據(jù)庫 “輪機(jī)艙” 與您談?wù)摂?shù)據(jù)治理,那么好好聽他們說。***考慮一下自己能夠在哪些方面發(fā)揮作用。宏大的計(jì)劃如果能夠參考實(shí)干家的意見,往往會(huì)取得更好的結(jié)果。
就到這里吧。也許我會(huì)在咖啡機(jī)旁遇到您。誰知道呢?也許我們會(huì)輕松地談?wù)撘幌聰?shù)據(jù)治理。