數據架構師: 您要治理什么?
Robert Catterall 是一位數據庫專家,他想確定實現數據治理的必要性。在 IBM Information Governance Solutions 的主管 Steven Adler 的幫助下,他探索了數據治理的原則以及它如何幫助數據庫團隊。
我是一位數據庫工作者(更準確地說,是 DB2 工作者)。我的工作處于 IBM Information Management 軟件組合的低層。如果說那些從事分析、主數據管理、數據集成和其他高層軟件技術的人是數據巨輪的高級船員,他們站在艦橋上,穿著帶金色肩章的白制服,用雙筒望遠鏡了望遠方,那么我是在輪機艙工作。當艦橋上傳來指令,命令我加快數據流動的速度時,我回答說,“我們已經到極限了,船長!” … 但是我仍然要想辦法完成任務。你們成天談論戰(zhàn)略和模式,而我談論的是比特和字節(jié)、速度和供應。歡迎來到我的世界。好了,不打比方了,我們來討論實際問題吧!
我曾經遇到過許多似是而非的概念,最近遇到的一個是 “數據治理”。對不起,長官,但是這聽起來是針對某個問題的解決方案。讓我告訴您一個小秘密:數據是沒有自主行動力的,這意味著它不需要 “治理”。它需要操控,我和我的朋友們能夠應付,謝謝您。請找別的什么東西去 “治理” 吧!
您說什么?您在談到治理數據時,實際上是打算治理別的什么東西?OK,現在我感興趣了。請多說點兒,我洗耳恭聽。
重點在于人
關于數據治理,我應該聽取誰的意見?沒人比 Steve Adler 更合適了,他是 IBM Information Governance Solutions 的主管和 IBM Information Governance Council 的主席。他在電話上告訴我 “數據治理” 這個詞在修辭方面的矛盾性實際上是有意義的:它提醒人們提出問題。“‘數據治理’ 究竟是什么意思?” 談話就此展開了。Adler 指出,真正的目標是對行為進行治理。
人與數據庫交互:他們引導數據流的走向;他們解釋并處理數據請求。人也會犯錯 — 常常是由于他們采用的過程和依賴的應用程序系統(tǒng)有缺陷 — 這會在信息管道中引入錯誤,給下游造成數據質量問題。Adler 指出,數據治理的意圖主要是系統(tǒng)化地找到并解決可能引入錯誤的點。目標是形成決策者能夠信任的數據 — 還要向他們提供數據可信的證明。
這是一個很不錯的說詞。但在加入您的事業(yè)之前,我想看看 “藍色巨人” 是如何吃 “垃圾食品” 的。Adler 問我是否了解 IBM 的產品目錄。我確實了解 — 畢竟我為 IBM 工作了 17 年。IBM 有大量信息,有多達 1.2 億條記錄。顯然,這些記錄中很大一部分包含錯誤的信息:錯誤、缺失和未及時發(fā)布的數據。在 255 個 IBM 產品公告中,只有 5 個完全沒有錯誤。這真是讓人震撼的統(tǒng)計數字。
為了找出數據質量問題的來源,團隊在通向生產數據庫的數據流中不同的位置上設置 “捕捉器”。捕捉器幫助團隊發(fā)現在特定條件下可能發(fā)生的錯誤。找出問題的原因之后,團隊就可以設計和實現基于過程和基于技術的解決方案,從而消除不準確的信息的來源。
不是我的問題(也許是?)
我想,只要消除可能導致數據質量問題的條件就行了,所以由您負責。我希望您成功。不需要圍著我和 DBA 照管的數據庫打轉 — 它們很可靠。有多可靠?精確度至少有 99.9%。我談論的數據庫有多少數據記錄?生產數據庫可能有超過 10 億條記錄。是的,由于數據庫規(guī)模如此之大,盡管錯誤率非常低,錯誤數量仍然相當大。好吧,您說的有道理。在數據庫內部和周圍放上一些捕捉器可能是好主意。
Adler 說,但是不要就此止步,因為數據質量問題不僅僅是數據記錄不準確。有時候,急迫的問題是必須處理數據分類。例如,一個組織通過并購形成了更大的規(guī)模,最終通過多個業(yè)務線為更大型的企業(yè)客戶提供服務??蛻艄局槐г拐f,當他們通過不同業(yè)務線的代表向服務提供組織提出同一個問題時,卻得到了不同的回答。這是因為對于不同的業(yè)務線,相同術語的含義不同。這是數據定義問題 — 數據治理要通過有效的主數據管理 (MDM) 消除此類問題。
如何從 A 到 B?
我承認,我開始看出數據治理的一些價值了。這個概念不像我最初認為的那么不知所謂。但是,看到潛在價值和獲得實際價值是兩回事兒。如何通過數據治理工作獲取價值?從哪里做起?如何推動不斷進步?
Adler 告訴我他喜歡的方式分為六個步驟:
確定目標。一些目標可以有變動,其他目標是固定的(例如處理數據質量問題)。是的 — 在出發(fā)之前,必須明確要去哪里。
確定要度量什么。如果想要提高數據質量,那么如何能夠知道是否已經取得了進步?可能要檢查存儲庫中一定比例的文檔,記錄信息不正確或缺失的情況。決定度量的過程和條件對于評估基線情況和跟蹤過程很重要。我明白了。說說容易:如果想要說服人,就要提供數字。
了解組織的決策模型。是專制模型?代表模型?還是民主模型?無論是哪種,它適合您的公司嗎?您正在開發(fā)的數據治理策略支持這種決策模型嗎?決策 “更好” 的含義是什么?需要做出大量決策嗎?還是要更快地做出決策?我想,在改進數據質量時,總是要花時間評估數據在自己的環(huán)境中如何驅動決策。可能會發(fā)現需要改進的東西。
有效地傳播數據治理策略。如何把策略的相關信息告訴相關人員和感興趣的其他各方?通過電子郵件?通過時事通訊?不能只依靠同事之間的口頭交流。
度量結果。數據治理策略取得的實際效果如何?如果已經制定了度量進展的計劃(這個列表中的第二項),那么得到具體的數字應該不太困難。解釋這些數字會很有意思。
審查整個數據治理工作。是否采用了適當的過程?是否應用了適當的技術?是否實現了有效的控制?“審查” 這個詞有點兒讓我不舒服,但是我知道對于策略來說這是不可缺少的,無論是數據治理策略還是其他策略。我不喜歡評判別人的工作,但是我理解有時候需要這么做。
這些是非常高級的檢查項,具體的項目計劃應該遠遠不只六個步驟。但是,在面對復雜的任務時,以適當方式對難題進行拆分確實有助于明確工作重點。對于我來說,Adler 的方法看起來是不錯的問題拆分方式??梢砸源藶榛A開展工作。
好吧,我接受了
一個城市的居民嘲笑另一個城市時會說,“那兒沒有 ‘那兒’ 這個概念”。我過去也是這么看待數據治理的:很有意思的概念,但是拜托 — 它有什么實際意義嗎?Steve Adler 在關于數據治理的業(yè)務價值的爭論中說服了我。我現在認為數據治理是有價值的。
因此,如果信息管理領域的大人物再到數據庫 “輪機艙” 與您談論數據治理,那么好好聽他們說。***考慮一下自己能夠在哪些方面發(fā)揮作用。宏大的計劃如果能夠參考實干家的意見,往往會取得更好的結果。
就到這里吧。也許我會在咖啡機旁遇到您。誰知道呢?也許我們會輕松地談論一下數據治理。