數(shù)據(jù)湖的四個最佳實踐
譯文數(shù)據(jù)湖聽起來很簡單:把數(shù)據(jù)或信息匯集到一個結合處理速度和存儲空間的大數(shù)據(jù)系統(tǒng)――Hadoop集群或內存解決方案,那樣業(yè)務部門就能訪問數(shù)據(jù),獲取新的洞察力。不過,與IT行業(yè)的許多技術一樣,現(xiàn)實比夢想困難得多。
Pentaho公司的創(chuàng)始人兼***技術官詹姆斯·狄克遜(James Dixon)發(fā)明了這個術語,他表示,其中一方面是由于對數(shù)據(jù)湖應該是什么存在著誤解。他從來就沒有打算用數(shù)據(jù)湖來描述從所有企業(yè)應用程序獲取數(shù)據(jù)的巨大的Hadoop存儲庫。
數(shù)據(jù)湖是什么東東?
狄克遜說:“有人問數(shù)據(jù)湖是什么時,我告訴他們,它就是你以前在磁帶上擁有的東西。拿來你在磁帶上的東西,把它倒入到數(shù)據(jù)湖,然后開始探索該數(shù)據(jù)。我們的看法是,只把需要的數(shù)據(jù)倒入到Hadoop;如果你想結合來自數(shù)據(jù)湖的信息和客戶關系管理(CRM)系統(tǒng)里面的信息,我們就進行連接,只有需要時才執(zhí)行這番數(shù)據(jù)結合。”
盡管狄克森的初衷并非如此,但這個術語具有更廣泛的含義,而且有著更大的希望。人們開始將大數(shù)據(jù)湖視作通過把所有數(shù)據(jù)放入到一個超快、易于訪問的存儲庫,解決集成難題的一種方法。
實際上,存儲庫反而變成了一個緩慢、僵化的數(shù)據(jù)沼澤。大數(shù)據(jù)需要特殊的專長來分析數(shù)據(jù)。使用原始數(shù)據(jù)得出的結論在數(shù)據(jù)質量和治理方面發(fā)出了危險信號。
尼克·霍德克(Nick Heudecker)是Gartner的IT***數(shù)據(jù)和分析部門的數(shù)據(jù)管理研究人員,他說:“每個人都想把數(shù)據(jù)湖視作IT行業(yè)的銀彈。之前有沒有這樣的一種銀彈?我還在等待。我認為,一旦你跨過了那個發(fā)現(xiàn)階段,就需要做更多工作。就數(shù)據(jù)湖而言,那同一基礎設施有所幫助,但是一旦你使用該數(shù)據(jù)來回答你生成的問題,就需要更深入地探究專業(yè)信息管理世界。”
所以鑒于數(shù)據(jù)湖現(xiàn)狀,你如何利用它們、為貴企業(yè)帶來***優(yōu)勢?專家們表示,數(shù)據(jù)湖有四個關鍵的***實踐:
·了解數(shù)據(jù)湖的使用場合
·別忘了現(xiàn)有的數(shù)據(jù)管理***實踐,比如確立強大的數(shù)據(jù)管理
·知道數(shù)據(jù)湖的業(yè)務理由,因為這將決定合適的架構
·要注意元數(shù)據(jù)
1. 了解數(shù)據(jù)湖的使用場合
想建立一個成功的數(shù)據(jù)湖,企業(yè)需要擯棄這種想法:數(shù)據(jù)湖讓你可以在一個地方收集所有數(shù)據(jù)。數(shù)據(jù)湖并非取代企業(yè)數(shù)據(jù)管理系統(tǒng)和實踐――至少從大數(shù)據(jù)的現(xiàn)狀來看不是這樣,明白這一點同樣很重要。
MapR公司的數(shù)據(jù)和應用程序高級副總裁杰克·諾里斯(Jack Norris)說:“企業(yè)組織仍在談論數(shù)據(jù)湖,但它們也認識到,不是所有數(shù)據(jù)湖都一樣。某些數(shù)量的功能是你所需要的,或者我們聽人談起過數(shù)據(jù)沼澤,很難讓數(shù)據(jù)流進流出,數(shù)據(jù)就停滯在那里。”
考慮到數(shù)據(jù)湖沒有按計劃那樣奏效,它仍然切實可行嗎?專家們表示,是的,前提是你得了解其局限性。
霍德克說:“在我看來,它就是數(shù)據(jù)科學沙盒。你在這里處理數(shù)據(jù),試圖找到新的洞察力。一旦你找到了那新的洞察力,任由數(shù)據(jù)處于原始格式合理嗎?我會認為,這并不合理,因為你現(xiàn)在需要優(yōu)化數(shù)據(jù)。你需要確保數(shù)據(jù)得到治理,確保數(shù)據(jù)在語義上一致,并滿足業(yè)務使用者的要求,所以在我看來,數(shù)據(jù)湖好比實驗室。你可以用它處理其他事情,不過對我來說,我在建議客戶時,我會盡量建議他們這么考慮其數(shù)據(jù)湖。”
這不像聽起來那么有局限性。比如說,霍德克特別指出,企業(yè)使用數(shù)據(jù)湖從部署的物聯(lián)網獲取洞察力。TDWI Research的數(shù)據(jù)管理研究主任菲利普·拉索姆(Philip Russom)表示,數(shù)據(jù)湖身兼多職,比如為敏捷數(shù)據(jù)倉庫和報告提供更大的靈活性。數(shù)據(jù)湖還經常為Hadoop集群和數(shù)據(jù)集成充當數(shù)據(jù)著陸區(qū)和集結區(qū)。
拉索姆在電子郵件中說:“在極端狀態(tài)下,數(shù)據(jù)湖直接從數(shù)據(jù)源攝取原始狀態(tài)的數(shù)據(jù),不經過任何清理、標準化、重新建模和改動等操作。處理原始的、未改動的詳細源數(shù)據(jù)的目的在于,新的、獨特的分析需求出現(xiàn)時,可以在運行時實時改動數(shù)據(jù)。這假設,一旦你改變數(shù)據(jù)用于特定的用途,輸出數(shù)據(jù)對其他用途而言就有點局限性。”
2. 運用現(xiàn)有的數(shù)據(jù)管理***實踐
拉索姆補充道,可以跨越這些比較簡單的使用場合,但那需要的不僅僅是將數(shù)據(jù)倒入到數(shù)據(jù)湖。
他在郵件中寫道:“現(xiàn)在有些用戶多年來一直在使用某種形式的數(shù)據(jù)湖(甚至是在新的Hadoop上),我們可以從它們成熟的運用中學到經驗。用戶已明白,如果要求數(shù)據(jù)湖的一些部分(很少是整個數(shù)據(jù)湖)采用某種結構,就能夠從數(shù)據(jù)湖得到更大的用途(即商業(yè)價值)。”
這也意味著,企業(yè)組織在分析數(shù)據(jù)湖存儲系統(tǒng)或與企業(yè)應用程序集成時,不能忽視過去二三十年好不容易獲取的數(shù)據(jù)經驗教訓。審計跟蹤記錄、數(shù)據(jù)完整性、數(shù)據(jù)管理、數(shù)據(jù)治理和數(shù)據(jù)所有權,這些都仍然適用。
3. 知道數(shù)據(jù)湖的業(yè)務理由
技術專家們喜歡說,IT項目應該始于業(yè)務,但在這里,這是確定如何構建數(shù)據(jù)湖的關鍵的***步。業(yè)務理由并不是僅僅影響架構,而是決定架構。
比如說,狄克遜特別指出,該公司采訪Hadoop集群的早期采用者后,80%到90%的使用場合針對結構化數(shù)據(jù),而不是非結構化數(shù)據(jù)。想確定你的數(shù)據(jù)是否可以建立在傳統(tǒng)關系數(shù)據(jù)庫、Hadoop集群或另一種NoSQL替代數(shù)據(jù)庫,關鍵在于知道自己的業(yè)務使用場合將是什么,它需要哪種類型的數(shù)據(jù)。據(jù)霍德克聲稱,比如說,關系數(shù)據(jù)庫就適合物聯(lián)網傳感器數(shù)據(jù),這意味著你可以節(jié)省招聘NoSQL人才的成本。
業(yè)務理由還將決定你要不要使用任何NoSQL解決方案上的某種SQL支持。如果數(shù)據(jù)將被轉移到企業(yè)分析工具,那么你要考慮如何支持數(shù)據(jù)***實踐。
諾里斯說:“重點絕不僅僅是數(shù)據(jù),而是始終關于你要做什么工作。使用場合是什么,你可以運用什么應用程序來處理該數(shù)據(jù)以便從中受益。”
4. 支持元數(shù)據(jù)
***,要注意元數(shù)據(jù)。元數(shù)據(jù)一再出現(xiàn),它是確保數(shù)據(jù)湖是可行戰(zhàn)略而不是數(shù)據(jù)墓地的關鍵。這里的好消息是,大數(shù)據(jù)和分析廠商在推出將元數(shù)據(jù)添加到數(shù)據(jù)湖及其他大數(shù)據(jù)存儲系統(tǒng)的新工具。比如說,元數(shù)據(jù)注入就是Pentaho Business Analytics 6.1的一個關鍵部分。
狄克遜說:“現(xiàn)階段,人們認識到大數(shù)據(jù)確實帶來了其他數(shù)據(jù)存儲系統(tǒng)無法帶來的東西。現(xiàn)在它的表現(xiàn)要像其他企業(yè)級應用程序?,F(xiàn)在它需要安全,需要監(jiān)控、日志和審計,它需要元數(shù)據(jù),變得更穩(wěn)健、更實用、更人性化。我認為,這是它變得更像是企業(yè)IT的標準工具的結果。”
霍德克表示,元數(shù)據(jù)也是Gartner發(fā)現(xiàn)的一個新趨勢的關鍵:對數(shù)據(jù)進行“聯(lián)系,而不是收集”。相比將數(shù)據(jù)轉移到越來越大的集群或數(shù)據(jù)倉庫,讓數(shù)據(jù)待在原地來得更省錢、更容易、更高效。
他說:“***的挑戰(zhàn)是元數(shù)據(jù)和元數(shù)據(jù)管理,這也是企業(yè)應該最關注的方面。如果你非常清楚地了解數(shù)據(jù)的元數(shù)據(jù),就能解決你在忙于工作時可能會延遲或延期的許多事情。所以,只要擁有良好的元數(shù)據(jù),你就能搞定治理,就能搞定安全,就能搞定任何數(shù)據(jù)質量問題。”
“只要你專注于此,那么就能建立堅實的基礎,然后在需求不斷變化,你對使用場合的了解變得更明確時,不斷夯實這個基礎。”