數(shù)據(jù)湖不僅僅是大數(shù)據(jù)
數(shù)據(jù)湖不僅用于“大數(shù)據(jù)”,而且組織比以往擁有更多的機(jī)會(huì)將它們納入數(shù)據(jù)堆棧。
行業(yè)專家最近寫了一篇文章,揭露了關(guān)于數(shù)據(jù)湖架構(gòu)、數(shù)據(jù)湖定義和數(shù)據(jù)湖分析的常見誤區(qū)。其文章名為“什么是數(shù)據(jù)湖?需要來避免最大的迷思。”在那篇文章中,構(gòu)建了有關(guān)數(shù)據(jù)湖及其在企業(yè)數(shù)據(jù)策略中的適用范圍的當(dāng)前對(duì)話。對(duì)于那些希望從數(shù)據(jù)湖中獲取價(jià)值的人來說,由于顧問和供應(yīng)商的建議相互矛盾,這個(gè)主題歷來是令人困惑和不透明的。
一個(gè)可能特別令人困惑的領(lǐng)域是人們認(rèn)為數(shù)據(jù)湖僅用于“大數(shù)據(jù)”。如果花時(shí)間閱讀湖泊上的資料,就會(huì)認(rèn)為只有一種類型。人們將數(shù)據(jù)湖描述為龐大的、無所不包的實(shí)體,旨在容納所有知識(shí)。好消息是,湖泊不僅僅用于“大數(shù)據(jù)”,而且比以往任何時(shí)候都有更多的機(jī)會(huì)將其納入數(shù)據(jù)堆棧。
不同類型的數(shù)據(jù)湖
就像大自然一樣,湖泊具有各種不同的形狀和大小。每個(gè)都有自然狀態(tài),通常反映數(shù)據(jù)生態(tài)系統(tǒng),就像自然界中反映魚類,鳥類或其他生物的生態(tài)系統(tǒng)一樣。
不幸的是,“大數(shù)據(jù)”角度給人們的印象是湖泊僅用于“里海”規(guī)模的數(shù)據(jù)工作。這無疑使使用數(shù)據(jù)湖變得令人生畏。因此,以如此大的角度來描述事物使得那些可以從中受益的人們無法接近湖泊的概念。這里有一些數(shù)據(jù)湖的例子。
- 偉大的“里海”:就像里海是一個(gè)大水域一樣,這種類型的湖泊也是一個(gè)龐大而廣泛的,種類繁多的數(shù)據(jù)集。廣泛收集的各種數(shù)據(jù)反映了整個(gè)企業(yè)的信息。這就是大多數(shù)數(shù)據(jù)湖工作的框架。
- 暫時(shí)的“湖泊”:就像沙漠中可以有小的臨時(shí)湖泊一樣,短暫的短暫存在。它們可以用于項(xiàng)目、試點(diǎn)、PoC或點(diǎn)解決方案,并且它們的打開與關(guān)閉速度一樣快。
- 領(lǐng)域“項(xiàng)目”:這些湖泊與臨時(shí)數(shù)據(jù)湖泊一樣,通常側(cè)重于特定的知識(shí)領(lǐng)域。但是,與臨時(shí)湖不同,該湖將隨著時(shí)間的推移而持續(xù)存在。這些也可能是“淺”的,這意味著它們可能專注于狹窄的數(shù)據(jù)域,例如媒體、社交、Web分析、電子郵件或類似的數(shù)據(jù)源。
最近,與客戶合作創(chuàng)建了“域”型湖泊。該湖會(huì)將Adobe事件數(shù)據(jù)保存到AWS,以支持企業(yè)Oracle Cloud環(huán)境。為什么選擇AWS to Oracle?對(duì)于客戶的OracleBI環(huán)境,這是一種高效且具有成本效益的數(shù)據(jù)消耗模式,尤其是考慮到使用AWS Lake和Athena作為湖內(nèi)容的按需查詢服務(wù)的敏捷性和經(jīng)濟(jì)性。
通過設(shè)計(jì),所有類型的湖泊都應(yīng)采用抽象技術(shù),以最大程度地降低風(fēng)險(xiǎn)并為您提供更大的靈活性。而且,它們的結(jié)構(gòu)應(yīng)易于使用,而與大小無關(guān)。這確保了數(shù)據(jù)科學(xué)家,業(yè)務(wù)用戶或分析師所使用的湖泊都具有易于數(shù)據(jù)使用的結(jié)構(gòu)化環(huán)境。
數(shù)據(jù)湖入門
成為成功的早期采用者意味著采取業(yè)務(wù)價(jià)值方法而不是技術(shù)方法。當(dāng)組織考慮如何入門時(shí),這里有一些提示:
- 重點(diǎn):尋找機(jī)會(huì),在其中部署“臨時(shí)”或“項(xiàng)目”解決方案。這將確保您降低風(fēng)險(xiǎn)并克服技術(shù)和組織挑戰(zhàn),以便您的團(tuán)隊(duì)可以對(duì)湖泊建立信心。
- 熱情:確保內(nèi)部有一位“傳道者”或“倡導(dǎo)者”,他們對(duì)組織的解決方案和采用充滿熱情。
- 簡(jiǎn)單:擁護(hù)簡(jiǎn)單性和敏捷性,使人員、流程和技術(shù)選擇貫穿于此。缺乏復(fù)雜性不應(yīng)被看作是缺陷,而是周到的設(shè)計(jì)的副產(chǎn)品。
- 狹義:通過限制湖泊來理解數(shù)據(jù)(例如從ERP、CRM、銷售點(diǎn)、市場(chǎng)營(yíng)銷或廣告數(shù)據(jù)中導(dǎo)出)來使范圍狹窄且定義明確。此階段的數(shù)據(jù)素養(yǎng)將幫助您了解有關(guān)數(shù)據(jù)結(jié)構(gòu)、提取、治理,質(zhì)量和測(cè)試的工作流。
- 實(shí)驗(yàn):將數(shù)據(jù)湖與現(xiàn)代BI和Tableau、Power BI、Amazon Quicksight或Looker等分析工具配對(duì)。這將使非技術(shù)用戶有機(jī)會(huì)通過湖泊進(jìn)行實(shí)驗(yàn)和探索數(shù)據(jù)訪問。這使組織可以與其他用戶群互動(dòng),以評(píng)估性能瓶頸,發(fā)現(xiàn)改進(jìn)機(jī)會(huì),與任何現(xiàn)有EDW系統(tǒng)(或其他數(shù)據(jù)系統(tǒng))的可能鏈接以及其他候選數(shù)據(jù)源。
關(guān)注業(yè)務(wù)價(jià)值而不是技術(shù),可以為組織提供一個(gè)在整體數(shù)據(jù)和分析策略的框架內(nèi)進(jìn)行工作的機(jī)會(huì)。這樣可以提高速度,并幫助組織實(shí)現(xiàn)數(shù)據(jù)湖目標(biāo)并衡量業(yè)務(wù)績(jī)效的進(jìn)度。這也導(dǎo)致了完善的共享術(shù)語(yǔ)、最佳實(shí)踐以及對(duì)建立更好平臺(tái)的投資。