Gartner預(yù)警:千萬別把數(shù)據(jù)湖與數(shù)據(jù)倉庫混為一談
譯文【51CTO.com快譯】炒作過后就是幻滅,***有價(jià)值的東西才會(huì)出現(xiàn)。
2014年年中,市場研究機(jī)構(gòu)Gartner的兩位分析師對于炒作越來越猛的數(shù)據(jù)湖(data lake)概念進(jìn)行了一番尖銳的批評。
Gartner的研究主管Nick Heudecker說:“數(shù)據(jù)湖方面的基本問題是,它對于信息使用者做了某些假設(shè)。”
“它假設(shè)使用者認(rèn)識(shí)或了解關(guān)于采集如何數(shù)據(jù)的上下文偏見(contextual bias),假設(shè)他們知道如何合并和協(xié)調(diào)不同的數(shù)據(jù)源,而沒有‘先驗(yàn)知識(shí)’;假設(shè)他們了解數(shù)據(jù)集的不完整性,不管是什么樣的數(shù)據(jù)結(jié)構(gòu)。”
一年半后,Gartner的擔(dān)憂似乎并沒有得到緩解。雖然確實(shí)有成功的項(xiàng)目,但是也有失敗案例,而關(guān)鍵成功因素似乎是深入了解數(shù)據(jù)湖和數(shù)據(jù)倉庫各自扮演的不同角色。
Heudecker表示,數(shù)據(jù)湖常常被廠商說成是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的一種手段,它其實(shí)有助于你搞清楚針對你的數(shù)據(jù)提出的新問題,“前提是你得有相應(yīng)技能。”
“如果這是你想要做的,我倒不太關(guān)心數(shù)據(jù)湖的具體實(shí)施。但是如果你的場景是把原先針對數(shù)據(jù)倉庫的服務(wù)級別協(xié)議(SLA)重新實(shí)施于數(shù)據(jù)湖,風(fēng)險(xiǎn)就很高了。”
Heudecker表示,數(shù)據(jù)湖通常針對不同的使用場合、并發(fā)性和多租戶水平進(jìn)行優(yōu)化。
“換句話說,別頭腦發(fā)熱將數(shù)據(jù)湖用于數(shù)據(jù)倉庫。”
他表示,需要兩者完全合情合理,因?yàn)楦髯葬槍Σ煌姆?wù)級別協(xié)議、用戶和技能進(jìn)行了優(yōu)化。
籠統(tǒng)地說,數(shù)據(jù)湖是面向整個(gè)企業(yè)的平臺(tái),用于分析采用原生格式的不同數(shù)據(jù)源,以消除數(shù)據(jù)攝取的成本和數(shù)據(jù)轉(zhuǎn)換復(fù)雜性。而這里就面臨挑戰(zhàn):數(shù)據(jù)湖缺乏語義一致性和經(jīng)過治理的元數(shù)據(jù),因而將分析方面的許多責(zé)任推到熟練用戶的身上。
Heudecker表示,大家的認(rèn)識(shí)有所提高,但是數(shù)據(jù)湖炒作仍然很普遍。
由于實(shí)施數(shù)據(jù)湖的技術(shù)選擇繼續(xù)在迅速變化,這項(xiàng)技術(shù)的成熟度更難掌控。
Heudecker說:“比如說,Spark是一種流行的數(shù)據(jù)處理框架,它平均每隔43天就推出新版本。”
他表示,數(shù)據(jù)湖項(xiàng)目的成功因素歸結(jié)為元數(shù)據(jù)管理、是否具備技能以及執(zhí)行相應(yīng)級別的治理機(jī)制。
“我接觸過這樣的公司:建立起了數(shù)據(jù)湖,往里面放入一堆數(shù)據(jù),卻根本找不到任何有價(jià)值的信息。另一些公司根本不知道哪些數(shù)據(jù)集不準(zhǔn)確、哪些數(shù)據(jù)集高品質(zhì)。與IT行業(yè)的其他領(lǐng)域一樣,這方面同樣沒有妙方高招。”
他表示,數(shù)據(jù)湖是個(gè)架構(gòu)概念,而不是一種特定的實(shí)施方法。
“就像任何新的概念或技術(shù)一樣,總是會(huì)出現(xiàn)炒作期,然后是幻滅期,***才成為一種廣為人知的實(shí)踐。
數(shù)據(jù)湖會(huì)繼續(xù)是使用它們的數(shù)據(jù)科學(xué)家的真實(shí)反映。
這項(xiàng)技術(shù)可能會(huì)改變和改善,可能會(huì)充分發(fā)揮GPU或FPGA之類技術(shù)的優(yōu)勢,但總的目標(biāo)是,發(fā)掘數(shù)據(jù)的新用途和新機(jī)會(huì)。”
原文:Data lakes, don't confuse them with data warehouses, warns Gartner
【51CTO.com獨(dú)家譯稿,合作站點(diǎn)轉(zhuǎn)載請注明來源】