自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Gartner預(yù)警:千萬別把數(shù)據(jù)湖與數(shù)據(jù)倉庫混為一談

譯文
大數(shù)據(jù) 數(shù)據(jù)倉庫 數(shù)據(jù)湖
數(shù)據(jù)湖常常被廠商說成是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的一種手段,它其實(shí)有助于你搞清楚針對你的數(shù)據(jù)提出的新問題,但前提是你得有相應(yīng)技能。換句話說,別頭腦發(fā)熱將數(shù)據(jù)湖用于數(shù)據(jù)倉庫

【51CTO.com快譯】炒作過后就是幻滅,***有價(jià)值的東西才會(huì)出現(xiàn)。 

[[162499]]

2014年年中,市場研究機(jī)構(gòu)Gartner的兩位分析師對于炒作越來越猛的數(shù)據(jù)湖(data lake)概念進(jìn)行了一番尖銳的批評。

Gartner的研究主管Nick Heudecker說:“數(shù)據(jù)湖方面的基本問題是,它對于信息使用者做了某些假設(shè)。”

“它假設(shè)使用者認(rèn)識(shí)或了解關(guān)于采集如何數(shù)據(jù)的上下文偏見(contextual bias),假設(shè)他們知道如何合并和協(xié)調(diào)不同的數(shù)據(jù)源,而沒有‘先驗(yàn)知識(shí)’;假設(shè)他們了解數(shù)據(jù)集的不完整性,不管是什么樣的數(shù)據(jù)結(jié)構(gòu)。”

一年半后,Gartner的擔(dān)憂似乎并沒有得到緩解。雖然確實(shí)有成功的項(xiàng)目,但是也有失敗案例,而關(guān)鍵成功因素似乎是深入了解數(shù)據(jù)湖和數(shù)據(jù)倉庫各自扮演的不同角色。

Heudecker表示,數(shù)據(jù)湖常常被廠商說成是應(yīng)對大數(shù)據(jù)挑戰(zhàn)的一種手段,它其實(shí)有助于你搞清楚針對你的數(shù)據(jù)提出的新問題,“前提是你得有相應(yīng)技能。”

“如果這是你想要做的,我倒不太關(guān)心數(shù)據(jù)湖的具體實(shí)施。但是如果你的場景是把原先針對數(shù)據(jù)倉庫的服務(wù)級別協(xié)議(SLA)重新實(shí)施于數(shù)據(jù)湖,風(fēng)險(xiǎn)就很高了。”

Heudecker表示,數(shù)據(jù)湖通常針對不同的使用場合、并發(fā)性和多租戶水平進(jìn)行優(yōu)化。

“換句話說,別頭腦發(fā)熱將數(shù)據(jù)湖用于數(shù)據(jù)倉庫。”

他表示,需要兩者完全合情合理,因?yàn)楦髯葬槍Σ煌姆?wù)級別協(xié)議、用戶和技能進(jìn)行了優(yōu)化。

籠統(tǒng)地說,數(shù)據(jù)湖是面向整個(gè)企業(yè)的平臺(tái),用于分析采用原生格式的不同數(shù)據(jù)源,以消除數(shù)據(jù)攝取的成本和數(shù)據(jù)轉(zhuǎn)換復(fù)雜性。而這里就面臨挑戰(zhàn):數(shù)據(jù)湖缺乏語義一致性和經(jīng)過治理的元數(shù)據(jù),因而將分析方面的許多責(zé)任推到熟練用戶的身上。

Heudecker表示,大家的認(rèn)識(shí)有所提高,但是數(shù)據(jù)湖炒作仍然很普遍。

由于實(shí)施數(shù)據(jù)湖的技術(shù)選擇繼續(xù)在迅速變化,這項(xiàng)技術(shù)的成熟度更難掌控。

Heudecker說:“比如說,Spark是一種流行的數(shù)據(jù)處理框架,它平均每隔43天就推出新版本。”

他表示,數(shù)據(jù)湖項(xiàng)目的成功因素歸結(jié)為元數(shù)據(jù)管理、是否具備技能以及執(zhí)行相應(yīng)級別的治理機(jī)制。

“我接觸過這樣的公司:建立起了數(shù)據(jù)湖,往里面放入一堆數(shù)據(jù),卻根本找不到任何有價(jià)值的信息。另一些公司根本不知道哪些數(shù)據(jù)集不準(zhǔn)確、哪些數(shù)據(jù)集高品質(zhì)。與IT行業(yè)的其他領(lǐng)域一樣,這方面同樣沒有妙方高招。”

他表示,數(shù)據(jù)湖是個(gè)架構(gòu)概念,而不是一種特定的實(shí)施方法。

“就像任何新的概念或技術(shù)一樣,總是會(huì)出現(xiàn)炒作期,然后是幻滅期,***才成為一種廣為人知的實(shí)踐。

數(shù)據(jù)湖會(huì)繼續(xù)是使用它們的數(shù)據(jù)科學(xué)家的真實(shí)反映。

這項(xiàng)技術(shù)可能會(huì)改變和改善,可能會(huì)充分發(fā)揮GPU或FPGA之類技術(shù)的優(yōu)勢,但總的目標(biāo)是,發(fā)掘數(shù)據(jù)的新用途和新機(jī)會(huì)。”

原文:Data lakes, don't confuse them with data warehouses, warns Gartner

【51CTO.com獨(dú)家譯稿,合作站點(diǎn)轉(zhuǎn)載請注明來源】

責(zé)任編輯:Ophira 來源: 51CTO.com
相關(guān)推薦

2010-08-26 17:26:18

微軟

2019-04-03 09:00:30

Azure Stack微軟Azure

2024-09-05 16:08:52

2024-03-19 13:45:27

數(shù)據(jù)倉庫數(shù)據(jù)湖大數(shù)據(jù)

2012-01-05 09:01:47

2022-11-29 17:16:57

2022-10-21 16:38:57

數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)庫

2023-12-01 14:55:32

數(shù)據(jù)網(wǎng)格數(shù)據(jù)湖

2018-07-04 06:18:07

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2023-11-27 16:35:28

數(shù)據(jù)湖數(shù)據(jù)倉庫

2020-02-05 09:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-10-20 18:59:40

數(shù)據(jù)湖數(shù)據(jù)倉庫采集

2023-12-13 07:26:24

數(shù)據(jù)湖倉數(shù)據(jù)倉庫性能

2020-12-02 17:20:58

數(shù)據(jù)倉庫阿里云數(shù)據(jù)湖

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2022-05-11 08:00:00

Lakehouse存儲(chǔ)數(shù)據(jù)湖

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2012-05-30 09:06:16

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號