自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

企業(yè)在數據湖實施之前需要試水

大數據 數據湖
數據倉庫存儲來自整個組織的較舊的數據,用于報告和分析。多個數據集市大致相當于數據倉庫,通常在自己的IT環(huán)境中為子公司服務。

[[179929]]

企業(yè)在實施大規(guī)模數據湖之前,應該從小規(guī)模開始,并將該技術作為對現有分析系統(tǒng)的擴展。

最近,數據湖已經開始在IT行業(yè)涌現。數據湖是與附加數據管理系統(tǒng)相結合的數據存儲,而附加數據管理系統(tǒng)提供關于數據的分析,作為數據清理過程的一部分,通常是從其他分析環(huán)境(例如數據倉庫或數據集市)剝離的能力。

例如,數據倉庫的提取,轉換和加載預處理消除了告訴系統(tǒng)何時到達或插入“操作數據存儲”的日志。

但在當今的行業(yè)中,數據湖似乎至少有兩個定義。一個來自存儲公司的是,數據湖是允許元數據存儲的磁盤存儲基礎設施。另一個主要是營銷驅動的,是混合通常不混合的多個數據存儲的一個湖。根據專家的定義,沒有銷售全面數據湖的供應商,而是人們使用Hadoop和本地工具訪問數據來將它們拼湊在一起。

由于最初的供應商炒作讓位于真實世界的實驗,用戶發(fā)現數據市場的***實踐并不適用于數據湖。為了避免早期用戶的錯誤,適當地解決數據湖的實施,而不是大規(guī)模。以下是一些在處理數據湖時證明有用的***實踐。

記住,數據湖是探索性的

數據湖實施應該允許組織以特別的和探索的方式擴展現有的分析。

從當前分析系統(tǒng)不會及時獲取的高度數據的核心(例如客戶事務日志)中增長數據湖中的數據類型。大多數現有的分析不足以真實了解應用程序的行為。數據倉庫和Hadoop等數據管理方案失去了重要的數據。

大數據分析系統(tǒng)提供商Pentaho公司的***技術官James Dixon在博客上例舉了一個例子:數據倉庫等系統(tǒng)并不捕獲客戶購買過程中的每一步,而是事務日志。這樣的購買過程的設計對于典型的數據架構師似乎是直接的,但是在每個步驟中可能有數分鐘甚至數小時的滯后。

通過發(fā)現流程中的滯后,用戶可以開始與客戶面對的數據湖實現,購買相關的交易。分析對企業(yè)的整體分析工作具有探索性和重要性,因為一旦用戶更徹底地分析客戶日志時間戳,還不清楚會發(fā)現什么。

數據集市,湖泊和倉庫之間有什么區(qū)別?

數據集市是數據倉庫的變體。數據倉庫存儲來自整個組織的較舊的數據,用于報告和分析。多個數據集市大致相當于數據倉庫,通常在自己的IT環(huán)境中為子公司服務。用戶可以有多個數據集市進入數據倉庫,或者只是松散耦合的數據集市。

集成是實現數據湖的關鍵

將數據湖與其他企業(yè)數據架構(包括數據治理和主要數據管理)完全集成也很重要。了解哪些數據類型對數據倉庫或數據集市很重要,以及原始數據是否正確和一致。實施數據治理實踐,以避免分析有缺陷的數據。

數據湖的長期發(fā)展

數據湖有潛力。但是,除非人們能夠更好地了解自己可以長期提供什么,否則這很可能只是一個時尚,除非他們的利益比迄今為止具體顯示的更廣泛。

Dixon在并入時序和間距時的數據倉庫問題的例子只是當今的分析繼續(xù)依賴簡單統(tǒng)計數據,而不考慮什么“壞”數據可以告訴人們的一個實例。由于數據湖實施可以發(fā)掘分析中的關鍵“陷阱”,因此它值得任何企業(yè)進行探索。然而,從長遠來看,這需要實驗和仔細平衡數據湖和整體信息架構。

責任編輯:武曉燕 來源: 機房360
相關推薦

2018-07-20 17:11:56

云遷移云計算工具

2010-09-29 09:59:27

2020-09-15 12:56:00

數據湖架構

2017-12-05 15:06:59

數據中心遷移考慮

2020-07-30 11:40:54

數據湖大數據數據湖平臺

2021-05-27 10:15:20

加密貨幣漏洞網絡犯罪

2020-06-16 08:58:08

數據湖數據數據庫

2020-07-27 09:58:55

數據湖數據CIO

2020-06-28 11:00:18

大數據數據湖安全

2023-11-01 11:36:47

2018-09-30 15:05:38

數據湖數據倉庫Hadoop

2010-09-01 19:34:04

智能互聯新城思科

2013-04-07 15:44:26

Java8Lambda

2020-02-25 15:37:31

數據安全數據存儲

2023-03-15 10:21:01

2023-12-19 17:40:28

數據中心服務器綠色能源

2011-04-12 10:23:41

2020-10-23 22:43:05

阿里云企業(yè)級數據湖

2009-01-08 09:12:26

移動固網3G

2017-04-18 16:21:40

區(qū)塊鏈數據共享存儲
點贊
收藏

51CTO技術棧公眾號