自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)湖到底是什么湖?

大數(shù)據(jù) 數(shù)據(jù)湖
近兩年,隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展與成熟,數(shù)據(jù)湖再次被人們提起,人們對(duì)原始數(shù)據(jù)的分析、非結(jié)構(gòu)化數(shù)據(jù)的分析的應(yīng)用也越來(lái)越多,數(shù)據(jù)湖開(kāi)始走向企業(yè)的實(shí)際應(yīng)用中。

數(shù)據(jù)作為一項(xiàng)重要資產(chǎn),已經(jīng)成為企業(yè)的共識(shí),為了更好地存儲(chǔ)數(shù)據(jù)、挖掘數(shù)據(jù),企業(yè)需要:

  • 一個(gè)超級(jí)大的存儲(chǔ)庫(kù),對(duì)數(shù)據(jù)進(jìn)行長(zhǎng)期的原樣的存儲(chǔ);
  • 能夠?qū)@些數(shù)據(jù)高效地管理與集中治理;
  • 需要強(qiáng)大的計(jì)算能力滿(mǎn)足數(shù)據(jù)處理需求。

假設(shè)有這樣一種解決方案:在一種技術(shù)的支持下,企業(yè)在快速實(shí)現(xiàn)企業(yè)中各類(lèi)的數(shù)據(jù)集成的同時(shí),也能輕松獲取企業(yè)外部數(shù)據(jù),打通產(chǎn)業(yè)鏈上下游數(shù)據(jù),實(shí)現(xiàn)生態(tài)化數(shù)據(jù)整合,實(shí)現(xiàn)全貌數(shù)據(jù)分析。同時(shí),數(shù)據(jù)存儲(chǔ)量大,支持批量歷史數(shù)據(jù)和實(shí)時(shí)流數(shù)據(jù)的處理,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速查詢(xún)和高級(jí)分析。

這樣的解決方案,你是否會(huì)心動(dòng)?

其實(shí),這個(gè)方案,通過(guò)數(shù)據(jù)湖就能實(shí)現(xiàn)。

一、什么是數(shù)據(jù)湖?

數(shù)據(jù)湖概念的提出,最早是在2010年,由Pentaho的創(chuàng)始人兼CTO詹姆斯·狄克遜(James Dixon)在紐約Hadoop World大會(huì)上提出的,就在當(dāng)時(shí),發(fā)布了如今被大數(shù)據(jù)界廣泛使用的開(kāi)源框架Hadoop的第一個(gè)版本。

近兩年,隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展與成熟,數(shù)據(jù)湖再次被人們提起,人們對(duì)原始數(shù)據(jù)的分析、非結(jié)構(gòu)化數(shù)據(jù)的分析的應(yīng)用也越來(lái)越多,數(shù)據(jù)湖開(kāi)始走向企業(yè)的實(shí)際應(yīng)用中。

 

數(shù)據(jù)湖到底是什么湖?

維基百科對(duì)數(shù)據(jù)湖的定義:數(shù)據(jù)湖是一個(gè)以原始格式(通常是對(duì)象塊或文件)存儲(chǔ)數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫(kù)。數(shù)據(jù)湖通常是所有企業(yè)數(shù)據(jù)的單一存儲(chǔ),用于報(bào)告、可視化、高級(jí)分析和機(jī)器學(xué)習(xí)等任務(wù)。數(shù)據(jù)湖可以包括來(lái)自關(guān)系數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件、文檔、pdf)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)。

根據(jù)網(wǎng)上資料,有一張數(shù)據(jù)湖的參考架構(gòu):

 

數(shù)據(jù)湖到底是什么湖?

從架構(gòu)上來(lái)看,數(shù)據(jù)湖的主要特征有:

  • 數(shù)據(jù)接入:數(shù)據(jù)湖提供各種類(lèi)型數(shù)據(jù)的接入,包括數(shù)據(jù)庫(kù)中的表、各種格式的文件、數(shù)據(jù)流、ETL工具轉(zhuǎn)換后的數(shù)據(jù)、應(yīng)用API獲取的數(shù)據(jù)等等,并自動(dòng)生成元數(shù)據(jù)信息。
  • 數(shù)據(jù)存儲(chǔ):數(shù)據(jù)湖存儲(chǔ)的數(shù)據(jù)量大、來(lái)源多,并且是以原始格式存儲(chǔ),不同于數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)化存儲(chǔ)方式,數(shù)據(jù)湖以自然格式存儲(chǔ)數(shù)據(jù)。
  • 數(shù)據(jù)處理:支持?jǐn)?shù)據(jù)的驗(yàn)證、清洗、聚合、權(quán)限管理以及數(shù)據(jù)安全等。
  • 數(shù)據(jù)應(yīng)用:除了BI、報(bào)表分析、可視化分析、高級(jí)分析外,也適用于機(jī)器學(xué)習(xí)。

數(shù)據(jù)湖本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)。

2、數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)有什么區(qū)別呢?

在這里,我們拿數(shù)據(jù)湖和熟知的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行對(duì)比,方便大家對(duì)數(shù)據(jù)湖進(jìn)一步理解。

 

數(shù)據(jù)湖到底是什么湖?

通過(guò)對(duì)比,我們可以看到數(shù)據(jù)湖相比于數(shù)據(jù)倉(cāng)庫(kù),不僅在數(shù)據(jù)源上更豐富,數(shù)據(jù)也不需要提前進(jìn)行定義,在準(zhǔn)備使用數(shù)據(jù)時(shí)再定義即可,這提高了數(shù)據(jù)的靈活性與可擴(kuò)展性。

數(shù)據(jù)湖在未來(lái)的使用中應(yīng)用范圍更廣,使用場(chǎng)景也從批處理、BI擴(kuò)展到機(jī)器學(xué)習(xí)、高級(jí)分析。

三、數(shù)據(jù)湖能夠給企業(yè)帶來(lái)哪些價(jià)值?

通過(guò)對(duì)數(shù)據(jù)的分析與應(yīng)用成功創(chuàng)造商業(yè)價(jià)值的企業(yè),將會(huì)在數(shù)字化浪潮下越走越遠(yuǎn)。數(shù)據(jù)湖的核心價(jià)值是為企業(yè)帶來(lái)了數(shù)據(jù)平臺(tái)化運(yùn)營(yíng)機(jī)制,真正幫助企業(yè)實(shí)現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對(duì)快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問(wèn)題。據(jù)Aberdeen 的一項(xiàng)調(diào)查顯示,實(shí)施數(shù)據(jù)湖的組織比同類(lèi)公司在有機(jī)收入增長(zhǎng)方面高出 9%。

數(shù)據(jù)湖對(duì)企業(yè)的價(jià)值主要體現(xiàn)在:

1、保存原始數(shù)據(jù),企業(yè)數(shù)據(jù)保真

數(shù)據(jù)倉(cāng)庫(kù)保存的數(shù)據(jù)都是結(jié)構(gòu)化處理后的數(shù)據(jù),而非原始數(shù)據(jù),且無(wú)用數(shù)據(jù)不會(huì)被納入。但是目前看來(lái)"無(wú)用"的數(shù)據(jù)是否真的沒(méi)有用處呢?其他格式的數(shù)據(jù)是否沒(méi)有價(jià)值?有用無(wú)用依賴(lài)的是我們業(yè)務(wù)人員的經(jīng)驗(yàn)來(lái)判斷的,這明顯不符合大數(shù)據(jù)的原則,而數(shù)據(jù)湖能夠保存原始數(shù)據(jù),同時(shí)過(guò)程數(shù)據(jù)會(huì)不斷的完善、演化,以滿(mǎn)足業(yè)務(wù)的需要,保證用戶(hù)能獲取到各個(gè)階段的數(shù)據(jù)。

 

數(shù)據(jù)湖到底是什么湖?

2、打破數(shù)據(jù)孤島,實(shí)現(xiàn)數(shù)據(jù)互通

有的企業(yè)先后上線了ERP系統(tǒng)、CRM系統(tǒng)、OA系統(tǒng)等,企業(yè)的數(shù)據(jù)分別存儲(chǔ)在這些系統(tǒng)中,數(shù)據(jù)之間互不相通,而數(shù)據(jù)湖可以容納所有系統(tǒng)的數(shù)據(jù),同時(shí)也能夠充分利用企業(yè)外部數(shù)據(jù),打破數(shù)據(jù)孤島,整合企業(yè)全貌數(shù)據(jù)。

 

數(shù)據(jù)湖到底是什么湖?

3、支持實(shí)時(shí)數(shù)據(jù),提高運(yùn)營(yíng)效率

物聯(lián)網(wǎng) (IoT) 引入了更多方式來(lái)收集有關(guān)制造等流程的數(shù)據(jù),包括來(lái)自互聯(lián)網(wǎng)連接設(shè)備的實(shí)時(shí)數(shù)據(jù)。數(shù)據(jù)湖支持對(duì)實(shí)時(shí)和高速數(shù)據(jù)流執(zhí)行 ETL 功能,并對(duì)機(jī)器生成的 IoT 數(shù)據(jù)進(jìn)行分析,從而能夠協(xié)助企業(yè)發(fā)現(xiàn)降低運(yùn)營(yíng)成本、提高運(yùn)營(yíng)效率的方法。

 

[[336232]]

4、實(shí)現(xiàn)數(shù)據(jù)挖掘,驅(qū)動(dòng)價(jià)值增長(zhǎng)

數(shù)據(jù)湖統(tǒng)一管理所有數(shù)據(jù),通過(guò)數(shù)據(jù)湖能夠輕松實(shí)現(xiàn)對(duì)數(shù)據(jù)的搜索、查詢(xún)、計(jì)算和訪問(wèn),結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)能夠?yàn)槠髽I(yè)構(gòu)建更多優(yōu)化后的運(yùn)營(yíng)模型,進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。數(shù)據(jù)湖還會(huì)跟蹤和確認(rèn)數(shù)據(jù)血統(tǒng),這有助于確保數(shù)據(jù)值得信任,還會(huì)快速生成可用于數(shù)據(jù)驅(qū)動(dòng)決策的 BI,提供企業(yè)級(jí)數(shù)據(jù)服務(wù),驅(qū)動(dòng)企業(yè)的價(jià)值增長(zhǎng)。

 

數(shù)據(jù)湖到底是什么湖?

5、靈活可拓展,支持敏捷開(kāi)發(fā)

由于數(shù)據(jù)湖采用的是分布式架構(gòu)部署,具有很高的拓展性。相比于傳統(tǒng)集中存儲(chǔ)式,數(shù)據(jù)湖具有更高的靈活性和敏捷性,當(dāng)需要修改或增添新單元時(shí),無(wú)需對(duì)數(shù)據(jù)湖進(jìn)行大規(guī)模改變,能夠在段時(shí)間內(nèi)(如幾天或幾周)實(shí)現(xiàn)。

 

[[336233]]

四、數(shù)據(jù)湖的發(fā)展前景

目前,數(shù)據(jù)湖與云計(jì)算技術(shù)的融合成為一種趨勢(shì),由于數(shù)據(jù)湖的特性與優(yōu)勢(shì),數(shù)據(jù)湖在企業(yè)數(shù)據(jù)存儲(chǔ)、處理和分析上將扮演更重要的角色。

一方面,云計(jì)算具有高效的運(yùn)算能力,在原有服務(wù)器基礎(chǔ)上增加云計(jì)算功能能夠使計(jì)算速度迅速提高,為企業(yè)帶來(lái)了更多的管理便捷性;

另一方面,云計(jì)算采用虛擬化、多租戶(hù)等技術(shù),將資源放在虛擬資源池中統(tǒng)一管理,在一定程度上優(yōu)化了物理資源,用戶(hù)不再需要昂貴、存儲(chǔ)空間大的主機(jī),降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來(lái)了巨大的經(jīng)濟(jì)性。

數(shù)據(jù)湖+云計(jì)算,兩大技術(shù)融合使用,將大數(shù)據(jù)計(jì)算部署在云上,把存儲(chǔ)資源與計(jì)算資源獨(dú)立開(kāi)來(lái),實(shí)現(xiàn)計(jì)算和數(shù)據(jù)各自獨(dú)立擴(kuò)展,彈性伸縮。

當(dāng)前,數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了較完美的實(shí)現(xiàn)和應(yīng)用,企業(yè)上云已經(jīng)成為一種發(fā)展趨勢(shì),將會(huì)有越來(lái)越多的企業(yè)通過(guò)上云服務(wù)來(lái)提升自己的競(jìng)爭(zhēng)力。

數(shù)鑰分析云(Saas版)即將上線,更好地為企業(yè)提供一站式大數(shù)據(jù)解決方案,敬請(qǐng)期待!

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2025-03-28 01:33:00

2025-03-24 12:18:25

數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)

2020-09-15 12:56:00

數(shù)據(jù)湖架構(gòu)

2023-12-21 11:44:11

數(shù)據(jù)湖數(shù)據(jù)管理數(shù)據(jù)存儲(chǔ)庫(kù)

2020-10-14 06:22:14

UWB技術(shù)感知

2010-11-01 01:25:36

Windows NT

2020-09-22 08:22:28

快充

2020-09-27 06:53:57

MavenCDNwrapper

2011-04-27 09:30:48

企業(yè)架構(gòu)

2017-04-06 13:58:42

數(shù)據(jù)湖大數(shù)據(jù)數(shù)據(jù)管理

2015-10-26 11:50:11

數(shù)據(jù)湖大數(shù)據(jù)

2021-01-21 21:24:34

DevOps開(kāi)發(fā)工具

2023-07-12 15:32:49

人工智能AI

2020-03-05 10:28:19

MySQLMRR磁盤(pán)讀

2021-07-07 05:07:15

JDKIterator迭代器

2021-09-01 23:29:37

Golang語(yǔ)言gRPC

2022-10-08 00:00:00

Spring數(shù)據(jù)庫(kù)項(xiàng)目

2021-02-05 10:03:31

區(qū)塊鏈技術(shù)智能

2024-02-04 00:01:00

云原生技術(shù)容器

2019-10-30 10:13:15

區(qū)塊鏈技術(shù)支付寶
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)