自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)湖:大數(shù)據(jù)游泳的安全方式?

大數(shù)據(jù) 數(shù)據(jù)湖
在這篇文章中,專(zhuān)家想澄清數(shù)據(jù)池是什么,組織是否會(huì)考慮使用數(shù)據(jù)湖,以及他們使用數(shù)據(jù)湖所面臨的挑戰(zhàn),并概述了一些支持?jǐn)?shù)據(jù)湖軟件工具的發(fā)展。

自從Pentaho公司***技術(shù)官詹姆斯•狄克遜創(chuàng)造了“數(shù)據(jù)湖”這個(gè)詞,至今已有五年多的時(shí)間。他當(dāng)時(shí)提出這個(gè)建議,“如果你認(rèn)為數(shù)據(jù)集市是一個(gè)經(jīng)過(guò)清洗,方便消費(fèi)的瓶裝水商店的‘數(shù)據(jù)湖’,那么數(shù)據(jù)湖則是一個(gè)更自然狀態(tài)的水體。”這個(gè)比喻很簡(jiǎn)單。但根據(jù)專(zhuān)家的經(jīng)驗(yàn),許多最終用戶(hù)對(duì)這個(gè)的概念還有很多困惑。在這篇文章中,專(zhuān)家想澄清數(shù)據(jù)池是什么,組織是否會(huì)考慮使用數(shù)據(jù)湖,以及他們使用數(shù)據(jù)湖所面臨的挑戰(zhàn),并概述了一些支持?jǐn)?shù)據(jù)湖軟件工具的發(fā)展。

數(shù)據(jù)湖提供了一個(gè)處理大數(shù)據(jù)的方法。數(shù)據(jù)湖結(jié)合任何格式和任何類(lèi)型的數(shù)據(jù)的海量存儲(chǔ)能力,以及改造和分析數(shù)據(jù)處理能力。通常,數(shù)據(jù)湖使用Hadoop技術(shù)實(shí)現(xiàn)。來(lái)自不同來(lái)源的詳細(xì)原始的數(shù)據(jù)被加載到一個(gè)單一的綜合信息庫(kù),可以看到提供給用戶(hù)分析的任何數(shù)據(jù)。要理解為什么數(shù)據(jù)湖已成為流行的這種方法與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的對(duì)比是很有幫助的(EDW)。在某些方面,一個(gè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)就類(lèi)似于一個(gè)數(shù)據(jù)湖,可以作為整個(gè)組織的信息的集中存儲(chǔ)庫(kù)。然而,數(shù)據(jù)加載到一個(gè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)一般概括為結(jié)構(gòu)化數(shù)據(jù)。工程數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是典型的基于關(guān)系數(shù)據(jù)庫(kù)的技術(shù),其目的是為了處理結(jié)構(gòu)化信息。雖然已經(jīng)在關(guān)系數(shù)據(jù)庫(kù)的可擴(kuò)展性有了一些進(jìn)步,他們一般沒(méi)有Hadoop那樣的可擴(kuò)展性。由于這些技術(shù)是不可擴(kuò)展的,存儲(chǔ)到組織中的所有原始數(shù)據(jù),采用它是不實(shí)際的。因此,有必要總結(jié)。與之形成對(duì)比的是,一個(gè)數(shù)據(jù)湖包含了組織中產(chǎn)生的最詳盡的數(shù)據(jù)。所述的數(shù)據(jù)可能是結(jié)構(gòu)化的信息,如銷(xiāo)售交易數(shù)據(jù),或非結(jié)構(gòu)化信息,例如在客戶(hù)服務(wù)交互中交換的電子郵件。

Hadoop經(jīng)常使用數(shù)據(jù)湖

Hadoop可以存儲(chǔ)和管理大量后續(xù)分析處理的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。Hadoop的出現(xiàn)使其存儲(chǔ)大容量信息更加實(shí)惠和可行,并且組織開(kāi)始收集和存儲(chǔ)整個(gè)組織不同系統(tǒng)的原始細(xì)節(jié)。Hadoop也成為非結(jié)構(gòu)化信息的存儲(chǔ)庫(kù),如社交媒體和諸如日志文件的半結(jié)構(gòu)化數(shù)據(jù)。事實(shí)上,人們的基準(zhǔn)研究顯示,社會(huì)化媒體數(shù)據(jù)是第二個(gè)最重要的來(lái)源,也在大數(shù)據(jù)分析中使用的外部信息。

除了處理更大的卷和更多種類(lèi)的信息以外,數(shù)據(jù)湖能夠更快地獲得信息。由于數(shù)據(jù)是以原始形式聚集,不需要預(yù)處理。因此,一旦產(chǎn)生和收集,其信息可以被立即添加到數(shù)據(jù)湖。這種方法已經(jīng)引起了一些爭(zhēng)議,許多行業(yè)分析師甚至廠(chǎng)商都在擔(dān)心數(shù)據(jù)湖會(huì)變成數(shù)據(jù)沼澤。一般情況下,圍繞數(shù)據(jù)源缺乏治理的數(shù)據(jù)成為數(shù)據(jù)湖的焦點(diǎn),這是一個(gè)適當(dāng)?shù)脑?huà)題。這些數(shù)據(jù)集應(yīng)該像組織內(nèi)的任何其他信息資產(chǎn)一樣被管理。所面臨的挑戰(zhàn)是,大多數(shù)的治理的工具和技術(shù)已經(jīng)為關(guān)系數(shù)據(jù)庫(kù)和EDWs開(kāi)發(fā)。從本質(zhì)上說(shuō),數(shù)據(jù)湖泊所使用的大數(shù)據(jù)技術(shù)已經(jīng)超過(guò)了自己所需,而沒(méi)有提供為企業(yè)部署所需的所有功能。

另外,也許圍繞術(shù)語(yǔ)有一些輕微的爭(zhēng)議。專(zhuān)家提出這個(gè)問(wèn)題,這樣,無(wú)論供應(yīng)商選擇的術(shù)語(yǔ)如何,人們可以識(shí)別數(shù)據(jù)湖和意識(shí)到的挑戰(zhàn)。Cloudera的企業(yè)數(shù)據(jù)中心使用的術(shù)語(yǔ)來(lái)表示與數(shù)據(jù)湖本質(zhì)上相同的概念。Hortonworks也包含數(shù)據(jù)湖的術(shù)語(yǔ)。IBM公司承認(rèn)數(shù)據(jù)湖的價(jià)值以及其在這個(gè)崗位的挑戰(zhàn),但I(xiàn)BM公司的大數(shù)據(jù)傳播者吉姆•庫(kù)比拉斯說(shuō),質(zhì)疑最近在LinkedIn所提到的職位的術(shù)語(yǔ),“數(shù)據(jù)湖”術(shù)語(yǔ)并不是IBM網(wǎng)站上的突出特色。

盡管面臨著爭(zhēng)議和挑戰(zhàn),數(shù)據(jù)湖繼續(xù)增長(zhǎng)受到廣泛歡迎。它們提供了數(shù)據(jù)科學(xué)的重要功能。首先,它們包含進(jìn)行預(yù)測(cè)分析的必要的詳細(xì)數(shù)據(jù)。其次,他們?cè)试S非結(jié)構(gòu)化數(shù)據(jù)的有效訪(fǎng)問(wèn),如社交媒體或客戶(hù)交互等文字。對(duì)企業(yè)來(lái)說(shuō),該信息可建立客戶(hù)和他們行為的一個(gè)更完整的輪廓。數(shù)據(jù)湖也比傳統(tǒng)的EDW可用架構(gòu)提供更快的數(shù)據(jù)。而通過(guò)云計(jì)算的基準(zhǔn)研究數(shù)據(jù)和分析顯示,五分之一(21%)的組織實(shí)時(shí)了他們的數(shù)據(jù)。該研究還表明,這些組織通常對(duì)整合他們的數(shù)據(jù)都比較滿(mǎn)意,并在他們的結(jié)果方面更加自信。誠(chéng)然,數(shù)據(jù)湖包含原始信息,它可能需要更多的分析和操作,因?yàn)閿?shù)據(jù)還沒(méi)有清洗掉,但時(shí)間就是金錢(qián),速度更快的訪(fǎng)問(wèn)往往會(huì)導(dǎo)致新的收入機(jī)會(huì)。在參與基準(zhǔn)研究預(yù)測(cè)分析的一半?yún)⑴c者表示,他們的分析已經(jīng)創(chuàng)造了新的收入機(jī)會(huì)。

由于認(rèn)識(shí)到缺乏治理和管理工具,一些機(jī)構(gòu)毫不猶豫地采用數(shù)據(jù)湖,而其他公司也在采用。在這個(gè)領(lǐng)域的供應(yīng)商在此期間已經(jīng)顯現(xiàn)出他們的能力。有些公司,例如Informatica公司為了數(shù)據(jù)湖泊獲得世界EDW數(shù)據(jù)治理能力。專(zhuān)家***發(fā)布了一篇關(guān)于Informatica的大數(shù)據(jù)功能,稱(chēng)之為智能數(shù)據(jù)湖。其他廠(chǎng)商正在提高自己的EDW能力。InformationBuilders公司和Teradata公司在今年春天都公布了數(shù)據(jù)湖。此外,新興的供應(yīng)商特別專(zhuān)注于數(shù)據(jù)湖泊。PodiumData表示,其提供了一個(gè)“企業(yè)數(shù)據(jù)湖管理平臺(tái)。”

那么采用數(shù)據(jù)湖安全嗎?好了,就像你不知道如何游泳就不應(yīng)該跳進(jìn)湖中一樣,如果你沒(méi)有管理其信息的計(jì)劃就不應(yīng)該采用數(shù)據(jù)湖。數(shù)據(jù)湖可以充分利用大數(shù)據(jù),并創(chuàng)建新的收入機(jī)會(huì)。而組織采用合適的工具和培訓(xùn)之后,那么數(shù)據(jù)湖可能值得一試。

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)房360
相關(guān)推薦

2022-03-08 13:14:32

數(shù)據(jù)湖大數(shù)據(jù)

2023-02-13 14:01:32

2016-03-28 10:24:49

數(shù)據(jù)湖大數(shù)據(jù)技術(shù)開(kāi)源

2023-11-09 15:56:26

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2022-10-24 00:26:51

大數(shù)據(jù)Hadoop存儲(chǔ)層

2024-01-22 16:31:02

2020-06-28 11:00:18

大數(shù)據(jù)數(shù)據(jù)湖安全

2012-12-05 18:38:59

2013-07-30 09:14:25

2013-07-31 09:12:52

大數(shù)據(jù)安全

2020-12-16 09:27:05

數(shù)據(jù)湖大數(shù)據(jù)數(shù)據(jù)

2020-02-24 15:06:13

亞馬遜數(shù)據(jù)湖AWS

2012-11-08 09:32:24

2020-12-02 17:20:58

數(shù)據(jù)倉(cāng)庫(kù)阿里云數(shù)據(jù)湖

2019-07-24 06:05:32

2022-03-03 15:15:27

大數(shù)據(jù)數(shù)據(jù)湖技術(shù)

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2018-01-04 08:27:57

大數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)湖

2017-03-08 10:56:03

大數(shù)據(jù)架構(gòu)數(shù)據(jù)湖

2020-08-04 14:20:20

數(shù)據(jù)湖Hadoop數(shù)據(jù)倉(cāng)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)