自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你不知道的!Hadoop 十大事實(shí)揭秘

大數(shù)據(jù) Hadoop
HDFS 不僅可以處理非常大的分布式文件,而且還可以處理不同類型的文件。這個(gè)過(guò)程相當(dāng)簡(jiǎn)單,任何類型和大小的數(shù)據(jù)都可以使用在 HDFS 中構(gòu)建的非常簡(jiǎn)單和直接的過(guò)程進(jìn)行存儲(chǔ)(集中或分布式)和管理。

事實(shí)1:Hadoop 不單單是一個(gè)產(chǎn)品。剛接觸大數(shù)據(jù)的人通常認(rèn)為 Hadoop 是數(shù)據(jù)科學(xué)新時(shí)代的關(guān)鍵產(chǎn)品。實(shí)際上,Hadoop 不單單是一個(gè)產(chǎn)品,還是一個(gè)生態(tài)系統(tǒng)。它由多個(gè)開源產(chǎn)品(在 Apache Hadoop 基金會(huì)的支特下開發(fā))組成。它們就像幕后引擎一樣將大數(shù)據(jù)轉(zhuǎn)換為做出更明智、更快決策所需的寶貴知識(shí)。Apache Hadoop基金會(huì)的產(chǎn)品包括 MapReduce、HDFS、Hive、HBase、Pig、Sqoop、 Oozie、Hue、Zookeeper 和 Flume 等。這些產(chǎn)品能夠以特定方式組合用于特定的業(yè)務(wù)分析以及相關(guān)的數(shù)據(jù)源。

圖片

事實(shí)2:Hadoop 不僅來(lái)自 Apache,還是一個(gè)基于社區(qū)的生態(tài)系統(tǒng)。Hadoop解快方案庫(kù)包含來(lái)自 Apache 基金會(huì)的多個(gè)產(chǎn)品,同時(shí)也包含來(lái)自大數(shù)據(jù)領(lǐng)城眾多供應(yīng)商的很多產(chǎn)品。隨著 Hadoop 的發(fā)展,越來(lái)越多社區(qū)和供應(yīng)商加人其中,以使其盡可能全面和通用。

事實(shí)3:Hadoop 是一個(gè)開源社區(qū)項(xiàng)目。任何人都可以免費(fèi)使用Hadoop 作為開源軟件庫(kù)。Hadoop可以從Apache 網(wǎng)站 www.apache.org獲取。一些初創(chuàng)公司為其他公司提供基于Hadoop庫(kù)及其擴(kuò)展特性的打包解改方案,其中擴(kuò)展特性是根據(jù)各戶的特定需要和需求定制的。

事實(shí)4:Hadoop 和MapReduce 是兩個(gè)互補(bǔ)的產(chǎn)品。谷歌在發(fā)明 HDFS之前就開發(fā)了 MapReduce。因此,MapReduce不依賴 HDFS, 而是與其他非HDFS的數(shù)據(jù)存儲(chǔ)技術(shù)(包括一些最常見的數(shù)據(jù)庫(kù)管理系統(tǒng))一起工作 (現(xiàn)在仍然可以一起工作)。

事實(shí)5:HDFS 是一個(gè)文件系統(tǒng),而不是一個(gè)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)。Hadoop 主要處理分布式環(huán)境中的文件(而不是表和記錄)。因此,其數(shù)據(jù)粒度是文件級(jí)的,且沒(méi)有SQL 查詢、關(guān)系型數(shù)據(jù)庫(kù)、用于快速檢索的有意索引以及對(duì)索引數(shù)據(jù)的快速訪問(wèn)等與關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)相關(guān)的常見功能。但是,作為回報(bào),HDFS 能夠在文件級(jí)別執(zhí)行關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)無(wú)法執(zhí)行的操作。

事實(shí)6:Hive 看起來(lái)像 SQL,但不是標(biāo)準(zhǔn) SQL。Hive 是用于操作關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)中數(shù)據(jù)的標(biāo)準(zhǔn) SQL 的變體。對(duì)于熱悉 SQL 的數(shù)據(jù)分析師來(lái)說(shuō),學(xué)習(xí)使用Hive 編寫代碼是一個(gè)相對(duì)快速和簡(jiǎn)單的過(guò)程。大數(shù)據(jù)領(lǐng)域的很多人相信并希望,隨著每次迭代,Hive 將更接近于SQL 的語(yǔ)法,而且,在不久的某個(gè)時(shí)候,標(biāo)準(zhǔn)SQL將很容易被用于處理 Hadoop 系列產(chǎn)品中的數(shù)據(jù)。

事實(shí)7:Hadoop 不能替代數(shù)據(jù)倉(cāng)庫(kù)。從歷史上看,數(shù)據(jù)倉(cāng)庫(kù)旨在處理企業(yè)的結(jié)構(gòu)化數(shù)據(jù),通常是關(guān)系型數(shù)據(jù)。隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)因?yàn)闊o(wú)法處理非結(jié)構(gòu)化數(shù)據(jù)而受到批評(píng)。Hadoop 系列產(chǎn)品的目標(biāo)是通過(guò)處理數(shù)據(jù)倉(cāng)庫(kù)無(wú)法處理的非結(jié)構(gòu)化數(shù)據(jù)類型來(lái)補(bǔ)充(不是取代,至少目前還不是)數(shù)據(jù)倉(cāng)庫(kù)。

事實(shí)8:Hadoop 支持分析。雖然Hadoop 已被互聯(lián)網(wǎng)公司廣泛使用并被兩極分化,但是它可以支持任何類型的分析,而不僅僅是網(wǎng)絡(luò)分析(如分析網(wǎng)絡(luò)日志和其他基于互聯(lián)網(wǎng)的數(shù)據(jù))。例如,Hadoop 在分析物聯(lián)網(wǎng)數(shù)據(jù)方面發(fā)揮了重要作用,物聯(lián)網(wǎng)數(shù)據(jù)主要是由運(yùn)輸、能源、零售、制造(如預(yù)測(cè)性維護(hù))、電信和網(wǎng)絡(luò)安全等行業(yè)的機(jī)器和傳感器生成的。

事實(shí)9:MapReduce 不僅僅是分析。雖然 MapReduce 和分析之間存在著密切關(guān)系,但是這種關(guān)系并不是排他性的。雖然 MapReduce 是一個(gè)通用的執(zhí)行引擎(它能夠處理沙及并行編程、網(wǎng)絡(luò)通信和容錯(cuò)的各和復(fù)雜任務(wù)),但是它不僅限于分析應(yīng)用。相反,它可以用來(lái)執(zhí)行任何類型的計(jì)算任務(wù)。

事實(shí)10:Hadoop 不僅與數(shù)據(jù)量相關(guān),而且還與數(shù)據(jù)的多樣性相關(guān)。HDFS 不僅可以處理非常大的分布式文件,而且還可以處理不同類型的文件。這個(gè)過(guò)程相當(dāng)簡(jiǎn)單,任何類型和大小的數(shù)據(jù)都可以使用在 HDFS 中構(gòu)建的非常簡(jiǎn)單和直接的過(guò)程進(jìn)行存儲(chǔ)(集中或分布式)和管理。

作者簡(jiǎn)介:杜爾森·德倫(Dursun Delen),俄克拉荷馬州立大學(xué)博士。Business Analytics的Spears和Patterson主席、衛(wèi)生系統(tǒng)創(chuàng)新中心研究主任,以及俄克拉荷馬州立大學(xué)斯皮爾斯商學(xué)院管理科學(xué)和信息系統(tǒng)的杰出貢獻(xiàn)教授?!额A(yù)測(cè)性分析:基于數(shù)據(jù)科學(xué)的方法(原書第2版)》《商業(yè)分析:基于數(shù)據(jù)科學(xué)及人工智能技術(shù)的決策支持系統(tǒng)(原書第11版)》《規(guī)范性分析:循證管理與最優(yōu)決策》作者。

本文摘編于《預(yù)測(cè)性分析:基于數(shù)據(jù)科學(xué)的方法(原書第2版)》,經(jīng)出版方授權(quán)發(fā)布。(書號(hào):9787111718345)轉(zhuǎn)載請(qǐng)保留文章出處。

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)倉(cāng)寶貝庫(kù)
相關(guān)推薦

2011-08-11 14:13:02

Windows8

2013-05-23 11:57:42

以太網(wǎng)千兆網(wǎng)絡(luò)以太網(wǎng)發(fā)展

2017-11-02 06:51:38

5G移動(dòng)網(wǎng)絡(luò)技術(shù)

2020-07-02 15:43:26

Kubernetes容器工作負(fù)載

2024-04-19 16:58:17

人工智能AI機(jī)器人

2023-07-21 17:16:41

2013-09-10 11:21:25

移動(dòng)互聯(lián)網(wǎng)移動(dòng)開發(fā)移動(dòng)市場(chǎng)

2023-07-12 10:56:46

2020-06-12 09:20:33

前端Blob字符串

2020-07-28 08:26:34

WebSocket瀏覽器

2012-10-29 13:47:47

Surface RT

2018-02-07 08:21:42

2011-09-15 17:10:41

2022-10-13 11:48:37

Web共享機(jī)制操作系統(tǒng)

2009-12-10 09:37:43

2021-02-01 23:23:39

FiddlerCharlesWeb

2010-08-23 09:56:09

Java性能監(jiān)控

2018-10-09 10:00:31

區(qū)塊鏈信息技術(shù)加密貨幣

2018-06-06 00:06:48

開源存儲(chǔ)存儲(chǔ)軟件存儲(chǔ)

2014-01-22 16:19:06

游戲圈游戲創(chuàng)業(yè)移動(dòng)游戲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)