自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

零基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識

大數(shù)據(jù) Hadoop
Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop,還要學(xué)習(xí)Linux,網(wǎng)絡(luò)知識,Java、還有數(shù)據(jù)結(jié)構(gòu)和算法等等,所以萬里長征才開始第一步,希望Hadoop學(xué)習(xí)不是從了解到放棄。

[[190392]]

在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級來增加的,特別是像BAT光每天的日志文件一個盤都不夠,更何況是還要基于這些數(shù)據(jù)進行分析挖掘,更甚者還要實時進行數(shù)據(jù)分析,學(xué)習(xí),如雙十一淘寶的交易量的實時展示。

大數(shù)據(jù)什么叫大?4個特征:

體量化 Volume,就是量大。

多樣化 Variety,可能是結(jié)構(gòu)型的數(shù)據(jù),也可能是非結(jié)構(gòu)行的文本,圖片,視頻,語音,日志,郵件等

快速化 Velocity,產(chǎn)生快,處理也需要快。

價值密度低 Value,數(shù)據(jù)量大,但單個數(shù)據(jù)沒什么意義,需要宏觀的統(tǒng)計體現(xiàn)其隱藏的價值。

可以看出想只要一臺強大的服務(wù)器來實時處理這種體量的數(shù)據(jù)那是不可能的,而且成本昂貴,代價相當(dāng)大,普通的關(guān)系型數(shù)據(jù)庫也隨著數(shù)據(jù)量的增大其處理時間也隨之增加,那客戶是不可能忍受的,所以我們需要Hadoop來解決此問題。

優(yōu)點:

Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:

高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。

高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。

高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁?/p>

高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。

低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。

Hadoop在各應(yīng)用中是最底層,最基礎(chǔ)的組件,所以其重要性不言而喻。

框架結(jié)構(gòu)

Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計算框架)組成。

Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲 Hadoop 集群中所有存儲節(jié)點上的文件。HDFS(對于本文)的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心。

HDFS

對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件,等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的,這是由它自身的特點決定的。這些節(jié)點包括 NameNode(僅一個),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為 HDFS 提供存儲塊。由于僅存在一個 NameNode,因此這是 HDFS 的一個缺點(單點失敗)。

存儲在 HDFS 中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大小(通常為 64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的 TCP/IP 協(xié)議。

單節(jié)點物理結(jié)構(gòu)

主從結(jié)構(gòu)

主節(jié)點,只有一個: namenode

從節(jié)點,有很多個: datanodes

namenode負責(zé):接收用戶操作請求 、維護文件系統(tǒng)的目錄結(jié)構(gòu)、管理文件與block之間關(guān)系,block與datanode之間關(guān)系

NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。

datanode負責(zé):存儲文件文件被分成block存儲在磁盤上、為保證數(shù)據(jù)安全,文件會有多個副本

MapReduce

MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型。編程模型是一種處理并結(jié)構(gòu)化特定問題的方式。例如,在一個關(guān)系數(shù)據(jù)庫中,使用一種集合語言執(zhí)行查詢,如SQL。告訴語言想要的結(jié)果,并將它提交給系統(tǒng)來計算出如何產(chǎn)生計算。還可以用更傳統(tǒng)的語言(C++,Java),一步步地來解決問題。這是兩種不同的編程模型,MapReduce就是另外一種。

MapReduce和Hadoop是相互獨立的,實際上又能相互配合工作得很好。

主從結(jié)構(gòu)

主節(jié)點,只有一個: JobTracker

從節(jié)點,有很多個: TaskTrackers

JobTracker負責(zé):接收客戶提交的計算任務(wù)、把計算任務(wù)分給TaskTrackers執(zhí)行、監(jiān)控TaskTracker的執(zhí)行情況

TaskTrackers負責(zé):執(zhí)行JobTracker分配的計算任務(wù)

Hadoop能做什么?

  • 大數(shù)據(jù)量存儲:分布式存儲
  • 日志處理: Hadoop擅長這個
  • 海量計算: 并行計算
  • ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫
  • 使用HBase做數(shù)據(jù)分析: 用擴展性應(yīng)對大量的寫操作—Facebook構(gòu)建了基于HBase的實時數(shù)據(jù)分析系統(tǒng)
  • 機器學(xué)習(xí): 比如Apache Mahout項目
  • 搜索引擎:hadoop + lucene實現(xiàn)
  • 數(shù)據(jù)挖掘:目前比較流行的廣告推薦
  • 大量地從文件中順序讀。HDFS對順序讀進行了優(yōu)化,代價是對于隨機的訪問負載較高。
  • 數(shù)據(jù)支持一次寫入,多次讀取。對于已經(jīng)形成的數(shù)據(jù)的更新不支持。
  • 數(shù)據(jù)不進行本地緩存(文件很大,且順序讀沒有局部性)
  • 任何一臺服務(wù)器都有可能失效,需要通過大量的數(shù)據(jù)復(fù)制使得性能不會受到大的影響。
  • 用戶細分特征建模
  • 個性化廣告推薦
  • 智能儀器推薦

擴展

實際應(yīng)用:

Hadoop+HBase建立NoSQL分布式數(shù)據(jù)庫應(yīng)用

Flume+Hadoop+Hive建立離線日志分析系統(tǒng)

Flume+Logstash+Kafka+Spark Streaming進行實時日志處理分析

酷狗音樂的大數(shù)據(jù)平臺

京東的智能供應(yīng)鏈預(yù)測系統(tǒng)

Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop,還要學(xué)習(xí)Linux,網(wǎng)絡(luò)知識,Java、還有數(shù)據(jù)結(jié)構(gòu)和算法等等,所以萬里長征才開始第一步,希望Hadoop學(xué)習(xí)不是從了解到放棄。

責(zé)任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-05-11 11:00:11

大數(shù)據(jù)Hadoop數(shù)據(jù)處理

2017-05-11 17:36:50

2011-09-01 15:12:43

SQL ServerHadoop

2015-05-05 11:18:18

大數(shù)據(jù)Hadoop技術(shù)處理

2018-01-22 08:33:28

SparkHadoop計算

2015-03-30 10:48:17

大數(shù)據(jù)大數(shù)據(jù)處理Hadoop

2011-12-08 09:56:14

Hadoop

2012-05-31 14:37:10

Hadoop大數(shù)據(jù)

2013-12-30 10:40:12

大數(shù)據(jù)處理大數(shù)據(jù)Hadoop

2013-12-27 16:15:11

Hadoop大數(shù)據(jù)處理

2021-03-15 22:56:55

大數(shù)據(jù)技術(shù)高薪

2017-01-23 13:40:43

2018-12-07 14:50:35

大數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)庫

2020-11-02 15:56:04

大數(shù)據(jù)數(shù)據(jù)庫技術(shù)

2016-11-25 13:05:18

2021-07-20 15:37:37

數(shù)據(jù)開發(fā)大數(shù)據(jù)Spark

2017-07-21 14:22:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)處理

2018-09-13 12:21:54

數(shù)據(jù)挖掘數(shù)據(jù)庫算法

2019-11-11 14:09:17

Swift數(shù)據(jù)科學(xué)語言

2020-07-22 08:13:22

大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號