自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Linux和ApacheHadoop實(shí)現(xiàn)云計(jì)算,有關(guān)Hadoop集群概念介紹

開發(fā) 架構(gòu) Hadoop
現(xiàn)在云計(jì)算是一個(gè)熱點(diǎn)話題,IBM?、Google、VMWare和Amazon等公司已經(jīng)開始提供云計(jì)算產(chǎn)品和戰(zhàn)略,本文向大家介紹一下使用Linux和ApacheHadoop進(jìn)行云計(jì)算的相關(guān)知識(shí)。

本節(jié)和大家一起學(xué)習(xí)一下有關(guān)使用Linux和ApacheHadoop進(jìn)行云計(jì)算的相關(guān)內(nèi)容,主要包括Hadoop集群的概念視圖和MapReduce的流程,歡迎大家一起來學(xué)習(xí)有關(guān)云計(jì)算方面的知識(shí)。

Hadoop集群的概念視圖和MapReduce的流程

設(shè)置ApacheHadoop

現(xiàn)在在LinuxVM上設(shè)置Hadoop集群,然后就可以在Hadoop集群上運(yùn)行MapReduce應(yīng)用程序。

ApacheHadoop支持三種部署模式:

單獨(dú)模式:在默認(rèn)情況下,Hadoop以非分布的單獨(dú)模式運(yùn)行。這個(gè)模式適合應(yīng)用程序調(diào)試。
偽分布模式:Hadoop還可以以單節(jié)點(diǎn)的偽分布模式運(yùn)行。在這種情況下,每個(gè)Hadoop守護(hù)進(jìn)程作為單獨(dú)的Java?進(jìn)程運(yùn)行。
全分布模式:Hadoop配置在不同的主機(jī)上,作為集群運(yùn)行。
要想以單獨(dú)或偽分布模式設(shè)置Hadoop,請(qǐng)參考Hadoop的網(wǎng)站。在本文中,我們只討論以全分布模式設(shè)置Hadoop。

準(zhǔn)備環(huán)境

在本文中,我們需要三臺(tái)GNU/Linux服務(wù)器;一個(gè)作為主節(jié)點(diǎn),另外兩個(gè)作為從節(jié)點(diǎn)。

表1.服務(wù)器信息
服務(wù)器IP服務(wù)器主機(jī)名角色
9.30.210.159Vm-9-30-210-159主節(jié)點(diǎn)(NameNode和JobTracker)
9.30.210.160Vm-9-30-210-160從節(jié)點(diǎn)1(DataNode和TaskTracker)
9.30.210.161Vm-9-30-210-161從節(jié)點(diǎn)2(DataNode和TaskTracker)
每臺(tái)機(jī)器都需要安裝JavaSE6和Hadoop二進(jìn)制代碼。更多信息見參考資料。本文使用Hadoopversion0.19.1。
還需要在每臺(tái)機(jī)器上安裝SSH并運(yùn)行sshd。SUSE和RedHat等流行的Linux發(fā)行版在默認(rèn)情況下已經(jīng)安裝了它們。

設(shè)置通信

更新/etc/hosts文件,確保這三臺(tái)機(jī)器可以使用IP和主機(jī)名相互通信。
因?yàn)镠adoop主節(jié)點(diǎn)使用SSH與從節(jié)點(diǎn)通信,所以應(yīng)該在主節(jié)點(diǎn)和從節(jié)點(diǎn)之間建立經(jīng)過身份驗(yàn)證的無密碼的SSH連接。在每臺(tái)機(jī)器上執(zhí)行以下命令,從而生成RSA公共和私有密鑰。
ssh-keygen–trsa
這會(huì)在/root/.ssh目錄中生成id_rsa.pub。重命名主節(jié)點(diǎn)的id_rsa.pub(這里改名為59_rsa.pub)并把它復(fù)制到從節(jié)點(diǎn)。然后執(zhí)行以下命令,把主節(jié)點(diǎn)的公共密鑰添加到從節(jié)點(diǎn)的已授權(quán)密鑰中。
cat/root/.ssh/59_rsa.pub>>/root/.ssh/authorized_keys
現(xiàn)在嘗試使用SSH連接從節(jié)點(diǎn)。應(yīng)該可以成功連接,不需要提供密碼。

設(shè)置主節(jié)點(diǎn)

把Hadoop設(shè)置為全分布模式需要配置<Hadoop_home>/conf/目錄中的配置文件。
在hadoop-site.xml中配置Hadoop部署。這里的配置覆蓋hadoop-default.xml中的配置。

表2.配置屬性
屬性解釋
fs.default.nameNameNodeURI
mapred.job.trackerJobTrackerURI
dfs.replication復(fù)制的數(shù)量
hadoop.tmp.dir臨時(shí)目錄

通過配置hadoop-env.sh文件指定JAVA_HOME。注釋掉這一行并指定自己的JAVA_HOME目錄。
exportJAVA_HOME=<JAVA_HOME_DIR>
在master文件中添加主節(jié)點(diǎn)的IP地址。
9.30.210.159
在slave文件中添加從節(jié)點(diǎn)的IP地址。
9.30.210.160
9.30.210.161

設(shè)置從節(jié)點(diǎn)

把hadoop-site.xml、hadoop-env.sh、masters和slaves復(fù)制到每個(gè)從節(jié)點(diǎn);可以使用SCP或其他復(fù)制工具。

對(duì)HDFS進(jìn)行格式化

運(yùn)行以下命令對(duì)HDFS分布式文件系統(tǒng)進(jìn)行格式化。
<Hadoop_home>/bin/hadoopnamenode-format

 檢查Hadoop集群

現(xiàn)在,可以使用bin/start-all.sh啟動(dòng)Hadoop集群。命令輸出指出主節(jié)點(diǎn)和從節(jié)點(diǎn)上的一些日志。檢查這些日志,確認(rèn)一切正常。如果弄亂了什么東西,可以格式化HDFS并清空hadoop-site.xml中指定的臨時(shí)目錄,然后重新啟動(dòng)。
訪問以下URL,確認(rèn)主節(jié)點(diǎn)和從節(jié)點(diǎn)是正常的。
NameNode:http://9.30.210.159:50070
JobTracker:http://9.30.210.159:50030
現(xiàn)在,已經(jīng)在云中設(shè)置了Hadoop集群,該運(yùn)行MapReduce應(yīng)用程序了。

建MapReduce應(yīng)用程序

MapReduce應(yīng)用程序必須具備“映射”和“縮減”的性質(zhì),也就是說任務(wù)或作業(yè)可以分割為小片段以進(jìn)行并行處理。然后,可以縮減每個(gè)子任務(wù)的結(jié)果,得到原任務(wù)的結(jié)果。這種任務(wù)之一是網(wǎng)站關(guān)鍵字搜索。搜索和抓取任務(wù)可以分割為子任務(wù)并分配給從節(jié)點(diǎn),然后在主節(jié)點(diǎn)上聚合所有結(jié)果并得到最終結(jié)果。

試用示例應(yīng)用程序

Hadoop附帶一些用于測試的示例應(yīng)用程序。其中之一是單詞計(jì)數(shù)器,它統(tǒng)計(jì)某一單詞在幾個(gè)文件中出現(xiàn)的次數(shù)。通過運(yùn)行這個(gè)應(yīng)用程序檢查Hadoop集群。
首先,把輸入文件放在分布式文件系統(tǒng)中(conf/目錄下面)。我們將統(tǒng)計(jì)單詞在這些文件中出現(xiàn)的次數(shù)。
$bin/hadoopfs–putconfinput
然后,運(yùn)行這個(gè)示例應(yīng)用程序,以下命令統(tǒng)計(jì)以“dfs”開頭的單詞出現(xiàn)的次數(shù)。
$bin/hadoopjarhadoop-*-examples.jargrepinputoutput'dfs[a-z.]+'

 命令的輸出說明映射和縮減過程:

前兩個(gè)命令會(huì)在HDFS中生成兩個(gè)目錄,“input”和“output”。可以使用以下命令列出它們。
$bin/hadoopfs–ls
查看分布式文件系統(tǒng)中已經(jīng)輸出的文件。它以鍵-值對(duì)的形式列出以“dfs*”開頭的單詞出現(xiàn)的次數(shù)。
$bin/hadoopfs-catouput/*
現(xiàn)在,訪問JobTracker站點(diǎn)查看完成的作業(yè)日志。

創(chuàng)建LogAnalyzerMapReduce應(yīng)用程序:

現(xiàn)在創(chuàng)建一個(gè)Portal(IBMWebSphere?Portalv6.0)LogAnalyzer應(yīng)用程序,它與Hadoop中的WordCount應(yīng)用程序有許多共同點(diǎn)。這個(gè)分析程序搜索所有Portal的SystemOut*.log文件,顯示在特定的時(shí)間段內(nèi)應(yīng)用程序在Portal上啟動(dòng)了多少次。在Portal環(huán)境中,所有日志分割為5MB的片段,很適合由幾個(gè)節(jié)點(diǎn)并行地分析。本節(jié)關(guān)于使用Linux和ApacheHadoop進(jìn)行云計(jì)算中Hadoop集群方面的內(nèi)容介紹完畢。

【編輯推薦】

  1. Hadoop集群配置中如何寫入和讀取數(shù)據(jù)?
  2. 學(xué)習(xí)筆記 Hadoop集群如何搭建
  3. Hadoop文件系統(tǒng)如何快速安裝?
  4. Hadoop集群搭建過程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

 

責(zé)任編輯:佚名 來源: Linux110.com
相關(guān)推薦

2010-06-07 09:53:36

ApacheHadoo

2010-06-07 10:16:56

Hadoop

2009-08-19 15:50:52

松散耦合

2010-04-02 10:43:02

云計(jì)算

2012-06-18 16:50:34

云計(jì)算服務(wù)

2018-06-13 22:50:07

云計(jì)算容器云容器

2010-06-07 08:55:50

Hadoop云計(jì)算

2010-04-19 10:08:46

Oracle視圖

2011-08-25 09:11:13

2010-03-19 13:53:36

云計(jì)算

2010-03-29 16:48:24

2012-09-12 17:04:53

OpenStack云計(jì)算存儲(chǔ)

2012-09-13 11:06:03

IBMdW

2012-09-11 17:10:40

OpenStack

2015-04-16 14:24:56

Hadoop云計(jì)算HDFS

2020-07-16 20:55:19

ElasticSear集群分布式

2010-11-01 12:56:02

云計(jì)算高性能計(jì)算

2010-06-04 18:06:22

Hadoop集群搭建

2015-08-25 09:35:17

LinuxRAID

2010-03-11 16:13:42

云計(jì)算平臺(tái)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)