詳解Hadoop 2.0中的CDH4 MR配置
MR1
cdh不建議使用MRv2.0作為生產環(huán)境,故依舊提供了mr1的包
mr1-2.0.0-mr1-cdh4.1.2.tar.gz
解壓后copy至原h(huán)adoop路徑,有如下文件沖突:
- [root@h011171 ~]# cp -r hadoop-2.0.0-cdh4.1.2/* /usr/local/hadoop/
- cp: overwrite `/usr/local/hadoop/bin/rcc’? y
- cp: overwrite `/usr/local/hadoop/bin/hadoop’? y
- cp: overwrite `/usr/local/hadoop/cloudera/cdh_version.properties’? y
- cp: overwrite `/usr/local/hadoop/cloudera/apply-patches’? y
- cp: overwrite `/usr/local/hadoop/cloudera/build.properties’? y
- cp: overwrite `/usr/local/hadoop/cloudera/CHANGES.cloudera.txt’? y
均覆蓋即可
基本兼容cdh3 mr1的所有mapreduce配置,包括公平調度器/hadoop acl權限設置,
使用
- ./bin/start-mapred.sh
- ./bin/stop-mapred.sh
監(jiān)控調度界面同原CDH3
MR2(YARN)
MRv2最基本的設計思想是將JobTracker的兩個主要功能,即資源管理和作業(yè)調度/監(jiān)控分成兩個獨立的進程。在該解決方案中包含兩個組件:全局的ResourceManager(RM)和與每個應用相關的ApplicationMaster(AM)。這里的“應用”指一個單獨的MapReduce作業(yè)或者DAG作業(yè)。RM和與NodeManager(NM,每個節(jié)點一個)共同組成整個數據計算框架。RM是系統(tǒng)中將資源分配給各個應用的最終決策者。AM實際上是一個具體的框架庫,它的任務是【與RM協(xié)商獲取應用所需資源】和【與NM合作,以完成執(zhí)行和監(jiān)控task的任務】。
架構描述如下:
配置
mapred-site.xml配置
- <!– YARN –>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.address</name>
- <value>h011200.hebe.grid.sina.com.cn:10020</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.webapp.address</name>
- <value>h011200.hebe.grid.sina.com.cn:19888</value>
- </property>
yarn-site.xml配置
啟動
- <property>
- <name>yarn.resourcemanager.resource-tracker.address</name>
- <value>h011200.hebe.grid.sina.com.cn:8031</value>
- </property>
- <property>
- <name>yarn.resourcemanager.address</name> # RMtracker地址意同jobtrakcer
- <value>h011200.hebe.grid.sina.com.cn:8032</value>
- </property>
- <property>
- <name>yarn.resourcemanager.scheduler.address</name> # RMscheduler地址意同mv1的jobscheduler
- <value>h011200.hebe.grid.sina.com.cn:8030</value>
- </property>
- <property>
- <name>yarn.resourcemanager.admin.address</name>
- <value>h011200.hebe.grid.sina.com.cn:8033</value>
- </property>
- <property>
- <name>yarn.resourcemanager.webapp.address</name> #RM Web地址同mr1 默認的50030
- <value>h011200.hebe.grid.sina.com.cn:8088</value>
- </property>
- <property>
- <description>Classpath for typical applications.</description>
- <name>yarn.application.classpath</name>
- <value>
- $HADOOP_CONF_DIR,
- $HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,
- $HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,
- $HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,
- $YARN_HOME/*,$YARN_HOME/lib/*
- </value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce.shuffle</value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
- <value>org.apache.hadoop.mapred.ShuffleHandler</value>
- </property>
- <property>
- <name>yarn.nodemanager.local-dirs</name>
- <value>/data1/hadoop/data/yarn/local</value>
- </property>
- <property>
- <name>yarn.nodemanager.log-dirs</name>
- <value>/data1/hadoop/data/yarn/log</value>
- </property>
- <property>
- <description>Where to aggregate logs</description>
- <name>yarn.nodemanager.remote-app-log-dir</name>
- <value>/var/log/hadoop-yarn/apps</value>
- </property>
- <property>
- <name>yarn.app.mapreduce.am.staging-dir</name>
- <value>/user</value>
- </property>
./sbin/start-yarn.sh
會啟動本地RM及遠程NM
./sbin/mr-jobhistory-daemon.sh start historyserver
啟動本地historyserver
RM界面
Job history界面
原文鏈接:http://minidb.sinaapp.com/?p=138
【編輯推薦】