HadoopStudio中實現(xiàn)MapReduce應(yīng)用
在學(xué)習(xí)Hadoop的過程中,你可能會遇到HadoopStudio中開發(fā)部署MapReduce應(yīng)用問題,這里向大家介紹一下,希望通過本節(jié)的介紹,大家能夠掌握HadoopStudio下開發(fā)部署MapReduce應(yīng)用的方法。
HadoopStudio開發(fā)部署MapReduce應(yīng)用
HadoopStudio是基于Hadoop框架的MapReduce應(yīng)用集成開發(fā)和部署環(huán)境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發(fā)者可以通過HadoopStudio的可視化界面,部署分布在不同節(jié)點的計算任務(wù),并監(jiān)控MapReduce處理過程中各階段的輸入、輸出以及交互過程。
針對MapReduce任務(wù)執(zhí)行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節(jié)點的配置工具。使用HadoopStudio配置之前,需要預(yù)先在目標(biāo)機器上部署Hadoop作業(yè)執(zhí)行環(huán)境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節(jié)點,多節(jié)點)可供參考。
在HadoopStudio中對作業(yè)節(jié)點配置,首先需要定義負(fù)責(zé)數(shù)據(jù)存儲的Filesystems節(jié)點,可選節(jié)點包含本地磁盤訪問、HDFS文件系統(tǒng)和AmazonS3連接三種方式。HDFS節(jié)點的配置,需要指定NameNode節(jié)點的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項。對于目前***的r0.20版本,F(xiàn)ilesystems節(jié)點的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設(shè)定。
在HadoopCluster配置部分,添加遠(yuǎn)程計算節(jié)點對應(yīng)的JobTracker,指定節(jié)點的地址,并在下拉列表中選擇之前添加的Filesystems節(jié)點,添加的節(jié)點則會出現(xiàn)在Hadoop可用節(jié)點的列表中。在主節(jié)點計算任務(wù)啟動之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進程。對于數(shù)據(jù)處理,集群中結(jié)點由一個NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計算任務(wù)中,節(jié)點由一個JobTracker和若干TaskTracker組成,JobTracker負(fù)責(zé)任務(wù)調(diào)度,TaskTracker執(zhí)行并行計算任務(wù)。TaskTracker須運行在DataNode上以獲取用于計算的數(shù)據(jù)。
對于已編寫的計算任務(wù),HadoopStudio提供了簡化的作業(yè)部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執(zhí)行的主類并添加依賴項,并選擇執(zhí)行任務(wù)的目標(biāo)Cluster節(jié)點和目標(biāo)Filesystems后即可啟動計算任務(wù)。同時,HadoopStudio提供了實時顯示的MapReduce任務(wù)工作流視圖,可顯示任務(wù)執(zhí)行過程中的作業(yè)類型、完成情況、執(zhí)行狀態(tài)、起止時間、報錯信息以及輸出結(jié)果等內(nèi)容。
Hadoop應(yīng)用開發(fā)方面,HadoopStudio將Hadoop類庫進行打包,可直接在項目中添加所有依賴項。編碼過程中,HadoopStudio為每種作業(yè)的提供了模板,并能夠在代碼編輯的同時自動對模板視圖進行更新。
目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單,感興趣的朋友可以在freshmeat.net的項目站點跟蹤HadoopStudio的***信息。
【編輯推薦】
- Hadoop創(chuàng)建Hbase表方法指導(dǎo)
- Hbase和Hadoop操作文件性能測試
- Hadoop集群與Hadoop性能優(yōu)化
- Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
- Hadoop初探