自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Spark的YARN模式部署

數(shù)據(jù)庫(kù) Spark
Spark可以通過(guò)SBT(Scala Build Tool)或者M(jìn)aven來(lái)編譯,官方提供的二進(jìn)制安裝文件是用Maven編譯。

1:Spark的編譯

Spark可以通過(guò)SBT(Scala Build Tool)或者M(jìn)aven來(lái)編譯,官方提供的二進(jìn)制安裝文件是用Maven編譯,如果是要在YARN集群上運(yùn)行的話,還需要再用SBT編譯一下,生成YARN client端使用的jar包;最好是直接對(duì)源碼使用SBT進(jìn)行編譯而生成YARN client端使用的jar包。筆者在測(cè)試過(guò)程中,對(duì)Maven編譯過(guò)的Spark進(jìn)行SBT二次編譯后,在運(yùn)行部分例子的時(shí)候有錯(cuò)誤發(fā)生。

A:Maven編譯

筆者使用的環(huán)境曾經(jīng)編譯過(guò)Hadoop2.2.0(參見hadoop2.2.0源碼編譯(CentOS6.4)),所以不敢確定Maven編譯過(guò)程中,Spark是不是需要編譯Hadoop2.2.0中使用的部分底層軟件(看官方資料是需要Protobuf2.5)。除了網(wǎng)絡(luò)下載不給力而不斷的中止、然后重新編譯而花費(fèi)近1天的時(shí)間外,編譯過(guò)程還是挺順利的。

maven編譯時(shí),首先要進(jìn)行設(shè)置Maven使用的內(nèi)存項(xiàng)配置:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

然后用Maven編譯:

mvn -Pnew-yarn -Dhadoop.version=2.2.0 -Dyarn.version=2.2.0 -DskipTestspackage

參考文檔:Building Spark with Maven

B:SBT編譯

Spark源碼和二進(jìn)制安裝包都綁定了SBT。值得注意的是,如果要使用Scala進(jìn)行Spark應(yīng)用開發(fā),必須使用和Spark版本相對(duì)應(yīng)版本的Scala,如:Spark0.8.1對(duì)應(yīng)的Scala2.9.3。對(duì)于不匹配的Scala應(yīng)用開發(fā)可能會(huì)不能正常工作。

SBT編譯命令:

SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly

二種編譯都是在Spark根目錄下運(yùn)行。在SBT編譯過(guò)程中如果網(wǎng)絡(luò)不給力,手工中斷編譯(ctrl+z)后要用kill-9 將相應(yīng)的進(jìn)程殺死后,然后再重新編譯,不然會(huì)被之前的sbt進(jìn)程鎖住而不能重新編譯。

2:Spark運(yùn)行

Spark可以單獨(dú)運(yùn)行,也可以在已有的集群上運(yùn)行,如Amazon EC2、Apache Mesos、Hadoop YARN。下面用Spark自帶的例程進(jìn)行測(cè)試,運(yùn)行的時(shí)候都是在Spark的根目錄下進(jìn)行。如果需要知道運(yùn)行更詳細(xì)的信息,可以使用log4j,只要在根目錄下運(yùn)行:

cp conf/log4j.properties.template conf/log4j.properties

A:本地運(yùn)行

./run-example org.apache.spark.examples.SparkPi local

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

也可以多線程方式運(yùn)行,下面的命令就是開4個(gè)線程。

./run-example org.apache.spark.examples.SparkPi local[4]

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

B:YARN集群

啟動(dòng)Hadoop2.2.0集群

確保環(huán)境變量HADOOP_CONF_DIR或YARN_CONF_DIR已經(jīng)設(shè)置

在YARN集群中運(yùn)行Spark應(yīng)用程序的命令:

  1. SPARK_JAR=<SPARK_ASSEMBLY_JAR_FILE> ./spark-classorg.apache.spark.deploy.yarn.Client \ 
  2.   --jar <YOUR_APP_JAR_FILE> \ 
  3.   --class <APP_MAIN_CLASS> \ 
  4.   --args <APP_MAIN_ARGUMENTS> \ 
  5.   --num-workers <NUMBER_OF_WORKER_MACHINES> \ 
  6.   --master-class <ApplicationMaster_CLASS> 
  7.   --master-memory <MEMORY_FOR_MASTER> \ 
  8.   --worker-memory <MEMORY_PER_WORKER> \ 
  9.   --worker-cores <CORES_PER_WORKER> \ 
  10.   --name <application_name> \ 
  11.   --queue <queue_name> \ 
  12.   --addJars <any_local_files_used_in_SparkContext.addJar> \ 
  13.   --files <files_for_distributed_cache> \ 
  14.   --archives <archives_for_distributed_cache> 

例1計(jì)算PI,可以看出程序運(yùn)行時(shí)是先將運(yùn)行文件上傳到Hadoop集群的,所以客戶端最好是和Hadoop集群在一個(gè)局域網(wǎng)里。

  1. SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \ 
  2.     ./spark-class org.apache.spark.deploy.yarn.Client \ 
  3.       --jar examples/target/scala-2.9.3/spark-examples-assembly-0.8.1-incubating.jar \ 
  4.       --class org.apache.spark.examples.SparkPi \ 
  5.       --args yarn-standalone \ 
  6.       --num-workers 3 \ 
  7.       --master-memory 2g \ 
  8.       --worker-memory 2g \ 
  9.       --worker-cores 1 

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

例2計(jì)算TC

  1. SPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubating-hadoop2.2.0.jar \ 
  2.     ./spark-class org.apache.spark.deploy.yarn.Client \ 
  3.       --jar examples/target/scala-2.9.3/spark-examples-assembly-0.8.1-incubating.jar \ 
  4.       --class org.apache.spark.examples.SparkTC \ 
  5.       --args yarn-standalone \ 
  6.       --num-workers 3 \ 
  7.       --master-memory 2g \ 
  8.       --worker-memory 2g \ 
  9.       --worker-cores 1 

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

點(diǎn)擊Tracking UI中的相應(yīng)鏈接可以查看Spark的運(yùn)行信息:

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

  Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客

  Spark安裝和測(cè)試(YARN模式) - mmicky - mmicky 的博客 

 

責(zé)任編輯:彭凡 來(lái)源: 網(wǎng)易博客
相關(guān)推薦

2014-04-16 14:04:34

SparkStandalone

2021-08-31 23:09:27

Spark資源分配

2017-09-25 16:21:30

Spark on yacluster模式

2016-09-13 14:05:24

Spark集群管理模式

2014-04-16 10:41:58

Spark

2014-08-25 09:03:44

HuluSpark On Y

2014-04-16 11:01:07

SparkYarn

2020-03-06 16:00:04

KubernetesSpark容器

2019-06-11 09:50:07

SparkBroadcast代碼

2024-01-29 08:07:42

FlinkYARN架構(gòu)

2023-06-06 19:24:06

KubernetesSpark

2014-09-16 10:13:27

Spark搭建環(huán)境

2020-09-14 08:30:44

Kubernetes容器

2020-05-20 13:20:45

KubernetesSpark數(shù)據(jù)

2014-07-17 14:09:31

Spark

2012-06-10 17:31:55

無(wú)線網(wǎng)絡(luò)捷網(wǎng)絡(luò)

2024-06-06 08:32:52

.NET框架代碼

2014-01-07 11:24:45

SparkHadoop

2020-09-22 18:01:22

SparkStandalone運(yùn)行

2014-05-16 10:55:47

Spark
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)