Spark 安装

文章分类

技术相关

随笔

随笔

专题文章

微信公众平台

文章存档

热门标签

分类： Spark 2015-12-17 11:09:32 颜色：橙色　默认　　字号：大中小阅读(3014) | 评论(0)

1. 安装

1.1 Spark的运行依赖于jvm ，所以需要先安装 JDK 1.7, 不需要安装Scala

1.2 下载预编译好的Spark 解压

   $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz

3 单机运行

./bin/spark-shell

或者指定master

 ./bin/spark-shell --master local[2]  #本地模式两线程运行

4 集群模式

4.1 需要先安装Hadoop 集群，详见 Hadoop2集群安装

4.2 注释 spark-defaults.conf

spark.master spark://master:7077

4.3 在master 上配置conf/slaves, 添加Spark worker的hostname, 一行一个。

$ vim slaves
slave01
slave02
# save and exit

4.4 修改配置spark-env.sh

  $ cp ./conf/spark-env.sh.template ./conf/spark-env.sh 
  $ vim ./conf/spark-env.sh  #增加以下内容
export SPARK_WORKER_INSTANCES=3  
export SPARK_MASTER_WEBUI_PORT=8080  #查看集群运行情况的WEB UI的端口号
export SPARK_WORKER_PORT=8081   #worker的端口号

把master上的这个文件拷贝到所有的worker, 注意，三台机器spark所在目录必须一致，因为master会登陆到worker上执行命令，master认为worker的spark路径与自己一样。

启动 Spark 集群

在master上执行

$./bin/start-all.sh

停止 Spark 集群

在master上执行

$./bin/stop-all.sh

Spark History Server 安装，详见 http://www.php3.cn/a/171.html

运行模式

本地模式
Standalone模式
Mesoes模式
yarn模式

实际应用中，Spark 应用程序的运行模式取决于传递给 SparkContext 的 MASTER 环境变量的值，个别模式还需要依赖辅助的程序接口来配合使用，目前所支持的 MASTER 环境变量由特定的字符串或 URL 所组成。例如：

Local[N]：本地模式，使用 N 个线程。

Local Cluster[Worker,core,Memory]：伪分布式模式，可以配置所需要启动的虚拟工作节点的数量，以及每个工作节点所管理的 CPU 数量和内存尺寸。

Spark://hostname:port:Standalone 模式，需要部署 Spark 到相关节点，URL 为 Spark Master 主机地址和端口。

Mesos://hostname:port:Mesos 模式，需要部署 Spark 和 Mesos 到相关节点，URL 为 Mesos 主机地址和端口。

YARN standalone/Yarn cluster:YARN 模式一，主程序逻辑和任务都运行在 YARN 集群中。

YARN client:YARN 模式二，主程序逻辑运行在本地，具体任务运行在 YARN 集群中。

Standalone – spark-shell --master spark://host:port
Apache Mesos – spark-shell --master mesos://host:port
Hadoop YARN – spark-shell --master yarn
如果以本地模式运行，则为 spark-shell --master local。

Standalone 模式

该模式中，资源调度是Spark框架自己实现的，其节点类型分为Master和Worker节点，其中Driver节点运行在Master节点中，并且有常驻内存的Master进程守护，Worker节点上常驻Worker守护进程，负责与Master通信。

Standalone 模式是Master-Slaves架构的集群模式，Master存在着单点故障问题，目前，Spark提供了两种解决办法：基于文件系统的故障恢复模式，基于Zookeeper的HA方式。

Standalone 模式需要在每一个节点部署Spark应用，并按照实际情况配置故障恢复模式。

运行 Spark 示例

Spark 安装包下载的示例代码都在 examples/src/main 目录下面，可以通过运行 bin/run-example[params] 命令方式运行示例程序。例如，运行 SparkPI 的程序，该程序会计算出一个 PI 值，并打印结果在控制台上。

示例1 使用spark-shell

./spark-shell

... 
scala> val days = List("Sunday","Monday","Tuesday","Wednesday","Thursday","Friday","Saturday")
days: List[String] = List(Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday)
  
scala> val daysRDD =sc.parallelize(days)
daysRDD: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize at :14
  
scala>daysRDD.count()
scala>res0:Long =7

示例2 运行Spark自带的example中的SparkPi

[root@localhost]# ./bin/run-example SparkPi 10 spark://master01:7077

输出的日志分为两部分，一部分是通用日志信息，它由后面会介绍的一系列脚本及程序产生，另一部分是运行程序的输出结果，此处是计算 PI 的输出结果。

示例3 从HDFS读取文件并运行WordCount

$ hadoop fs -put README.md .  
$ ./spark-shell  MASTER=spark://master01:8070 
scala> val file = sc.textFile("hdfs://master01:9000/user/dev/README.md")  
scala> val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)  
scala> count.collect()

上一篇：Spark原理分析　　下一篇：Scala基础语法

最新评论查看所有评论>>