第一章 简介
Apache Spark是一个用于大规模数据处理的统一分析引擎,是快如闪电的统一分析引擎.Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类似于Hadoop MapReduce的通用并行框架.它有Hadoop MapReduce所具有的优点,不同是,Spark的输出结果可以保存在内存中,从而不再需要读写HDFS.但是需要注意的是Spark仅仅是Hadoop MapReduce的替代方案,不能全部替代Hadoop生态系统.今天我来带领大学完成一个Spark集群的安装和部署.
第二章 Spark集群安装部署
2.1 下载Spark安装包
下载Spark安装包地址:http://spark.apache.org/downloads.html
2.2 规划安装目录
目录名称 说明
/opt/modules 主要是用来安装各种组件
/opt/jars 放置我们编写的一个jar包
/opt/datas 放置一些数据文件
/opt/softwares 放置各种组件的安装包
2.3 解压安装包
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /opt/modules/
执行上述命令将压缩包进行解压,并对解压后的文件夹进行冲命名
mv spark-2.2.0-bin-hadoop2.7/ spark-2.2.0
2.4 修改配置文件
2.4.1 修改spark-env.sh
[Shell] 纯文本查看 复制代码 #设置JAVA_HOME目录
export JAVA_HOME=/opt/modules/jdk1.8.0_144
#设置SCALA_HOME目录
export SCALA_HOME=/opt/modules/scala-2.11.8
#设置SPARK主机的地址
export SPARK_MASTER_HOST=spark-node01.itheima.com
#设置SPARK主机的端口地址
export SPARK_MASTER_PORT=7077
#设置worker节点的内存大小
export SPARK_WORKER_MEMORY=1g
#设置HDFS文件系统的配置文件的位置
export HADOOP_CONF_DIR=/opt/modules/hadoop-2.7.4/etc/hadoop
2.4.2 修改slaves配置文件
#配置从节点的地址
spark-node02.itheima.com
spark-node03.itheima.com
2.4.3 配置Spark环境变量
在/etc/profile这个配置文件下添加如下内容
[Bash shell] 纯文本查看 复制代码 #配置Spark环境变量
export SPARK_HOME=/opt/modules/spark-2.2.0
export PATH=$SPARK_HOME/bin:$PATH
export SPARK_HOME PATH
2.5 将Spark安装包发送到其他节点上去
[Bash shell] 纯文本查看 复制代码 #拷贝spark安装目录道node02机器上
scp -r spark-2.2.0/ spark-node02.itheima.com:$PWD
#拷贝spark安装目录到node03机器上
scp -r spark-2.2.0/ spark-node03.itheima.com:$PWD
#拷贝/etc/profile至node02机器上
scp /etc/profile spark-node02.itheima.com:/etc/
#拷贝/etc/profile至node03机器上
scp /etc/profile spark-node03.itheima.com:/etc/
2.6 启动Spark集群
在主节点上启动Spark,进入$SPARK_HOME目录,执行如下命令
./sbin/start-all.sh
2.7 验证Spark集群是否启动成功
2.7.1 使用jps命令查看进程
如果在节点1有master进程,在节点2和节点3上有worker进程,说明Spark集群启动成功
2.7.2 访问Spark集群的WEB UI界面,查看各个节点状态
http://spark-node01.itheima.com:8080/
至此,Spark集群安装成功
|