[学习交流] 【上海校区】Spark基础理论及安装

一、初始Spark
1、产生背景
       由于mapreduce只适用于离线数据处理（批处理），而不能支持对迭代式，交互式，流式数据的处理，因此,spark就诞生了

                  hive的产生就是为了解决mapreduce的编程复杂的问题

                  spark的产生就是为了解决mapreduce的计算缓慢的问题

Spark和MapReduce的对比之后的优势：

  1、减少磁盘IO

                        MapReduce：基于磁盘        Spark:基于内存  （尽量把临时数据缓存在内存中）

2、增加并行度

                      MapReduce： MapTask  ReduceTask  JVM  一个进程一个Task 默认情况下

                      Spark            : ShuffleMapTask   ResultTask   使用的是一个线程执行

3、避免重复计算

                     可以把数据强制的持久化到内存中，以供其他的task使用

4、可选的shuffle和排序

                   可选的shuffle   ：            MapReduce:提供的是一种通用的shuffle     combiner partitioner sorter

                                                           Spark:提供四种shuffle策略，分别有对应不同的需求场景 HashShuffle   SortShuffle

                  可选的排序        ：   mapreducer如果有Reduce阶段的话，那么sorter的数据排序一定会执行

5、灵活的内存管理策略

         要多少给多少。可以合理的分配到底哪个阶段，哪个组件，使用多少

2、Spark的概念（一栈式的通用计算框架）
    官网：http://spark.apache.org/

      Spark是一快速、通用、可扩展的大数据分析引擎

       2009年诞生于加州大学伯克利分校

3、Hadoop生态和Spark生态的区别
      Hadoop生态：

              hdfs+zookeeper+mapreduce/hive+hbase+storm+mahout+其他工具

Spark生态体系：

     hdfs+zookeeper+spark+hbase+storm+mahout+其他工具

      spark的产生就是为了替代Mapreduce

4、特点
1）Speed:快速高效

2）Ease of Use:简单易用

3）Generality:全栈式数据处理

支持批处理（Spark Core）：Spark Core 是 Spark 的核心功能实现，包括：SparkContext 的初始化（DriverApplication 通过 SparkContext 提交）、部署模式、存储体系、任务提交与执行、计算引擎等
支持交互式查询（Spark SQL）。Spark SQL 是 Spark 来操作结构化数据的程序包，可以让我们使用 SQL 语句的方式来查询数据，Spark 支持多种数据源，包含 Hive 表，parquet 以及 JSON等内容
支持流式计算（Spark Streaming）。与 MapReduce 只能处理离线数据相比，Spark 还支持实时的流计算。Spark 依赖 Spark Streaming 对数据进行实时的处理。
支持机器学习（Spark MLlib）。提供机器学习相关的统计、分类、回归等领域的多种算法实现。其一致的 API 接口大大降低了用户的学习成本
支持图计算（Spark GraghX）。提供图计算处理能力，支持分布式， Pregel 提供的 API 可以解决图计算中的常见
4）Run EveryWhere:兼容



二、Spark集群的安装
1、集群规划
server   Master   Worker
qyl01   √   √
qyl02   √   √
qyl03        √
2、具体步骤
1、上传下载好的 Spark 到集群中的一个节点，比如是 qyl01

put c:/spark-2.3.0-bin-hadoop2.7.tgz
2、使用之前安装 hadoop 集群相同的 hadoop 用户安装 spark 集群，现在规划安装目录/home/qyl/apps/，解压缩进行安装

tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -apps /home/qyl/apps/
3、修改配置文件 spark-env.sh

进入 SPARK_HOME 的 conf 目录中，进行如下更改：
cd /home/qyl/apps/spark-2.3.0-bin-hadoop2.7/conf
mv spark-env.sh.template spark-env.sh
然后修改 spark-env.sh：
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
export SPARK_MASTER_HOST=qyl01
export SPARK_MASTER_PORT=7077
4、修改配置文件 slave

修改配置文件 slave
进入 SPARK_HOME 的 conf 目录中，进行如下更改：
cd /home/qyl/apps/spark-2.3.0-bin-hadoop2.7/conf
mv slaves.template slaves
在 slaves 的最后添加所有 worker 节点的主机名
qyl01
qyl02
qyl03
5、将spark安装包copy到所有安装节点

scp -r spark-2.3.0-bin-hadoop2.7 qyl02:/home/qyl/apps/
scp -r spark-2.3.0-bin-hadoop2.7 qyl03:/home/qyl/apps/
6、修改配置文件

vim /etc/profile
export SPARK_HOME=/home/qyl/apps/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
source /etc/profile

7、配置zookeeper集群，并且启动zookeeper集群

8、修改SPARK_HOME/conf目录中的spark-env.sh配置文件

删掉：
export SPARK_MASTER_HOST=qyk01
增加一行：
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -
Dspark.deploy.zookeeper.url=qyl01,qyl02,qyl03 -
Dspark.deploy.zookeeper.dir=/spark"
  9、把core-site.xml和hdfs-site.xml放置在$SPARK_HOME/conf目录下，然后所有节点要同步

10、同步配置文件

scp -r spark-env.sh qyl02:$PWD
scp -r spark-env.sh qyl03:$PWD
11、启动集群

[hadoop@qyl01 spark-2.3.0-bin-hadoop2.7]$ sbin/start-all.sh
三、核心概念
1、Master
    就如同名字一样，是spark集群的管理者，或者管理节点

    在Spark基于Yarn的方式运行过程中，master就是resourcemanager，基于自身的standalone模式运行就是集群中查看到的master节点

2、Work
      是spark集群的工作节点，在spark基于Yarn的方式运行过程中，work就是nodemanager，基于自身的standalone模式运行就是集群中查看到的work节点

      作用：调动本台机器上面的资源

3、Application
         提交到spark集群中取运行的完整应用就是一个Application，当然一个Application由多个job组成

4、Job
        每提交到比较会提交一个Spark的job作业，或者说，每触发一次action操作，就会提交一次spark作业job,从这个角度而言，一个application又多个Job组成，这里的job，就可以理解MapReduce中的Job

5、SparkContext
         整个一个Application的应用上下文对象

         一个spark应用的入口就是sparkcontext，是spark作业最要的概念

6、Driver
           驱动，简单理解，就是用来提交代码，提交job作业

            再换句话说，jobs是在集群中运行的，而这些dirver是在本地提交这些job作业的

7、RDD:弹性分布式数据集(resilient distributed dataset）
        RDD就能够被并行计算的，被分区存储在集群中各个节点的数据集

  RDD其实不存储真是的数据，只存储数据的获取的方法，以及分区的方法，还有就是数据的类型。

   分布式：数据存储在rdd对应的各个partition分区中

   弹性：spark的数据在内存中存储或者计算，当内存存储不了的时候，对应的数据外溢到磁盘进行存储和计算

   RDD的创建方式：可以hdfs文件创建，还可以通过并行对scala的集合创建，在编码过程中还可以通过转化，将一个rdd转化为其他的rdd

四、SparkRDD运行架构图
以wordcount为例：

在spark-shell中执行
sc.textFile("hdfs://myha01/spark/word.txt")flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(println)

五、创建Spark作业
1、maven项目

   2、导入依赖  在pom.xml中添加
<properties>
<scala.version>2.11.8<scala.version>
<spark.version>2.3.2<spark.version>
<hadoop.version>2.7.6<hadoop.version>
<properties>

<dependency>
<groupid>org.apache.spark</groupid>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>

<dependency>
<groupid>org.apache.hadoop</groupid>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>

不二晨 · 不二晨

奈斯

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 【上海校区】Spark基础理论及安装

1 个回复