从0开始学习大数据分布式计算框架Spark,从入门安装到集群部署、从内核原理到最佳实践,通过知识点 + 案例教学法帮助小白快速掌握Spark的使用。
课程亮点: 1,课程由浅到深,由原理到实践,既适合零基础也适合深入学习。 2,涵盖了Spark一站式解决方案,包括:SparkCore、SparkSQL、SparkStreaming、StructuredStreaming等技术。 3,结合实际案例,培养解决实际问题的能力。
课程内容: 1、SparkCore 2、SparkSQL 3、SparkStreaming 4、StructuredStreaming 5、Spark案例
适用人群:
1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。
第一章 Spark概述和入门 01_Spark概述_目标 02_Spark概述_Spark是什么 03_Spark概述_Spark的特点 04_Spark概述_Spark的组成 05_Spark集群搭建_Spark集群结构 06_Spark集群搭建_Spark集群结构_扩展 07_Spark环境搭建_下载和解压Spark安装包 08_Spark环境搭建_配置HistoryServer 09_Spark集群搭建_分发和启动 10_Spark集群搭建_高可用配置 11_Spark集群搭建_第一个案例 12_Spark入门_代码编写方式 13_Spark入门_SparkShell本地文件读取 14_Spark入门_执行过程 15_Spark入门_读取HDFS上的文件 16_Spark入门_独立应用编写 17_Spark入门_独立应用的运行方式 18_RDD入门_RDD是什么 19_RDD入门_SparkContext 20_RDD入门_创建RDD的三种方式 21_RDD入门_Map算子 22_RDD入门_FlatMap算子 23_RDD入门_ReduceByKey算子
第二章 SparkCore-1 01_深入RDD_课程结构 02_深入RDD_初始案例_步骤 03_深入RDD_初始案例_代码编写 04_深入RDD_问题_如何运行在集群中 05_深入RDD_问题_分解和容错 06_深入RDD_定义_出现的背景 07_深入RDD_定义_RDD的特点 08_深入RDD_定义_什么叫做弹性分布式数据集 09_深入RDD_定义_五大属性 10_RDD算子_分类 11_RDD算子_转换_回顾 12_RDD算子_转换_mapPartitions 13_RDD算子_转换_Filter 14_RDD算子_转换_Sample 15_RDD算子_转换_mapValues 16_RDD算子_转换_集合操作 17_RDD算子_转换_groupByKey 18_RDD算子_转换_combineByKey 19_RDD算子_转换_foldByKey 20_RDD算子_转换_aggregateByKey 21_RDD算子_转换_join 22_RDD算子_转换_排序 23_RDD算子_转换_重分区 24_RDD算子_转换_总结
第三章 SparkCore-2 01_RDD算子_Action_reduce 02_RDD算子_Action_foreach 03_RDD算子_Action_countByKey 04_RDD算子_Action_take 05_RDD算子_Action_总结 06_RDD算子_KV类型的支持 07_RDD算子_数字型的支持 08_阶段练习_需求介绍和明确步骤 09_阶段练习_代码编写 10_阶段练习_总结 11_RDD的分区和Shuffle_介绍 12_RDD的分区和Shuffle_查看分区 13_RDD的分区和Shuffle_创建RDD时指定分区数 14_RDD的分区和Shuffle_通过算子重分区 15_RDD的分区和Shuffle_通过其他算子指定分区数 16_RDD的分区和Shuffle_Shuffle过程扫盲 17_RDD的缓存_缓存的意义_案例介绍 18_RDD的缓存_缓存的意义_过程代码 19_RDD的缓存_缓存的意义_结论 20_RDD的缓存_缓存的API 21_RDD的缓存_缓存级别 22_Checkpoint_意义 23_Checkpoint_使用
第四章 SparkCore-原理 01_Spark原理_概述和思路 02_Spark原理_总体介绍_概要 03_Spark原理_总结介绍_案例编写 04_Spark原理_总体介绍_集群环境 05_Spark原理_总体介绍_逻辑执行图 06_Spark原理_总体介绍_物理执行图 07_Spark原理_逻辑图_HadoopRDD的生成 08_Spark原理_逻辑图_MapPartitionsRDD 09_Spark原理_逻辑图_小结 10_Spark原理_逻辑图_RDD之间的关系_一对一 11_Spark原理_逻辑图_RDD之间的关系_多对一 12_Spark原理_逻辑图_窄依赖_案例 13_Spark原理_逻辑图_窄依赖_分析 14_Spark原理_逻辑图_宽依赖_分析 15_Spark原理_逻辑图_宽窄依赖判断 16_Spark原理_逻辑图_窄依赖的分类_看源码 17_Spark原理_逻辑图_窄依赖的分类_分析 18_Spark原理_逻辑图_总结 19_Spark原理_物理图_介绍 20_Spark原理_物理图_Task设计 21_Spark原理_物理图_Stage划分 22_Spark原理_物理图_案例总结 23_Spark原理_运行过程_概念介绍 24_Spark原理_运行过程_Job和Stage的关系 25_Spark原理_运行过程_Stage和Task的关系 26_Spark原理_运行过程_总结和流程 27_高级特性_闭包_概念 28_高级特性_闭包_Spark闭包分发 29_高级特性_累加器 30_高级特性_广播
第五章 SparkSQL-基础 01_SparkSQL是什么_命令式和声明式的区别 02_SparkSQL是什么_历史和重要性 03_SparkSQL是什么_适用场景 04_SparkSQL初体验_命令式案例 05_SparkSQL初体验_Dataset和DataFrame 06_SparkSQL初体验_SQL案例 07_扩展_Catalyst优化器_SparkSQL和RDD的区别 08_扩展_Catalyst优化器_优化过程 09_扩展_Catalyst优化器_查看计划 10_Dataset介绍_Dataset是什么 11_Dataset介绍_Dataset底层类型 12_Dataset介绍_将Dataset转为同泛型的RDD 13_DataFrame介绍_DataFrame是什么 14_DataFrame介绍_创建_toDF 15_DataFrame介绍_创建_read 16_DataFrame介绍_操作 17_Dataset和DataFrame的区别_区别 18_Dataset和DataFrame的区别_Row对象
第六章 SparkSQL-读写 01_SparkSQL读写_介绍 02_SparkSQL读写_Reader 03_SparkSQL读写_Writer 04_SparkSQL读写_Parquet 05_SparkSQL读写_分区 06_SparkSQL读写_JSON 07_SparkSQL读写_JSON小技巧 08_SparkSQL读写_Hive_整合 09_SparkSQL读写_Hive_创建Hive表 10_SparkSQL读写_Hive_读取Hive表 11_SparkSQL读写_Hive_SparkSQL创建Hive表 12_SparkSQL读写_Hive_写入数据_配置 13_SparkSQL读写_Hive_写入数据_编码和运行 14_SparkSQL读写_JDBC_MySQL环境准备 15_SparkSQL读写_JDBC_写入数据
第七章 SparkSQL-转换 01_有类型转换_map 02_有类型转换_transform_ 03_有类型转换_as 04_有类型转换_filter 05_有类型转换_groupByKey 06_有类型转换_split_ 07_有类型转换_orderBy 08_有类型转换_去重 09_有类型转换_集合操作 10_无类型转换_选择 11_无类型转换_列操作 12_无类型转换_groupBy 13_Column对象_创建1 14_Column对象_创建_有绑定 15_Column对象_操作_别名和类型 16_Column对象_操作_API 17_缺失值处理_什么是缺失值 18_缺失值处理_null&NaN_读取文件 19_缺失值处理_null&NaN_处理 20_缺失值处理_字符串缺失值
第八章 SparkSQL-聚合与连接 01_聚合操作_groupBy_数据读取 02_聚合操作_groupBy_聚合操作 03_聚合操作_多维聚合_需求介绍 04_聚合操作_多维聚合_编写代码 05_聚合操作_多维聚合_rollup 06_聚合操作_多维聚合_rollup案例 07_聚合操作_多维聚合_cube 08_聚合操作_多维聚合_cubeSQL 09_聚合操作_多维聚合_GroupedDataset 10_连接操作_入门_介绍 11_连接操作_入门_案例 12_连接操作_连接类型_cross 13_连接操作_连接类型_inner 14_连接操作_连接类型_fullouter 15_连接操作_连接类型_left 16_连接操作_连接类型_semi&anti 17_函数_UDF 18_函数_窗口1 19_函数_窗口2
第九章 SparkSQL-综合案例 01_项目分析_业务场景 02_项目分析_流程分析 03_工程搭建_创建 04_工程搭建_读取数据 05_数据清洗_思路和步骤 06_数据清洗_创建Trip类 07_数据清洗_包装Row处理空值 08_数据清洗_数据转换 09_数据清洗_异常处理_Either 10_数据清洗_异常处理_完成逻辑 11_数据清洗_转换完成 12_数据清洗_剪除反常数据_统计分布 13_数据清洗_剪除反常数据 14_行政区信息_介绍 15_行政区信息_JSON解析 16_行政区信息_GeoJSON介绍 17_行政区信息_JSON解析实现 18_行政区信息_Geometry实现 19_行政区统计_功能实现 20_会话统计_得出结果
第十章 SparkStreaming 01_SparkStreaming介绍_场景 02_SparkStreaming介绍_流计算和批计算的区别 03_SparkStreaming介绍_架构 04_SparkStreaming介绍_特点 05_SparkStreaming案例_Socket回顾 06_SparkStreaming案例_Netcat 07_SparkStreaming案例_创建工程 08_SparkStreaming案例_代码编写 09_SparkStreaming案例_运行 10_SparkStreaming案例_解释说明 11_SparkStreaming原理_问题提出 12_SparkStreaming原理_DStream的有向无环图 13_SparkStreaming原理_DStream的静态和动态 14_SparkStreaming原理_Receiver 15_SparkStreaming原理_容错 16_Streaming_操作_updateStateByKey 17_Streaming_操作_updateStateByKey代码 18_Streaming_操作_窗口_代码 19_Streaming_操作_窗口_讲解
第十一章 StructuredStreaming 01_Structured_介绍_历史更迭 02_Structured_介绍_序列化更迭 03_Structured_介绍_对比 04_Structured_案例_介绍 05_Structured_案例_代码编写 06_Structured_案例_运行和总结 07_Structured_体系结构_无限扩展的表 08_Structured_体系结构 09_Structured_Source_HDFS_案例介绍 10_Structured_Source_HDFS_生成并上传文件到HDFS 11_Structured_Source_HDFS_Spark代码 12_Structured_Source_Kafka_回顾 13_Structured_Source_Kafka_整合 14_Structured_Source_Kafka_需求 15_Structured_Source_Kafka_连接 16_Structured_Sink_HDFS 17_Structured_Sink_Kafka 18_Structured_Sink_Foreach 19_Structured_Sink_Trigger 20_Structured_Sink_容错语义
网盘视频截图展示:
视频下载链接已添加 回帖可获取视频下载提取码
添加播妞qq3414556270可获取本视频源码资料 |