教程简介:
Spark是专为大规模数据处理而设计的分析计算引擎。
技术上,Spark是基于Hadoop MapReduce设计的通用并行框架,拥有其所具备的优点,并采用内存的方式优化了中间计算过程,大幅提高了计算效率,从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。
应用上,Spark可以满足大部分的离线数据分析场景和部分的实时数据分析场景,从而使Spark技术框架成为企业大数据离线处理技术的上选。
本套教程基于Spark 3.3版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;Spark Streaming模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。
授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。
-------------------------------------------
教程目录:
001.Spark - 课程介绍
002.Spark - 文件结构 - 介绍
003.Spark - 基础概念 - 介绍 - 分布式
004.Spark - 基础概念 - 介绍 - 计算
005.Spark - 基础概念 - 介绍 - 分布式基础架构
006.Spark - 基础概念 - 介绍 - 框架
007.Spark - 基础概念 - 介绍 - Spark和MR的关系
008.Spark - 介绍
009.Spark - 部署方式 - 介绍
010.Spark - 解压后的文件结构
011.Spark - 部署环境 - Local
012.Spark - 部署环境 - Local - 演示
013.Spark - 部署环境 - Yarn - 演示
014.Spark - 部署环境 - Yarn - 历史服务
015.Spark - 部署环境 - Yarn - 2种执行方式Cluster和Client
016.Spark - 部署环境 - 几种模式的对比
017.Spark - 数据结构 - 说明
018.Spark - RDD - 介绍
019.Spark - RDD - 数据处理流程简介
020.Spark - RDD - 计算原理
021.Spark - RDD - 计算原理 - 补充
022.Spark - RDD - 代码 - 环境的准备
023.Spark - RDD - 代码 - 对接内存数据源构建RDD对象
024.Spark - RDD - 代码 - 对接磁盘数据源构建RDD对象
025.Spark - RDD - 代码 - RDD的理解
026.Spark - RDD - 代码 - RDD的分区
027.Spark - RDD - 代码 - 内存数据源 - 分区数量的设定
028.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数量的设定
029.Spark - RDD - 代码 - 内存数据源 - 分区数据的分配
030.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配
031.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配 - 演示
032 .Spark - RDD - 课件梳理
033.Spark - RDD - 方法 - 介绍
034.Spark - RDD - 方法 - 方法的2大类 - 转换和行动
035.Spark - RDD - 方法 - 数据处理的2大类 - 单值和键值
036.Spark - RDD - 方法 - 转换 - map
037.Spark - RDD - 方法 - 转换 - map - 1
038.Spark - RDD - 方法 - 转换 - map - 2
039.Spark - RDD - 方法 - 转换 - map - 3
040.Spark - RDD - 方法 - 转换 - map - 4
041.Spark - RDD - 方法 - 转换 - filter
042.Spark - RDD - 方法 - 转换 - flatMap
043.Spark - RDD - 方法 - 转换 - flatMap - 1
044.Spark - RDD - 方法 - 转换 - groupBy
045.Spark - RDD - 回顾 - 原理
046.Spark - RDD - 回顾 - 方法
047.Spark - RDD - Shuffle
048.Spark - RDD - Shuffle - 原理
049.Spark - RDD - Shuffle - 原理 - 补充
050.Spark - RDD - Shuffle - 演示
051.Spark - RDD - 方法 - distinct
052.Spark - RDD - 方法 - sortBy
053.Spark - RDD - 方法 - KV类型数据介绍
054.Spark - RDD - 方法 - KV类型数据补充
055.Spark - RDD - 方法 - KV - mapValues
056.Spark - RDD - 方法 - KV - wordCount
057.Spark - RDD - 方法 - KV - groupByKey
058.Spark - RDD - 方法 - KV - reduceByKey
059.Spark - RDD - 方法 - KV - sortByKey
060.Spark - RDD - 方法 - KV - reduceByKey和groupByKey的区别
061.Spark - RDD - WordCount程序在环境中运行
062.Spark - RDD - 转换方法的回顾
063.Spark - RDD - 行动算子 - 介绍
064.Spark - RDD - 行动算子 - collect
065.Spark - RDD - 行动算子 - collect - 补充
066.Spark - RDD - 行动算子 - 其他方法 - 1
067.Spark - RDD - 行动算子 - 其他方法 - 2
068.Spark - RDD - 行动算子 - 其他方法 - 3
069.Spark - RDD - 行动算子 - Driver端和Executor端数据传输
070.Spark - RDD - 序列化 - 1
071.Spark - RDD - 序列化 - 2
072.Spark - 案例 - 数据格式说明
073.Spark - 案例 - 需求介绍
074.Spark - 案例 - 需求分析
075.Spark - 案例 - 需求设计
076.Spark - 案例 - 开发原则
077.Spark - 案例 - 代码实现 - 1
078.Spark - 案例 - 代码实现 - 2
079.Spark - 案例 - 代码实现 - 3
080.Spark - 案例 - 代码实现 - 4
081.Spark - RDD - KRYO序列化框架
082.Spark - RDD - 依赖关系 - 介绍
083.Spark - RDD - 依赖关系 - 原理
084.Spark - RDD - 依赖关系 - 血缘关系
085.Spark - RDD - 依赖关系 - 依赖关系
086.Spark - RDD - 依赖关系 - 宽窄依赖关系
087.Spark - RDD - 依赖关系 - 作业,阶段和任务的关系
088.Spark - RDD - 依赖关系 - 任务的数量
089.Spark - RDD - 依赖关系 - 分区的数量
090Spark - RDD - 持久化和序列化的关系
091.Spark - RDD - 持久化 - cache
092.Spark - RDD - 持久化 - persist
093.Spark - RDD - 持久化 - checkpoint
094.Spark - RDD - 持久化 - shuffle算子的持久化
095.Spark - RDD - 分区器
096.Spark - RDD - 自定义分区器
097.Spark - 两个案例
098.Spark - 第一个案例问题原因
099.Spark - 广播变量
100.Spark - RDD的局限性
101.SparkSQL - 介绍
102.SparkSQL - 环境对象的封装
103.SparkSQL - 模型对象的封装
104.SparkSQL - SQL的操作
105.SparkSQL - 不同场景下环境对象的转换
106.SparkSQL - 不同场景下模型数据对象的转换
107.SparkSQL - 使用SQL的方式来访问数据模型
108.SparkSQL - 使用DSL的方式来访问数据模型
109.SparkSQL - 自定义udf函数对象
110.SparkSQL - 自定义udf函数的底层实现原理
111.SparkSQL - 自定义udaf函数的底层实现原理
112.SparkSQL - 自定义udaf函数的实现步骤 - 1
113.SparkSQL - 自定义udaf函数的实现步骤 - 2
114.SparkSQL - 自定义udaf函数的实现步骤 - 回顾
115.SparkSQL - 数据源 - CSV
116.SparkSQL - 数据源 - JSON
117.SparkSQL - 数据源 - Parquet
118.SparkSQL - 数据源 - JDBC
119.SparkSQL - 数据源 - Hive
120.SparkSQL - 案例 - 数据准备
121.SparkSQL - 案例 - 数据准备 - 补充
122.SparkSQL - 案例 - 需求分析
123.SparkSQL - 案例 - 需求设计
124.SparkSQL - 案例 - SQL实现 - 1
125.SparkSQL - 案例 - SQL实现 - 2
126.SparkSQL - 案例 - SQL实现 - 3
127.SparkSQL - 案例 - SQL实现 - 4
128.SparkSQL - 案例 - SQL实现 - 5
129.SparkSQL - 案例 - SQL实现 - 6
130.SparkSQL - 案例 - SQL实现 - 7
131.SparkSQL - 案例 - SQL实现 - 8
132.SparkSQL - 案例 - SQL实现 - 9
133.SparkStreaming - 介绍
134.SparkStreaming - 原理
135.SparkStreaming - 原理 - 补充
136.SparkStreaming - 课件梳理
137.SparkStreaming - 环境准备
138.SparkStreaming - 网络(Socket)数据流处理演示
139.SparkStreaming - Kafka数据流处理演示
140.SparkStreaming - DStream方法介绍
141.SparkStreaming - DStream输出方法介绍
142.SparkStreaming - 窗口操作
143.SparkStreaming - 回顾 - 1
144.SparkStreaming - 回顾 - 2
145.SparkStreaming - 关闭 - 1
146.SparkStreaming - 关闭 - 2
147.SparkStreaming - 关闭 - 3
148.Spark - 内核 - 运行流程 - 1
149.Spark - 内核 - 运行流程 - 2
150.Spark - 内核 - 运行流程 - 3
151.Spark - 内核 - 核心对象
152.Spark - 内核 - 核心对象通信流程 - Netty
153.Spark - 内核 - Task任务的调度执行
154.Spark - 内核 - Shuffle底层的实现原理 - 1
155.Spark - 内核 - Shuffle底层的实现原理 - 2
156.Spark - 内核 - 内存管理
157.Spark - 内核 - 内存管理 - 补充