尚硅谷_Spark

教程简介：

Spark是专为大规模数据处理而设计的分析计算引擎。

技术上，Spark是基于Hadoop MapReduce设计的通用并行框架，拥有其所具备的优点，并采用内存的方式优化了中间计算过程，大幅提高了计算效率，从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。

应用上，Spark可以满足大部分的离线数据分析场景和部分的实时数据分析场景，从而使Spark技术框架成为企业大数据离线处理技术的上选。

本套教程基于Spark 3.3版本，使用Java语言，详解了Spark技术生态的三个核心模块：Spark Core核心模块，讲解Spark运行环境，以及分布式数据模型RDD的使用和原理；Spark SQL模块，讲解Spark在结构化数据场景中的使用方式，包括SQL语法、DSL语法、UDF函数、UDAF函数等；Spark Streaming模块，讲解Spark在流式数据处理中的使用方式，包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。

授课方式上，还是一贯的将图形、文字、源码相结合的保姆式讲解；配套资料上，还是一样的败家式赠送，视频、课件、代码、资料，全部送送送！力求让学习者对分布式计算的原理、框架的使用建立深刻的理解，从而将Spark应用于企业的项目中。

-------------------------------------------

教程目录：

001.Spark - 课程介绍

002.Spark - 文件结构 - 介绍

003.Spark - 基础概念 - 介绍 - 分布式

004.Spark - 基础概念 - 介绍 - 计算

005.Spark - 基础概念 - 介绍 - 分布式基础架构

006.Spark - 基础概念 - 介绍 - 框架

007.Spark - 基础概念 - 介绍 - Spark和MR的关系

008.Spark - 介绍

009.Spark - 部署方式 - 介绍

010.Spark - 解压后的文件结构

011.Spark - 部署环境 - Local

012.Spark - 部署环境 - Local - 演示

013.Spark - 部署环境 - Yarn - 演示

014.Spark - 部署环境 - Yarn - 历史服务

015.Spark - 部署环境 - Yarn - 2种执行方式Cluster和Client

016.Spark - 部署环境 - 几种模式的对比

017.Spark - 数据结构 - 说明

018.Spark - RDD - 介绍

019.Spark - RDD - 数据处理流程简介

020.Spark - RDD - 计算原理

021.Spark - RDD - 计算原理 - 补充

022.Spark - RDD - 代码 - 环境的准备

023.Spark - RDD - 代码 - 对接内存数据源构建RDD对象

024.Spark - RDD - 代码 - 对接磁盘数据源构建RDD对象

025.Spark - RDD - 代码 - RDD的理解

026.Spark - RDD - 代码 - RDD的分区

027.Spark - RDD - 代码 - 内存数据源 - 分区数量的设定

028.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数量的设定

029.Spark - RDD - 代码 - 内存数据源 - 分区数据的分配

030.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配

031.Spark - RDD - 代码 - 磁盘文件数据源 - 分区数据的分配 - 演示

032 .Spark - RDD - 课件梳理

033.Spark - RDD - 方法 - 介绍

034.Spark - RDD - 方法 - 方法的2大类 - 转换和行动

035.Spark - RDD - 方法 - 数据处理的2大类 - 单值和键值

036.Spark - RDD - 方法 - 转换 - map

037.Spark - RDD - 方法 - 转换 - map - 1

038.Spark - RDD - 方法 - 转换 - map - 2

039.Spark - RDD - 方法 - 转换 - map - 3

040.Spark - RDD - 方法 - 转换 - map - 4

041.Spark - RDD - 方法 - 转换 - filter

042.Spark - RDD - 方法 - 转换 - flatMap

043.Spark - RDD - 方法 - 转换 - flatMap - 1

044.Spark - RDD - 方法 - 转换 - groupBy

045.Spark - RDD - 回顾 - 原理

046.Spark - RDD - 回顾 - 方法

047.Spark - RDD - Shuffle

048.Spark - RDD - Shuffle - 原理

049.Spark - RDD - Shuffle - 原理 - 补充

050.Spark - RDD - Shuffle - 演示

051.Spark - RDD - 方法 - distinct

052.Spark - RDD - 方法 - sortBy

053.Spark - RDD - 方法 - KV类型数据介绍

054.Spark - RDD - 方法 - KV类型数据补充

055.Spark - RDD - 方法 - KV - mapValues

056.Spark - RDD - 方法 - KV - wordCount

057.Spark - RDD - 方法 - KV - groupByKey

058.Spark - RDD - 方法 - KV - reduceByKey

059.Spark - RDD - 方法 - KV - sortByKey

060.Spark - RDD - 方法 - KV - reduceByKey和groupByKey的区别

061.Spark - RDD - WordCount程序在环境中运行

062.Spark - RDD - 转换方法的回顾

063.Spark - RDD - 行动算子 - 介绍

064.Spark - RDD - 行动算子 - collect

065.Spark - RDD - 行动算子 - collect - 补充

066.Spark - RDD - 行动算子 - 其他方法 - 1

067.Spark - RDD - 行动算子 - 其他方法 - 2

068.Spark - RDD - 行动算子 - 其他方法 - 3

069.Spark - RDD - 行动算子 - Driver端和Executor端数据传输

070.Spark - RDD - 序列化 - 1

071.Spark - RDD - 序列化 - 2

072.Spark - 案例 - 数据格式说明

073.Spark - 案例 - 需求介绍

074.Spark - 案例 - 需求分析

075.Spark - 案例 - 需求设计

076.Spark - 案例 - 开发原则

077.Spark - 案例 - 代码实现 - 1

078.Spark - 案例 - 代码实现 - 2

079.Spark - 案例 - 代码实现 - 3

080.Spark - 案例 - 代码实现 - 4

081.Spark - RDD - KRYO序列化框架

082.Spark - RDD - 依赖关系 - 介绍

083.Spark - RDD - 依赖关系 - 原理

084.Spark - RDD - 依赖关系 - 血缘关系

085.Spark - RDD - 依赖关系 - 依赖关系

086.Spark - RDD - 依赖关系 - 宽窄依赖关系

087.Spark - RDD - 依赖关系 - 作业，阶段和任务的关系

088.Spark - RDD - 依赖关系 - 任务的数量

089.Spark - RDD - 依赖关系 - 分区的数量

090Spark - RDD - 持久化和序列化的关系

091.Spark - RDD - 持久化 - cache

092.Spark - RDD - 持久化 - persist

093.Spark - RDD - 持久化 - checkpoint

094.Spark - RDD - 持久化 - shuffle算子的持久化

095.Spark - RDD - 分区器

096.Spark - RDD - 自定义分区器

097.Spark - 两个案例

098.Spark - 第一个案例问题原因

099.Spark - 广播变量

100.Spark - RDD的局限性

101.SparkSQL - 介绍

102.SparkSQL - 环境对象的封装

103.SparkSQL - 模型对象的封装

104.SparkSQL - SQL的操作

105.SparkSQL - 不同场景下环境对象的转换

106.SparkSQL - 不同场景下模型数据对象的转换

107.SparkSQL - 使用SQL的方式来访问数据模型

108.SparkSQL - 使用DSL的方式来访问数据模型

109.SparkSQL - 自定义udf函数对象

110.SparkSQL - 自定义udf函数的底层实现原理

111.SparkSQL - 自定义udaf函数的底层实现原理

112.SparkSQL - 自定义udaf函数的实现步骤 - 1

113.SparkSQL - 自定义udaf函数的实现步骤 - 2

114.SparkSQL - 自定义udaf函数的实现步骤 - 回顾

115.SparkSQL - 数据源 - CSV

116.SparkSQL - 数据源 - JSON

117.SparkSQL - 数据源 - Parquet

118.SparkSQL - 数据源 - JDBC

119.SparkSQL - 数据源 - Hive

120.SparkSQL - 案例 - 数据准备

121.SparkSQL - 案例 - 数据准备 - 补充

122.SparkSQL - 案例 - 需求分析

123.SparkSQL - 案例 - 需求设计

124.SparkSQL - 案例 - SQL实现 - 1

125.SparkSQL - 案例 - SQL实现 - 2

126.SparkSQL - 案例 - SQL实现 - 3

127.SparkSQL - 案例 - SQL实现 - 4

128.SparkSQL - 案例 - SQL实现 - 5

129.SparkSQL - 案例 - SQL实现 - 6

130.SparkSQL - 案例 - SQL实现 - 7

131.SparkSQL - 案例 - SQL实现 - 8

132.SparkSQL - 案例 - SQL实现 - 9

133.SparkStreaming - 介绍

134.SparkStreaming - 原理

135.SparkStreaming - 原理 - 补充

136.SparkStreaming - 课件梳理

137.SparkStreaming - 环境准备

138.SparkStreaming - 网络（Socket）数据流处理演示

139.SparkStreaming - Kafka数据流处理演示

140.SparkStreaming - DStream方法介绍

141.SparkStreaming - DStream输出方法介绍

142.SparkStreaming - 窗口操作

143.SparkStreaming - 回顾 - 1

144.SparkStreaming - 回顾 - 2

145.SparkStreaming - 关闭 - 1

146.SparkStreaming - 关闭 - 2

147.SparkStreaming - 关闭 - 3

148.Spark - 内核 - 运行流程 - 1

149.Spark - 内核 - 运行流程 - 2

150.Spark - 内核 - 运行流程 - 3

151.Spark - 内核 - 核心对象

152.Spark - 内核 - 核心对象通信流程 - Netty

153.Spark - 内核 - Task任务的调度执行

154.Spark - 内核 - Shuffle底层的实现原理 - 1

155.Spark - 内核 - Shuffle底层的实现原理 - 2

156.Spark - 内核 - 内存管理

157.Spark - 内核 - 内存管理 - 补充

玩酷网

雅隽尚硅谷