|
Spark培训课程
|
|
班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每期人数限3到5人。 |
上课时间和地点 |
上课地点:【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【北京分部】:北京中山学院/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【石家庄分部】:河北科技大学/瑞景大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦
最近开课时间(周末班/连续班/晚班):2020年3月16日 |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、培训结束后,授课老师留给学员联系方式,保障培训效果,免费提供课后技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
1 spark 架构设计
1.1 spark软件栈,spark生态系统
1.2 spark简介,spark版本和发布
1.3 spark架构设计解析
1.4 RDD计算流程解析
1.5 Spark出色的容错机制
2 spark运行模式及原理
2.1 spark运行模式概述
2.2 local模式
2.3 standalone模式,集群HA
2.4 local cluster模式
2.5 yarn-client/yarn-cluster模式
2.6 mesos模式
3 spark RDD编程模式
3.1 RDD基础,RDD分区,RDD优先位置…
3.2 RDD操作,action,transformation,lazy
3.3 Lineage
3.4 宽依赖和窄依赖
3.5 常见的转换操作和行动操作
3.6 持久化
4 深入spark内核
4.1 Spark集群
4.2 任务调度
4.3 DAGScheduler,TaskScheduler,task内部揭秘
4.4 广播变量的机制和实践
4.5 累加器的机制和实践
4.6 Spark作业提交和接收过程
4.7 Spark shuffle性能分析
4.8 Cache和checkpoint
5 Sparksql
5.1 在应用中使用sparksql,比如:基本查询例子,schemeRDD,cache
5.2 读取和存储数据
1 hive,2 parquet,3 json,4基于RDD
5.3 Jdbc/odbc服务器,beeline
5.4 用户自定义函数,sparksql udf,hive udf
5.5 Sparksql性能
6 spark streaming
6.1 spark streaming基本概念,架构
6.2 dstream
6.3 transformation转换操作,无状态转换操作,有状态转化操作
6.4 checkpoint
6.5 输入源
6.6 容错机制
6.7 性能考量,比如批次和窗口大小,并行度,垃圾回收和内存使用
7 spark机器学习
7.1 机器学习快速入门
7.2 Spark MLlib介绍
7.3 Spark Mllib架构解析
7.4 MLlib经典算法解析和案例
7.4.1:K-Means解析和实战
8 Tachyon文件系统
8.1 tachyon文件系统概述
8.2 tachyon与hdfs
8.3 tachyon设计原理
8.4 tachyon部署
8.5 tachyon api
8.6 tachyon实践解析
9 spark性能优化
9.1 spark性能优化遇到的问题以及解决办法
9.2 spark内存优化
9.3 垃圾回收
9.4 Spark原理以及参数优化
9.5 Spark性能优化案例
10 spark项目架构解析
10.1 实际项目场景中架构设计和方案
|
|
|
|
|
|
|
|
|
|