班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每期人数限3到5人。 |
上课时间和地点 |
上课地点:【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【北京分部】:北京中山学院/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【石家庄分部】:河北科技大学/瑞景大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦
最近开课时间(周末班/连续班/晚班):2020年3月16日 |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、培训结束后,授课老师留给学员联系方式,保障培训效果,免费提供课后技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
|
- 第1章课程简介
1-1课程简介
第2章Docker知识快速入门
2-1什么是Docker技术
2-2为什么要使用Docker
2-3Docker中的基本概念
2-4Docker安装
2-5Docker获取镜像
2-6Docker创建镜像(1)
2-7Docker创建镜像(2)
2-8Docker本地导入镜像
2-9Docker保存、载入、删除镜像
2-10Docker容器的创建启动和停止
2-11Docker命令进入容器后台
2-12Docker命令导入导出和删除容器
2-13Docker公有仓库Docker Hub
2-14Docker私有仓库的创建
2-15Docker中的数据卷
2-16Docker制作数据卷容器
2-17Docker数据卷容器实现备份恢复及迁移
2-18Docker容器绑定外部端口和IP
2-19Docker容器互联
2-20Docker一个完整的例子
2-21Dockerfile基本结构讲解
2-22Dockerfile中常见指令讲解
第3章Docker搭建Spark学习环境,一键部署So easy!
3-1Spark课程前言
3-2Spark基础核心概念讲解
3-3镜像制作方案和集群网络规划及子网配置和SSH无密钥登录规
3-4Hadoop、HDFS、Yarn配置文件详解
3-5Spark及Hive配置文件详解
3-6Dockerfile制作Hadoop/Spark/Hive镜
3-7启动5个容器并启动Hadoop、Spark、Hive
第4章PySpark基础及运行原理快速入门,
4-1pyspark模块介绍
4-2SparkContext编程入口及Accumulator
4-3addFile方法和SparkFiles的get方法
4-4binaryFiles读取二进制文件
4-5Broadcast广播变量和setLogLevel日志级别
4-6文件的读取和保存及runJob方法和parallelize
4-7union方法和statusTracker方法讲解
4-8aggregate和aggregateByKey的异同
4-9collectAsMap和fold方法的理解及正确使用
4-10foreach和foreachPartitions原理
4-11histogram和lookup方法的使用详解
4-12reduce、sampleStdev等方法的使用详解
4-13sequenceFile序列文件的保存和读取
4-14takeSample、treeAggregate方法使用
4-15coalesce、repartition方法使用技巧
4-16cogroup、combineByKey、reduceByK
4-17foldByKey、groupBy、groupWith几个方
4-18集合操作intersection、subtract、unio
4-19join、fullOuterJoin等RDD关联操作
4-20glom、mapPartitions、mapValues等方
4-21pipe、randomSplit、sampleByKey、s
4-22sortBy、sortByKey、values、zip、zi
4-23StorageLevel中常见的存储级别
4-24SparkConf对象详解
4-25广播变量深入讲解
4-26Accumulator累加器详解
4-27StatusTracker Spark作业运行状态监控
第5章pyspark之SparkSQL入门到精通
5-1pyspark之SparkSQL模块介绍
5-2SparkSession编程入口
5-3掌握创建DataFrame的8种方式
5-4range和udf用户自定义函数讲解
5-5agg聚合方法及数据缓存方法cache的讲解
5-6colRegex及corr计算皮尔森相关系数
5-7crossJoin笛卡尔积和cube多维数据立方体
5-8explain、dropna及filter和where算子详
5-9groupBy、intersect、join方法详解
5-10rollup、replace和randomSplit方法讲解
5-11summary统计方法及toPandas转换为Pandas对
5-12GroupedData 对象
5-13DataFrame中的Column对象(上)
5-14DataFrame中的Columns对象(下)
5-15Catalog对象详解
5-16Row对象详解
5-17DataFrameNaFunctions空数据处理方法集合
5-18DataFrameStatFunctions统计模块详解
5-19DataFrameReader读取外部数据生成DF
5-20DataFrameWriter将DF数据写入外部存储
5-21types 类型详解
5-22functions 函数模块详解
第6章PySpark 机器学习模块
6-1本地密集、稀疏向量和LabeledPoint向量
6-2本地矩阵和四种分布式矩阵
6-3Statistics基本的统计方法
6-4假设检验、随机数据的生成和核密度估计
6-5Piplines构建机器学习工作流
6-6TF-IDF词频你文档数和Word2vec词向量表示
6-7CountVectorizer和Tokenizer和正则特征
6-8PCA主成分分析、多项式核函数扩展特征空间、数据正则化、特征
6-9分桶器、向量组合器、SQL转换器及元素放缩器
6-10特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器
6-11逻辑回归算法、原理、公式推导及二分类和多分类实践
6-12完全理解L1,L2正则化及其作用
6-13决策树算法原理、随机深林、梯度提升树代码实践
6-14多层感知机分类算法
6-15SVM支持向量机分类算法
6-16OneVsRest多分类算法
6-17Naive Bayes 朴素贝叶斯分类器
6-18Linear Regression线性回归
6-19GLMs广义线性模型
6-20回归树
6-21K-Means聚类算法
6-22二分K均值算法
6-23GMM高斯混合模型
6-24基于ALS交替最小二乘法的协同过滤推荐算法电影推荐实践
6-25FP-Growth频繁项集推荐算法
6-26超参数网格搜索
|