班级规模及环境--热线:4008699035 手机:15921673576( 微信同号) |
每期人数限3到5人。 |
上课时间和地点 |
上课地点:【上海】:同济大学(沪西)/新城金郡商务楼(11号线白银路站) 【深圳分部】:电影大厦(地铁一号线大剧院站)/深圳大学成教院 【北京分部】:北京中山学院/福鑫大楼 【南京分部】:金港大厦(和燕路) 【武汉分部】:佳源大厦(高新二路) 【成都分部】:领馆区1号(中和大道) 【沈阳分部】:沈阳理工大学/六宅臻品 【郑州分部】:郑州大学/锦华大厦 【石家庄分部】:河北科技大学/瑞景大厦 【广州分部】:广粮大厦 【西安分部】:协同大厦
最近开课时间(周末班/连续班/晚班):2020年3月16日 |
实验设备 |
☆资深工程师授课
☆注重质量
☆边讲边练
☆合格学员免费推荐工作
★实验设备请点击这儿查看★ |
质量保障 |
1、培训过程中,如有部分内容理解不透或消化不好,可免费在以后培训班中重听;
2、培训结束后,授课老师留给学员联系方式,保障培训效果,免费提供课后技术支持。
3、培训合格学员可享受免费推荐就业机会。 |
课程大纲 |
课程特点
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。
目标收益
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
学员基础
了解Linux系统及相关语言环境
课程大纲
主题内容
Hadoop简介和生态系统介绍传统大规模数据分析存在的问题
Hadoop概述
Hadoop与分布式文件系统
Hadoop生态系统
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系
Hadoop版本介绍
Hadoop与Google FS的关系
Hadoop在国内的使用情况和未来
Hadoop安装和主要配置文件介绍Hadoop安装所需软件介绍
Hadoop单机安装
Hadoop伪分布式安装
Hadoop完全分布式安装
Hadoop三个节点安装的配置介绍
Hahoop多节点ssh配置
Hadoop格式化详解
Hadoop核心配置文件介绍
核心配置文件core-site.xml
HDFS配置文件hdfs-site.xml
Mapreduce配置文件mapred-site.xml
master文件配置详解
slave文件配置详解
Hadoop启动和停止方法一
—start-all.sh详解
—stop-all.sh详解
Hadoop的启动和停止方法二
—hadoop-deamon.sh详解
Hadoop安装的常见错误介绍和解决方案
使用自带的wordcount和pi测试集群安装是否成功
使用Streaming来测试集群安装是否成功
Hadoop组件介绍Hadoop NameNode 介绍
Hadoop SecondaryNameNode 介绍
Hadoop DataNode 介绍
Hadoop JobTracker 介绍
Hadoop TaskTracker 介绍
Hadoop的HDFS模块HDFS架构介绍
HDFS原理介绍
NameNode功能详解
DataNode功能详解
SecondaryNameNode功能详解
HSFD的fsimage和editslog详解
HDFS的block详解
HDFS的block的备份策略
Hadoop的机架感知配置
HDFS的shell命令介绍
HDFS的thrift server服务介绍
HDFS的API接口介绍
HDFS的权限详解
Hadoop的客服端接入案例
MapReducer入门Mapreduce原理
MapReduce流程
剖析一个MapReduce程序
Mapper和Reducer抽象类详解
Mapreduce的最小驱动类
MapReduce自带的类型
自定义Writables和WritableComparables
Mapreduce的输入InputFormats
MapReduce的输出OutputFormats
Combiner详解
Partitioner详解
DistributeFileSystem详解
Hadoop Tools工具介绍
Counter计数器详解
自定义Counter计数器
基于Hadoop二次开发实战
MapReduce的优化
Map和Reduce的个数设置
Hadoop小文件优化
任务调度
默认的任务调度
公平任务调度
能力任务调度
使用 Hadoop MapReduce Streaming 编程
MapReduce的单元测试
HiveHive和Pig基础
Hive、Impala和presto的比较
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系
Hadoop/Hive仓库数据数据流
Hive部署和安装
HiveCli的基本用法
Hive的server启动
HQL基本语法
Hive的加载数据本地加载和HDFS加载
Hive的partition详解
Hive的存储方式详解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform详解
Hive的JDBC连接
Sqoop介绍Sqoop是什么
Sqoop安装
Sqoop把mysql数据导入HDFS
Sqoop把HDFS数据导入Mysql
Sqoop吧Mysql数据导入Hive
Sqoop吧Mysql数据导入Hive分区
Hadoop集群配置和维护Hadoop集群的部署要点
NameNode和SecondaryNameNode和JobTracker机器的配置要求
dataNode与tasktracker机器的配置要求
Hadoop集群管理的工具介绍
Ganglia和nigos监控Hadoop集群介绍
Ambri介绍
添加和删除节点演示
Namenode的单点解决方案
NameNode的NFS备份介绍
集群所有dataNode挂掉的故障介绍
集群NameNode的fsimage丢掉恢复方法
Hadoop集群维护的注意点
Hbase使用Hbase原理
Hmaster详解
RegionServer详解
Zookeeper介绍
Hbase安装
Hbase逻辑视图介绍
Hbase物理视图介绍
Hbase的二级索引介绍
Hbase的DDL和DML
Hbase表的设计案例
Hbase的import功能介绍
MapReduce操作Hbase
Hbase的thriftServer介绍
Hbase的API介绍
Hbase使用场景介绍
Hbase案例分析
大数据在国内的运用大数据在国内的使用介绍
离线计算框架介绍
流式计算框架介绍
内存计算框架介绍
内存流式计算介绍
大数据实时请求框架介绍
大数据在移动的案例介绍
大数据在银行的案例介绍
大数据在阿里的案例介绍
Spark生态介绍Spark产生背景
Spark(内存计算框架)
SparkSteaming(流式计算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel将被代)
spark安装部署Spark安装简介
Spark的源码编译
SparkStandalone安装
SparkStandaloneHA安装
Spark应用程序部署工具spark-submit
Spark运行架构和解析Spark的运行架构
基本术语
运行架构
SparkonStandalone运行过程
SparkonYARN运行过程
Spark运行实例解析
SparkonStandalone实例解析
SparkonYARN实例解析
SparkSQL原理和实践SparkSQL原理
SparkSQL的Catalyst优化器
SparkSQL内核
SparkSQL和Hive
SparkSQL的实例和编程
SparkSQL的实例操作demo
SparkSQL的编程 |
|
|
|
|
|
|