大数据平台搭建与高性能计算最佳实战培训班其它上课时间:
培训对象:
对此课程感兴趣的学员
培训内容:
课程大纲:
第一天
上午
大数据技术基础
1.大数据的产生背景与发展历程
2.大数据的4V特征,以及与云计算的关系
3.大数据应用需求以及潜在价值分析
4.业界最新的大数据技术发展态势与应用趋势
5.大数据项目的系统与技术选型,及落地实施的挑战
6.互联网+时代下的电子商务、制造业、零售批发、电信运营商、互联网金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍
业界主流的大数据技术方案
1.大数据软硬件系统全栈与关键技术介绍
2.主流的大数据解决方案介绍
3.Apache大数据平台方案剖析
4.CDH大数据平台方案剖析
5.HDP大数据平台方案剖析
6.大数据解决方案与传统数据库方案比较
大数据计算模型(一)批处理MapReduce
1.MapReduce产生背景与适用场景
2.MapReduce计算模型的基本原理
3.MapReduce作业执行流程
4.MapReduce基本组件,JobTracker和TaskTracker
5.MapReduce高级编程应用,Combiner和Partitioner
6.MapReduce性能优化技巧
7.MapReduce案例分析与开发实践操作
第一天
下午
大数据存储系统与应用实践
1.分布式文件系统HDFS产生背景与适用场景
2.HDFSmaster-slave系统架构与工作原理
3.HDFS核心组件技术讲解
4.HDFS高可用保证机制
5.HDFS集群的安装、部署与配置,熟练HDFSshell命令操作
6.分布式小文件存储系统的平台架构、核心技术与应用场景
7.分布式对象存储系统的平台架构、核心技术与应用场景
Hadoop框架与生态发展,以及应用实践操作
1.Hadoop的发展历程
2.Hadoop大数据生态圈系统与工具全貌介绍
3.Hadoop1.0的核心组件与适用范围
4.Hadoop2.0的核心组件YARN工作原理,以及与Hadoop1.0的区别
5.Hadoop资源管理与作业调度机制
6.Hadoop常用性能优化技术
7.Hadoop集群安装与部署实践,以及MapReduce程序在YARN上执行
第二天
上午
大数据计算模型(二)实时处理/内存计算Spark
1.MapReduce计算模型的瓶颈
2.Spark产生动机、基本概念与适用场景
3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制
4.Spark实时处理平台运行架构与核心组件
5.Spark容错机制
6.Spark作业调度机制
7.Scala开发介绍与实践
8.Spark集群部署与配置实践,Spark开发环境构建,Spark案例程序分析,Spark程序开发与运行,Spark与Hadoop集群集成实践
第二天
下午
大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践
1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
2.Hive数据仓库的平台架构与核心技术剖析
3.Hivemetastore的工作机制与应用
4.Hive数据仓库实践:Hive集群安装部署,数据仓库表导入导出与分区操作,HiveSQL操作,Hive客户端操作
5.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
6.SparkSQL实时数据仓库的实现原理与工作机制
7.SparkSQL应用分析与操作实践
8.基于MPP的大型分布式数据仓库Impala基础知识与应用场景
9.Impala实时查询系统平台架构、关键技术剖析
Hadoop集群运维监控工具
1.Hadoop大数据运维监控管理系统HUE平台介绍
2.Hadoop运维管理监控系统Ambari工具介绍
3.第三方运维系统与工具Ganglia,Nagios
第三天
上午
大数据计算模型(三)流处理Storm,SparkStreaming
1.流数据处理应用场景与流数据处理的特点
2.流数据处理工具Storm的平台架构与集群工作原理
3.Storm关键技术与并发机制
4.Storm编程模型与基本开发模式
5.Storm数据流分组
6.Storm可靠性保证与Acker机制
7.Storm应用案例分析与实践:Storm集群安装部署,Storm程序开发运行操作实践,Storm与Hadoop集群的集成
8.流数据处理工具SparkStreaming基本概念与数据模型
9.SparkStreaming工作机制
大数据ETL操作工具,与大数据分布式采集系统
1.Hadoop与DBMS之间数据交互工具的应用
2.Sqoop导入导出数据的工作原理,以及Sqoop工具的安装部署与实践操作,利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互
3.Flume-NG数据采集系统的数据流模型与系统架构
4.Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式
第三天
下午面向OLTP型应用的NoSQL数据库及应用实践
1.关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围
2.列存储NoSQL数据库HBase简介与数据模型剖析
3.HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用
4.HBase表设计模式与primarykey设计规范
5.HBase分布式集群安装、部署与操作实践
6.文档NoSQL数据库MongoDB简介与数据模型剖析
7.MongoDB集群模式、读写机制与常用API操作
8.Cassandra分布式数据库的平台架构以及关键技术
9.Cassandra一致性哈希算法与数据分布策略,以及NWR策略
10.键值型NoSQL数据库Redis简介与数据模型剖析
11.Redis多实例集群架构与关键技术
12.NewSQL数据库技术简介及其适用场景
大数据项目选型、实施、优化等问题交流讨论
大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论
第四天学习考核与业内经验交流
培训师介绍:
钟老师
现任职于中科院某研究所,高级工程师,副高职称,博士毕业于中国科学院计算技术研究所,获工学博士学位(计算机系统结构方向)。
大数据、云计算、移动互联网系列课程建设与教学专家。
近七年来带领团队主要从事大数据与云计算技术项目的研发与IT项目管理工作。
钟老师有着多年的企业内训和公开课培训讲师经历,主讲大数据平台技术、云计算、移动互联网、电子商务、IT信息软件项目管理、企业信息化规划与管理、IT战略规划与企业架构、数据中心主机规划与IDC系统运营等企业实战类培训课程。
钟老师将原理技术剖析和应用实战相结合的授课风格受到广大学员的欢迎。