培训内容:
课程收益:
本课程讲解了Machine Learning on Spark方方面面的内容,从算法解析与实现、到算法的使用、再到算法的源码解析,以及算法的性能优化等问题
培训颁发证书:
结业证书
课程大纲:
第一天第1堂课:Spark编程模型
RDD
transformation
action
persist&checkpoint
lineage
宽依赖与窄依赖
第2堂课:深入Spark内核
Spark集群
任务调度
DAGScheduler
TaskScheduler
Master内部揭秘
Task内部揭秘
第3堂课:广义线性模型详解与实战
逻辑回归
线性回归
SVM
LASSO
岭回归
广义线性模型代码及示例
第4堂课:推荐算法及系统详解与实战
ALS算法
奇异值分解
Mahout与MLlib的对比分析
推荐系统的搭建示例
第二天第5堂课:聚类算法详解与实战
k-means
LDA
高斯混合模型
Power Iteration聚类
聚类算法应用示例
第6堂课:流式机器学习详解与实战
Lambda架构
参数服务器
from Freeman labs提供的流式算法
应用示例
第7堂课:机器学习流水线详解与实战
Scikit-learn的流水线(包括Pandas等对比)
Spark的流水线(如Data以及ML组件)
特征提取与变换
应用示例及对比
第8堂课:机器学习中的科学计算详解与实战
矩阵计算中的注意事项
矩阵计算的组件(in C/Fortran and Java)
MLlib中的矩阵计算
MLlib中的统计方法
培训师介绍:
王老师:Spark、Docker、Android技术中国区布道师。
Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术领域集大成者。
当今云计算领域最火爆的技术Docker源码级专家和Docker技术在中国的最早实践者之一。
Cassandra和H技术在中国的最早实践者之一。
在Spark、Hadoop、Android、Docker等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到1.1.0共18个版本的Spark源码。Spark最佳畅销书《大数据spark企业级实战》作者,电子书《Spark GraphX大规模图计算和图挖掘》、《Spark实战高手之路》的作者,从2014年6月24日开始,在网上开启了免费的Spark公开课《决胜大数据时代Spark100期公益大讲堂》。
Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;
国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。
多款浏览器定制者,中国大陆HTML5的技术引领者。