一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍 )
本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop/Yarn分布式文件系统DFS;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop/Yarn集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 云计算及大数据处理技术介绍
第二讲 Google的关键技术
第三讲 Hadoop系统及HDFS
第四讲 MapReduce计算模型设计
第五讲 Pig 数据流处理工具
第六讲 云数据仓库Hive
第七讲 HBase和NoSQL
第八讲 数据抽取工具Sqoop
第九讲 Hadoop与其他云数据处理技术的融合
二、大数据实时处理–基于Spark的大数据实时处理及应用技术
课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。
第一讲 Spark大数据实时处理技术
第二讲 Spark安装配置及监控
第三讲 Scala编程语言使用概述
第四讲 Spark分布式计算框架
第五讲 Spark内部工作机制详解
第六讲 Spark数据读取与存储
第七讲 Spark通信模块和容错机制
第八讲 SQL On Spark
第九讲 Spark流数据处理工具Streaming
第十讲 Spark中的大数据挖掘工具MLlib
第十一讲 Spark大规模图处理工具GraphX
第十二讲 Spark与其他大数据技术的融合与应用
三、Storm大数据流式处理技术
本课程从大数据流式处理技术以及Storm实战的角度,理论和实践相结合,全方位地介绍Storm大数据流式处理工具的原理和内核。以案例分析的方式来帮助学员了解如何用BDAS系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 Storm大数据处理介绍
第二讲 Storm配置和容错机制
第三讲 Storm可靠性及消息传输
第四讲 Storm拓扑及流分组
第五讲 Spout和Bolt详解
第六讲 分布式DPRC
第七讲 Storm事务拓扑
第八讲 Storm中的Trident
第九讲 Trident的状态
第十讲 Storm企业应用
四、大数据分布式存储系统
在大数据时代,很多企业的数据都是逐步积累的,这就要求存储系统有很好的横向扩展能力;而要对传统存储设备进行横向扩展,会带来很高的成本,但是分布式存储却能够比较好的解决这样的问题。
第一讲 分布式存储系统概述
第二讲 大数据集(超大文件)存储
第三讲 海量小文件存储
第四讲 分布式存储技术发展新动向和趋势
五、大数据前沿技术分析与应用
大数据相关技术最近几年出现了井喷的趋势,众多技术纷纷出现,典型的系统包括Hadoop、Spark、Flume、Scribe、Kafka、Storm、Mahout、MLlib、Docker等,涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,涉及离线批处理、实时处理、流式处理等多种处理方式。这些技术解决不同的应用需求,涉及面广,技术要求高,交叉知识范围广,知识内容更新频繁,要理清其中的关系,从中发现最适合本机构的技术,成为了目前各机构技术专家的一个难点。
第一讲 大数据技术基础
第二讲 批处理大数据平台Hadoop
第三讲 实时大数据平台Spark
第四讲 流式大数据平台Storm
第五讲 Python网络爬虫
第六讲 大数据日志采集工具Flume
第七讲 分布式消息订阅工具Kafka
第八讲 NoSQL云数据处理工具
第九讲 大数据中的SQL工具
第十讲 大数据分析挖掘工具
第十一讲 资源虚拟化工具Docker
第十二讲 大数据技术展望
六、数据仓库与数据挖掘(结合SPSS和WEKA)
本课程重在突出数据仓库与数据挖掘决策支持的本质,介绍数据挖掘的各种方法、技术实现手段,通过对实例的深入剖析解释它们的原理。
第一讲 数据仓库原理及联机分析技术介绍
第二讲 数据仓库设计与开发
第三讲 基于数据仓库的决策支持系统
第四讲 数据仓库案例剖析
第五讲 数据挖掘与知识发现
第六讲 关联分析算法及其案例
第七讲 聚类分析算法及其案例
第八讲 其它数据挖掘算法介绍
七、Python和R数据挖掘技术-基于Python和R语言的数据挖掘和统计分析技术
本课程将对基于Python和R语言进行数据处理、数据探索的基本方法,利用R语言实现模型选择、Logistic回归及决策树算法,以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。
第一讲 数据挖掘,Python和R简介
第二讲 数据的导入与导出
第三讲 数据可视化展现
第四讲 决策树与随机森林
第五讲 回归分析
第六讲 聚类分析
第七讲 离群点检测
第八讲 时间序列分析
第九讲 关联规则
第十讲 社交网络分析
八、大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘(含Spark、Storm和Docker应用介绍 )
本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍Mahout和 MLlib等大数据挖掘工具的开发技巧。本课程涉及的主题包括:大数据挖掘及其背景,Mahout和 MLlib大数据挖掘工具,推荐系统及电影推荐案例,分类技术及聚类分析,以及与流挖掘和Docker技术的结合,分析了大数据挖掘前景分析。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Mahout和 MLlib挖掘工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 大数据挖掘及其背景
第二讲 MapReduce/DAG计算模式
第三讲 云挖掘工具Mahout/MLib
第四讲 推荐系统及其应用开发
第五讲 分类技术及其应用
第六讲 聚类技术及其应用
第七讲 关联规则和相似项发现
第八讲 流数据挖掘相关技术
第九讲 云环境下大数据挖掘应用
九、Spark大数据挖掘工具MLlib实战(机器学习)
本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如:聚类、分类、回归等算法。讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习和大数据挖掘方法。
第一讲 Spark大数据实时处理技术