热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据实时处理基于Spark的大数据实时处理及应用技术培训

随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,对大数据的分析已经成为

随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据

的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark。Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,***的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS、Hive等分布式存储层,可融入Hadoop的生态系统,以弥补缺失MapReduce的不足,事实上已成为当前互联网企业主流的大数据实时处理工具。为解决广大系统设计人员深入研究与开发大数据实时处理的需要,特举办“大数据实时处理-基于Spark的大数据实时处理及应用技术”培训班。
 
    培训要点
 
    互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据实时分析的决策模型和技术支持。
 
    大数据通常具有:数据体量(Volume)巨大,数据类型(Variety)繁多,价值(Value)密度低,处理速度(Velocity)快等四大特征。Google发布的GFS和MapReduce等高可扩展、高性能的分布式大数据处理框架,证明了在处理海量网页数据时该框架的优越性。在此基础上,Apache Hadoop开源项目开发团队,克隆并推出了Hadoop/Yarn系统。该系统已受到学术界和工业界的广泛认可和采纳,并孵化出众多子项目(如Hive,Zookeeper和Mahout等),日益形成一个易部署、易开发、功能齐全、性能优良的系统。
 
    近年来以Berkley牵头设计的Spark/BDAS技术,实现了内存级别的分布式处理模式,使用户无需关注复杂的内部工作机制,无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统的部署与大数据的并行处理。
 
    Spark生态系统(BDAS项目)已经发展成一个,包含多个子项目的集合,包括Spark SQL、Spark Streaming、GraphX、MLlib等,本课程从大数据实时处理技术以及Spark实战的角度,结合理论和实践,全方位地介绍Spark大数据实时处理工具的原理和内核,包括Spark大数据计算框架、运行架构、设计模型和数据管理策略,及Spark在业界的应用。
 
    课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。
 
    本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。
 
    本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论Spark解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践研究,以加深对于这些解决方案的理解。通过本课程学习,希望推动Spark实时大数据处理开发上升到一个新水平。
 
培训目标
 
1, 全面了解大数据实时处理技术的相关知识。
 
2,学习Spark的核心技术方法以及应用特征。
 
3,深入使用Spark在大数据实时处理中的使用。
 
4,掌握BDAS相关工具及其主要功能。
 

 

 

课程大纲

 

第一讲、Spark大数据实时处理技术

 
1)大数据处理技术
 
2)Spark实时处理技术
 
3)Spark生态系统BDAS
 
4)Spark架构分析
 
第二讲、 Spark安装配置及监控
 
1)Ubuntu环境的准备
 
2)Hadoop2.X和Scala
 
3)搭建Spark开发环境
 
4)Idea编译和运行
 
5)Spark监控管理
 
第三讲、 Scala编程语言使用概述
 
1) Scala编程语言
 
2) 基本数据类型
 
3) 操作基本数据类型
 
4) 类和对象
 
5) 组合和继承
 
第四讲、 Spark分布式计算框架
 
1)Spark计算模型
 
2)弹性分布式数据集RDD
 
3)Spark的数据存储
 
4)Transformation算子分类及功能
 
5)Actions算子分类及功能
 
第五讲、 Spark内部工作机制详解
 
1)Spark底层实现原理
 
2)Spark应用执行机制
 
3)Spark调度与任务分配模块
 
4)FIFO和FAIR调度算法
 
第六讲、 Spark数据读取与存储
 
1)Spark的I/O机制
 
2)Spark中的数据压缩
 
3)Spark的数据读取与存储
 
4)Spark数据读写流程
 
第七讲、 Spark通信模块和容错机制
 
1)Spark通信模块
 
2)通信框架AKKA
 
3)容错机制和Lineage依赖
 
4)检查点机制进行容错
 
5)Shuffle过程
 
第八讲、SQL On Spark
 
1) BDAS数据分析软件栈
 
2) SQL On Spark
 
3) Spark SQL工具使用
 
4) Shark工具使用
 
5) Hive on Spark工具
 
6) Spark操作HBase中的数据
 
第九讲、 Spark流数据处理工具Streaming
 
1)流数据处理工具Streaming
 
2) Spark Streaming架构
 
3) Spark Streaming原理
 
4) Spark Streaming实例
 
第十讲、Spark中的大数据挖掘工具MLlib
 
1)大数据挖掘工具MLlib
 
2)MLlib的数据存储
 
3)MLlib中的聚类和分类
 
4)MLlib算法应用实例
 
5)利用MLlib进行推荐
 
第十一讲、 Spark大规模图处理工具GraphX
 
1)大规模图处理工具GraphX
 
2)GraphX的运行架构
 
3)GraphX操作使用
 
4)GraphX使用实例
 
第十二讲、 Spark与其他大数据技术的融合与应用
 
1)与Hadoop/Yarn集群应用的协作
 
2)与Docker等其它云工具配合
 
3)Spark在Yahoo!的应用
 
4)Spark在电商中的应用
 

 

 

课程主讲

 

由业界知名云计算专家亲自授课:

 
杨老师   主要研究网络信息分析以及云计算相关技术,长期从事数据仓库、数据挖掘以及大数据分析技术研究,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
 

 

 

课程对象

 

1,系统架构师、系统分析师、高级程序员、资深开发人员。

 
2,牵涉到大数据处理的数据中心运行、规划、设计负责人。
 
3,***机关,金融保险、移动和互联网等大数据来源单位的负责人。
 
4,高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
 
学员基础
 
1,对IT系统设计有一定的理论与实践经验。
 
2,数据仓库与数据挖掘处理有一定的基础知识。
 

 

 
备  注
 

课程费用:5500元/人(含教材、午餐、学习用具等)。

 
收藏本课程会员也收藏了大数据分析应用培训专题

 


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 深入解析Spring Boot源码的序章
    本系列文章旨在深入解析Spring Boot的源代码,分享笔者在学习过程中的心得与体会。内容涵盖核心源码分析,可能会对初学者造成一定理解难度,建议读者结合笔者提供的详细注释进行阅读,以获得更好的学习体验。 ... [详细]
  • 在Android平台中,播放音频的采样率通常固定为44.1kHz,而录音的采样率则固定为8kHz。为了确保音频设备的正常工作,底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时,需要通过重采样(resample)技术来调整采样率,以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • 开机自启动的几种方式
    0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 探讨 jBPM 数据库表结构设计的精要与实践
    探讨 jBPM 数据库表结构设计的精要与实践 ... [详细]
author-avatar
timer_open
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有