热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于Hadoop离线大数据分析平台项目实战

Had
基于Hadoop离线大数据分析平台项目实战 
课程学习入口:http://www.xuetuwuyou.com/course/184
课程出自学途无忧网:http://www.xuetuwuyou.com


课程简介:
某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。
 

课程内容
(1)文件收集框架 Flume
①Flume 设计架构、原理(三大组件)
②Flume 初步使用,实时采集数据
③实际案例:使用Flume监控数据,实时收集存储HDFS中

(2)大数据分析平台架构
①数据平台三大模块
让技术产生价值!
②分析平台业务数据
③大数据平台技术选型和搭建配置测试

(3)数据分析平台七大业务分析
①具体的七大业务分析,针对不同的数据
②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用
④数据处理时,针对不同问题如何优化调整等


 
课程目录:
第1章:大数据离线项目:企业大数据项目业务及设计
1.大数据项目的开发流程  
2.大数据的应用领域(一)
3.大数据的应用领域(二) 
4.大数据分析平台(一) 
5.大数据分析平台(二)
6.数据量及集群规模的规划(一) 
7.数据量及集群规模的规划(二) 
8.企业常见数据分析需求(一) 
9.企业常见数据分析需求(二) 

第2章:大数据离线项目:数据采集框架Flume
10.Flume的介绍及其架构组成 
11.Flume的安装部署
12.Flume的测试运行 
13.Flume中配置使用file channel及HDFS sink
14.Flume中配置HDFS文件生成大小及时间分区 
15.Flume中配置Spooling Dir的使用 
16.Flume中配置Spooling Dir的文件过滤 
17.Flume中配置扇入架构的介绍 
18.Flume中配置扇入架构的测试实现 
19.Flume中配置扇出架构的实现 
20.Flume中Taildir的介绍及编译 
21.Flume中Taildir的配置及测试使用 

第3章:大数据离线项目:Nginx+Flume实现数据采集
22.项目技术架构介绍 
23.项目技术架构图
24.项目中框架的技术选型 
25.Tengine的介绍及源码编译 
26.Tengine的启动及测试 
27.配置使用service命令管理nginx服务
28.SDK与Nginx关联测试
29.SDK的设计思路及重要事件类型的介绍 
30.JS SDK 与 JAVA SDK的代码实现 
31.Nginx中配置自定义收集方案 
32.Flume进行数据采集 
33.Flume的负载均衡及故障转移及美团的使用案例 

第4章:大数据离线项目:ETL的业务分析及实现(一)
34.Nginx日志分割脚本的实现(一) 
35.Nginx日志分割脚本的实现(二) 
36.Nginx日志上传脚本的实现 
37.ETL的流程分析 
38.数据分析项目的导入 
39.日志解析类的实现(一) 
40.日志解析类的实现(二) 
41.日志解析类的实现(三) 
42.日志解析类的实现(四) 
43.ETL具体代码流程分析 
44.项目中Hbase表的设计 

第5章:大数据离线项目:ETL的业务分析及实现(二)
45. ETL的Map类的实现(一) 
46.ETL的Map类的实现(二) 
47.ETL的Driver类的实现(一)
48. ETL的Driver类的实现(二) 
49.ETL的Driver类的实现(三) 
50.ETL的本地运行测试 
51. ETL的集群运行测试

第6章:大数据离线项目:数据分析的思路及代码实现
52.新增访客的统计分析实现思路(一) 
53.新增访客的统计分析实现思路(二) 
54.使用MapReduce实现思路分析 
55.Hbase中值和字段的过滤(一) 
56.Hbase中值和字段的过滤(二) 
57.Hbase中值和字段的过滤(三) 
58.新增用户统计Map代码的实现(一) 
59.新增用户统计Map代码的实现(二) 
60.新增用户统计Map代码的实现(三) 
61.新增用户统计Reduce及Driver代码的实现(一)
62.新增用户统计Reduce及Driver代码的实现(二) 

第7章:大数据离线项目:Hourly分析及可视化展示
63.MapReduce中自定义输入输出 
64.新增用户统计代码的讲解(一) 
65.新增用户统计代码的讲解(二) 
66.hourly分析-hbase与hive的集成 
67.hourly分析-活跃用户的分析 
68.hourly分析-会话长度的分析 
69.hourly分析-平均访问时长分析及sqoop导出 
70.使用zeus实现项目任务调度(一) 
71.使用zeus实现项目任务调度(二) 
72.使用zeus实现项目任务调度(三) 
73.使用zeus实现项目任务调度(四) 
74.数据展示层及Highcharts的使用讲解(一) 
75.数据展示层及Highcharts的使用讲解(二) 
76.项目总结(一) 
77.项目总结(二) 



hadoop课程整合推荐:

跟轩宇老师学习大数据基础框架Hadoop
课程观看地址:http://www.xuetuwuyou.com/course/193

Hadoop架构设计与源码分析
课程观看地址:http://www.xuetuwuyou.com/course/88

Hadoop实战+超大集群调优 
课程观看地址:http://www.xuetuwuyou.com/course/97

Hadoop零基础高端实战培训(CDH5、hive、Sqoop) 
课程观看地址:http://www.xuetuwuyou.com/course/62

基于Hadoop离线大数据分析平台项目实战


推荐阅读
  • 目录结构如下:Nginx基础知识NginxHTTP服务器的特色及优点Nginx的主要企业功能Nginx作为web服务器的主要应用场景包括:Nginx的安装安装环境 ... [详细]
  • 高并发网站架构的核心原则其实就一句话“把所有的用户访问请求都尽量往前推“,即:能缓存在用户电脑本地的,就不要让他去访问CDN。能缓存CDN服务器上的,就不要让CDN去访问源(静态服 ... [详细]
  • nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Java开发框架!Alibaba高并发业务秒杀系统落地实战文档,砥砺前行!
    接口概述:接口是Java语言中的一种引用类型,是方法的集合,所以接口的内部主要就是定义方法,包含常量,抽象方法(JDK ... [详细]
  • 以SOA服务为导向的信息系统构建是通过有计划地构建信息系统时,一种简单而有柔性的方法,就是组件化与服务导向架构。过去的信息系统,是在使用者需要新功能时才开发的,也就是响应不同时 ... [详细]
  • ASP.NET Core WebAPI 开发新建WebAPI项目  转
    转 http:www.cnblogs.comlinezerop5497472.htmlASP.NETCoreWebAPI开发-新建WebAPI项目ASP.NETCoreWebAPI ... [详细]
  • C#设计模式(8)——桥接模式(Bridge Pattern)
    原文地址:http:www.cnblogs.comzhilipBridgePattern.html原文作者:Learninghard原文出处:博客园一、引言 ... [详细]
  • #usernobody;worker_processes1;#error_loglogserror.log;#error_loglogserror.lognotice;#error ... [详细]
  •  在使用PHP多年之后,我对PHP的优势和劣势已经非常清楚,与后起之秀Golang相比,两者已经不在一个重量级。 PHP更像是70kg级别的选手,脚本语言,极速开发,部署方便,性能 ... [详细]
  • 章作者:luxianghao文章来源:http:www.cnblogs.comluxianghaop6807081.html 转载请注明,谢谢合作。免责声明:文章内容仅代表个人观点 ... [详细]
  • ​如何设计一个安全可靠的 API 接口?
    作者|阿文责编|屠敏出品|CSDN(ID:CSDNnews)最近几年,随着RESTfulAPI开始风靡,使用H ... [详细]
  • 4种分布式Session的实现方式!老大直呼666...
    前言公司有一个Web管理系统,使用Tomcat进行部署。由于是后台管理系统,所有的网页都需要登录授权之后才能进行相应的操作。起初这个系统的用的人也不多& ... [详细]
  • 将android-support-multidex.jar放到libs下然后编译,出现如下错误:Error:Executionfailedfortask':app:pack ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • DDOSDDOS的中文名叫分布式拒绝服务***,俗称洪水***DDoS***概念DoS的***方式有很多种,最基本的DoS***就是利用合理的服务请求来 ... [详细]
author-avatar
金燁欣_973
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有