热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于Hadoop离线大数据分析平台项目实战

Had
基于Hadoop离线大数据分析平台项目实战 
课程学习入口:http://www.xuetuwuyou.com/course/184
课程出自学途无忧网:http://www.xuetuwuyou.com


课程简介:
某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。
 

课程内容
(1)文件收集框架 Flume
①Flume 设计架构、原理(三大组件)
②Flume 初步使用,实时采集数据
③实际案例:使用Flume监控数据,实时收集存储HDFS中

(2)大数据分析平台架构
①数据平台三大模块
让技术产生价值!
②分析平台业务数据
③大数据平台技术选型和搭建配置测试

(3)数据分析平台七大业务分析
①具体的七大业务分析,针对不同的数据
②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用
④数据处理时,针对不同问题如何优化调整等


 
课程目录:
第1章:大数据离线项目:企业大数据项目业务及设计
1.大数据项目的开发流程  
2.大数据的应用领域(一)
3.大数据的应用领域(二) 
4.大数据分析平台(一) 
5.大数据分析平台(二)
6.数据量及集群规模的规划(一) 
7.数据量及集群规模的规划(二) 
8.企业常见数据分析需求(一) 
9.企业常见数据分析需求(二) 

第2章:大数据离线项目:数据采集框架Flume
10.Flume的介绍及其架构组成 
11.Flume的安装部署
12.Flume的测试运行 
13.Flume中配置使用file channel及HDFS sink
14.Flume中配置HDFS文件生成大小及时间分区 
15.Flume中配置Spooling Dir的使用 
16.Flume中配置Spooling Dir的文件过滤 
17.Flume中配置扇入架构的介绍 
18.Flume中配置扇入架构的测试实现 
19.Flume中配置扇出架构的实现 
20.Flume中Taildir的介绍及编译 
21.Flume中Taildir的配置及测试使用 

第3章:大数据离线项目:Nginx+Flume实现数据采集
22.项目技术架构介绍 
23.项目技术架构图
24.项目中框架的技术选型 
25.Tengine的介绍及源码编译 
26.Tengine的启动及测试 
27.配置使用service命令管理nginx服务
28.SDK与Nginx关联测试
29.SDK的设计思路及重要事件类型的介绍 
30.JS SDK 与 JAVA SDK的代码实现 
31.Nginx中配置自定义收集方案 
32.Flume进行数据采集 
33.Flume的负载均衡及故障转移及美团的使用案例 

第4章:大数据离线项目:ETL的业务分析及实现(一)
34.Nginx日志分割脚本的实现(一) 
35.Nginx日志分割脚本的实现(二) 
36.Nginx日志上传脚本的实现 
37.ETL的流程分析 
38.数据分析项目的导入 
39.日志解析类的实现(一) 
40.日志解析类的实现(二) 
41.日志解析类的实现(三) 
42.日志解析类的实现(四) 
43.ETL具体代码流程分析 
44.项目中Hbase表的设计 

第5章:大数据离线项目:ETL的业务分析及实现(二)
45. ETL的Map类的实现(一) 
46.ETL的Map类的实现(二) 
47.ETL的Driver类的实现(一)
48. ETL的Driver类的实现(二) 
49.ETL的Driver类的实现(三) 
50.ETL的本地运行测试 
51. ETL的集群运行测试

第6章:大数据离线项目:数据分析的思路及代码实现
52.新增访客的统计分析实现思路(一) 
53.新增访客的统计分析实现思路(二) 
54.使用MapReduce实现思路分析 
55.Hbase中值和字段的过滤(一) 
56.Hbase中值和字段的过滤(二) 
57.Hbase中值和字段的过滤(三) 
58.新增用户统计Map代码的实现(一) 
59.新增用户统计Map代码的实现(二) 
60.新增用户统计Map代码的实现(三) 
61.新增用户统计Reduce及Driver代码的实现(一)
62.新增用户统计Reduce及Driver代码的实现(二) 

第7章:大数据离线项目:Hourly分析及可视化展示
63.MapReduce中自定义输入输出 
64.新增用户统计代码的讲解(一) 
65.新增用户统计代码的讲解(二) 
66.hourly分析-hbase与hive的集成 
67.hourly分析-活跃用户的分析 
68.hourly分析-会话长度的分析 
69.hourly分析-平均访问时长分析及sqoop导出 
70.使用zeus实现项目任务调度(一) 
71.使用zeus实现项目任务调度(二) 
72.使用zeus实现项目任务调度(三) 
73.使用zeus实现项目任务调度(四) 
74.数据展示层及Highcharts的使用讲解(一) 
75.数据展示层及Highcharts的使用讲解(二) 
76.项目总结(一) 
77.项目总结(二) 



hadoop课程整合推荐:

跟轩宇老师学习大数据基础框架Hadoop
课程观看地址:http://www.xuetuwuyou.com/course/193

Hadoop架构设计与源码分析
课程观看地址:http://www.xuetuwuyou.com/course/88

Hadoop实战+超大集群调优 
课程观看地址:http://www.xuetuwuyou.com/course/97

Hadoop零基础高端实战培训(CDH5、hive、Sqoop) 
课程观看地址:http://www.xuetuwuyou.com/course/62

基于Hadoop离线大数据分析平台项目实战


推荐阅读
  • Linux CentOS 7 安装PostgreSQL 9.5.17 (源码编译)
    近日需要将PostgreSQL数据库从Windows中迁移到Linux中,LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]
  • 本文介绍了如何使用Postman构建和发送HTTP请求,包括四个主要部分:方法(Method)、URL、头部(Headers)和主体(Body)。特别强调了Body部分的重要性,并详细说明了不同类型的请求体。 ... [详细]
  • 本文介绍了Java编程语言的基础知识,包括其历史背景、主要特性以及如何安装和配置JDK。此外,还详细讲解了如何编写和运行第一个Java程序,并简要介绍了Eclipse集成开发环境的安装和使用。 ... [详细]
  • malloc 是 C 语言中的一个标准库函数,全称为 memory allocation,即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域,并返回该区域的起始地址。当无法预先确定内存的具体位置时,可以通过 malloc 动态分配内存。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何解决TS1219:实验性装饰器功能可能在未来版本中更改的问题
    本文介绍了两种方法来解决TS1219错误:通过VSCode设置启用实验性装饰器,或在项目根目录下创建配置文件(jsconfig.json或tsconfig.json)。 ... [详细]
  • 本文介绍了如何查看PHP网站及其源码的方法,包括环境搭建、本地测试、源码查看和在线查找等步骤。 ... [详细]
  • 本文介绍 DB2 中的基本概念,重点解释事务单元(UOW)和事务的概念。事务单元是指作为单个原子操作执行的一个或多个 SQL 查询。 ... [详细]
  • 本文介绍了多种开源数据库及其核心数据结构和算法,包括MySQL的B+树、MVCC和WAL,MongoDB的tokuDB和cola,boltDB的追加仅树和mmap,levelDB的LSM树,以及内存缓存中的一致性哈希。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 我有一个从C项目编译的.o文件,该文件引用了名为init_static_pool ... [详细]
  • Excel 数据分析基础
    Excel 是数据分析中最基本且强大的工具之一,具备多种实用功能和操作方法。本文将简要介绍 Excel 的不同版本及其兼容性问题,并探讨在处理大数据时的替代方案。 ... [详细]
  • EST:西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...
    点击蓝字关注我们编译:祝新宇校稿:鞠峰、袁凌论文ID原名:PathogenicandIndigenousDenitrifyingBacte ... [详细]
  • 本文回顾了作者初次接触Unicode编码时的经历,并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析,帮助读者更好地理解和使用这些编码。 ... [详细]
  • 数字资产量化交易通过大数据分析,以客观的方式制定交易决策,有效减少人为的主观判断和情绪影响。本文介绍了几种常见的数字资产量化交易策略,包括搬砖套利和趋势交易,并探讨了量化交易软件的开发前景。 ... [详细]
author-avatar
金燁欣_973
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有