热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java网站pv_javamapreduce实现网站PV分析

原文链接:PV是PageViews的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页

原文链接:

PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。

我们目前的数据是:

7797822206f0cbdd527970382adbaa41.png

其中的数据我们会得到标注

40882b703ba0004316cb5fb861404989.png

根据标注我们进行代码筛选,编写MapReduce

分析:我们先根据标注的表中有一个"省份"的字段,依据"省份"编写map。

首先我们创建Maven项目

333d0d103601c917466cfd6c99688a98.png

填写pom信息

a5c6a07e5aaf294f29a53756bd995f45.png

982e6efaf179ca55f31cbf116e57fbd0.png

824669b8bb04576b72bd26ba06416d67.png

创建Map类

d313daf8a1a343474cbdee148ce43c45.png

基本结构如下:

0e58df429ddb786dcd12033ad66edc3e.png

我们需要对原数据进行筛选

长度筛选

f38133b67fcfa144b492f346f5672b36.png

省份编号是空值

2e3df2eff906abeb235ed8640f984f4d.png

确保数字编号是否是数字

2adfd33bd1b8c4ea669f7e366ee575e4.png

筛选URL是否为空值

6c134bc2fb466cab833d4bd92ae94931.png

创建Reduce类

093dd97626540def480ca21f073352e2.png

编写内容

52605a9bd746da353c14ebe17700d29b.png

创建运行类

3aae17681e3f82b8db7f987d1cf3ae9a.png

编写程序内容

d1e261de70f710da69d334b006e22ac6.png

准备数据源文件和Jar包

7ce2cc2fefac2f5860ce81b7fbdc5d29.png

启动Hadoop

d88b447d8b022be1f675c352e43630bc.png

我们将数据上传到HDFS中

64a49ed53b7e881d5bc5edd5120b7e41.png

我们查看下数据,发现数据已经上传了

d6c0471d2b4038ece613ff034cbf5863.png

我们执行我们的jar包

yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput

f2f71c21f323bff20ce6fd86eef9681a.png

执行成功

e109dfa319322c435ea47b51b562b341.png

我们查看生成的数据,已经生成了,我们查看下最终数据

d981d0fd7398371079a06c9537685b47.png

这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了

abe8d9fe302e698cc41d40fdaae844fd.png



推荐阅读
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • hadoop完全分布式搭建
    原文链接:hadoop完全分布式搭建主机分配以及地址要求:角色主机名IP地址Namenodemaster192.168.222.201Datanodeslave ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • FileBeat + Flume + Kafka + HDFS + Neo4j + SparkStreaming + MySQL:【案例】三度关系推荐V1.0版本11:每周一计算最近一月主播视频评级
    一、数据计算步骤汇总下面我们通过文字梳理一下具体的数据计算步骤。第一步:历史粉丝关注数据初始化第二步:实时维护粉丝关注数据第三步:每天定 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
  • 【clienteclipse集群提交运行】:客户端eclipse集群提交mapreduce代码1.需求:在master:8088上,有客户 ... [详细]
  • 工作原理_一文理解 Spark 基础概念及工作原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了一文理解Spark基础概念及工作原理相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 1、概述hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候࿰ ... [详细]
author-avatar
吴佳云怡婷志贤
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有