热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MapReduce统计每个用户的使用总流量

1、原始数据2、使用java程序1)新建项目2)导包hadoop-2.7.3\share\hadoop\mapreducehsfs的那些包commo

1、原始数据

2、使用java程序

  1)新建项目

  2)导包
  hadoop-2.7.3\share\hadoop\mapreduce

  +hsfs的那些包

  +common

3、写项目

  1)实体类

package com.zy.flow;import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;public class Flow implements Writable{private Text phone;private LongWritable upflow;private LongWritable downflow;private LongWritable sumflow;//这个对象以后要在集群中传输,所以要可序列化//序列化反序列化顺序要一致@Override//反序列化时会调用该方法public void readFields(DataInput in) throws IOException {phone=new Text(in.readUTF());upflow=new LongWritable(in.readLong());downflow=new LongWritable(in.readLong());sumflow=new LongWritable(in.readLong());}@Override//序列化时会调用该方法public void write(DataOutput out) throws IOException {out.writeUTF(phone.toString());out.writeLong(upflow.get());out.writeLong(downflow.get());out.writeLong(sumflow.get());}public Text getPhone() {return phone;}public void setPhone(Text phone) {this.phone = phone;}public LongWritable getUpflow() {return upflow;}public void setUpflow(LongWritable upflow) {this.upflow = upflow;}public LongWritable getDownflow() {return downflow;}public void setDownflow(LongWritable downflow) {this.downflow = downflow;}public LongWritable getSumflow() {return sumflow;}public void setSumflow(LongWritable sumflow) {this.sumflow = sumflow;}public Flow() {}public Flow(Text phone, LongWritable upflow, LongWritable downflow, LongWritable sumflow) {super();this.phone = phone;this.upflow = upflow;this.downflow = downflow;this.sumflow = sumflow;}public Flow(LongWritable upflow, LongWritable downflow, LongWritable sumflow) {super();this.upflow = upflow;this.downflow = downflow;this.sumflow = sumflow;}@Overridepublic String toString() {return upflow+"\t"+downflow+"\t"+sumflow;}}

  2)FlowMap类

package com.zy.flow;import java.io.IOException;import javax.security.auth.callback.LanguageCallback;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class FlowMap extends Mapper{@Overrideprotected void map(LongWritable key, Text value, Mapper.Context context)throws IOException, InterruptedException {//输入的值 value//切分value 寻找有价值的列String[] split = value.toString().split("\t");int length=split.length;//取哪几列split[1] split[length-3] split[length-2]String phone=split[1];Long upflow=Long.parseLong(split[length-3]);Long downflow=Long.parseLong(split[length-2]);Long sumflow=upflow+downflow;//输出context.write(new Text(phone), new Flow(new Text(phone), new LongWritable(upflow), new LongWritable(downflow),new LongWritable(sumflow)));//对象里虽然用不到phone但是要给它赋值,不然序列化时会报空指针异常
}
}

  3)Part(分区)类

package com.zy.flow;
import java.util.HashMap;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;public class Part extends Partitioner {//分区//逻辑自己写
HashMap map = new HashMap();public void setMap(){map.put("135",0);map.put("136", 1);map.put("137",2);map.put("138", 3);map.put("139",4);} @Overridepublic int getPartition(Text key, Flow value, int arg2) {setMap();//从输入的数据中获得电话的前三位跟map对比。决定分到哪个区中String substring = key.toString().substring(0, 3);//例如截取135return map.get(substring)==null?5:map.get(substring);//根据键取值 键135 取出0 //其他号码分到(编号为5)第6个区中
}//在这个逻辑下partition分了6个区,所以以后要指定6个reducetask

}

  4)FlowReduce类

package com.zy.flow;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class FlowReduce extends Reducer{@Overrideprotected void reduce(Text key, Iterable value, Reducer.Context context)throws IOException, InterruptedException {//累加long allup=0;long alldown=0;for (Flow flow : value) {allup+=Long.parseLong(flow.getUpflow().toString());alldown+=Long.parseLong(flow.getDownflow().toString());}long allsum=allup+alldown;context.write(key, new Flow(new Text(key), new LongWritable(allup), new LongWritable(alldown), new LongWritable(allsum)));}}

  5)FlowApp类

package com.zy.flow;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class FlowApp {public static void main(String[] args) throws Exception {//创建配置对象Configuration configuration = new Configuration();//得到job实例Job job = Job.getInstance(configuration);//指定job运行类job.setJarByClass(FlowApp.class);//指定job中的mapperjob.setMapperClass(FlowMap.class);//指定mapper中的输出键和值类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Flow.class);//指定job中的reducerjob.setReducerClass(FlowReduce.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Flow.class);//-----//指定Partitioner使用的类job.setPartitionerClass(Part.class);//指定ReduceTask数量job.setNumReduceTasks(6);//-----//指定输入文件FileInputFormat.setInputPaths(job, new Path(args[0]));//运行时填入参数//指定输出文件FileOutputFormat.setOutputPath(job, new Path(args[1]));//提交作业job.waitForCompletion(true);}}

4、运行

  1)打包

  2)上传到linux

  3)运行

 

转:https://www.cnblogs.com/qfdy123/p/11246635.html



推荐阅读
  • 本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件,并详细解释了 SequenceFile 的结构和用途。 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]
  • Go从入门到精通系列视频之go编程语言密码学哈希算法(二) ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 一、Advice执行顺序二、Advice在同一个Aspect中三、Advice在不同的Aspect中一、Advice执行顺序如果多个Advice和同一个JointPoint连接& ... [详细]
  • 本文通过一个具体的实例,介绍如何利用TensorFlow框架来计算神经网络模型在多分类任务中的Top-K准确率。代码中包含了随机种子设置、模拟预测结果生成、真实标签生成以及准确率计算等步骤。 ... [详细]
  • 本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值,并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等,而不仅仅是判断它们是否为同一个对象。 ... [详细]
  • 在尝试启动Java应用服务器Tomcat时,遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式,并提供了有效的解决方案。 ... [详细]
  • mybatis 详解(七)一对一、一对多、多对多
    mybatis详解(七)------一 ... [详细]
  • RocketMQ 运维监控实践指南
    本文详细介绍了如何实现 RocketMQ 的运维监控,包括监控平台的搭建、常用运维命令及其具体用法。适合对 RocketMQ 监控感兴趣的读者参考。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
author-avatar
丢失的面包树
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有