当前位置: 开发笔记 > 编程语言 > 正文

MapReduce统计每个用户的使用总流量

作者：丢失的面包树 | 来源：互联网 | 2024-09-25 16:08

1、原始数据2、使用java程序1）新建项目2）导包hadoop-2.7.3\share\hadoop\mapreducehsfs的那些包commo

1、原始数据

2、使用java程序

　　1&＃xff09;新建项目

　　2&＃xff09;导包
　　hadoop-2.7.3\share\hadoop\mapreduce

　　&＃43;hsfs的那些包

　　&＃43;common

3、写项目

　　1&＃xff09;实体类

package com.zy.flow;import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;public class Flow implements Writable{private Text phone;private LongWritable upflow;private LongWritable downflow;private LongWritable sumflow;//这个对象以后要在集群中传输&＃xff0c;所以要可序列化//序列化反序列化顺序要一致&＃64;Override//反序列化时会调用该方法public void readFields(DataInput in) throws IOException {phone&＃61;new Text(in.readUTF());upflow&＃61;new LongWritable(in.readLong());downflow&＃61;new LongWritable(in.readLong());sumflow&＃61;new LongWritable(in.readLong());}&＃64;Override//序列化时会调用该方法public void write(DataOutput out) throws IOException {out.writeUTF(phone.toString());out.writeLong(upflow.get());out.writeLong(downflow.get());out.writeLong(sumflow.get());}public Text getPhone() {return phone;}public void setPhone(Text phone) {this.phone &＃61; phone;}public LongWritable getUpflow() {return upflow;}public void setUpflow(LongWritable upflow) {this.upflow &＃61; upflow;}public LongWritable getDownflow() {return downflow;}public void setDownflow(LongWritable downflow) {this.downflow &＃61; downflow;}public LongWritable getSumflow() {return sumflow;}public void setSumflow(LongWritable sumflow) {this.sumflow &＃61; sumflow;}public Flow() {}public Flow(Text phone, LongWritable upflow, LongWritable downflow, LongWritable sumflow) {super();this.phone &＃61; phone;this.upflow &＃61; upflow;this.downflow &＃61; downflow;this.sumflow &＃61; sumflow;}public Flow(LongWritable upflow, LongWritable downflow, LongWritable sumflow) {super();this.upflow &＃61; upflow;this.downflow &＃61; downflow;this.sumflow &＃61; sumflow;}&＃64;Overridepublic String toString() {return upflow&＃43;"\t"&＃43;downflow&＃43;"\t"&＃43;sumflow;}}

　　2&＃xff09;FlowMap类

package com.zy.flow;import java.io.IOException;import javax.security.auth.callback.LanguageCallback;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class FlowMap extends Mapper{&＃64;Overrideprotected void map(LongWritable key, Text value, Mapper.Context context)throws IOException, InterruptedException {//输入的值 value//切分value 寻找有价值的列String[] split &＃61; value.toString().split("\t");int length&＃61;split.length;//取哪几列split[1] split[length-3] split[length-2]String phone&＃61;split[1];Long upflow&＃61;Long.parseLong(split[length-3]);Long downflow&＃61;Long.parseLong(split[length-2]);Long sumflow&＃61;upflow&＃43;downflow;//输出context.write(new Text(phone), new Flow(new Text(phone), new LongWritable(upflow), new LongWritable(downflow),new LongWritable(sumflow)));//对象里虽然用不到phone但是要给它赋值&＃xff0c;不然序列化时会报空指针异常
}
}

　　3&＃xff09;Part&＃xff08;分区&＃xff09;类

package com.zy.flow;
import java.util.HashMap;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;public class Part extends Partitioner {//分区//逻辑自己写
HashMap map &＃61; new HashMap();public void setMap(){map.put("135",0);map.put("136", 1);map.put("137",2);map.put("138", 3);map.put("139",4);} &＃64;Overridepublic int getPartition(Text key, Flow value, int arg2) {setMap();//从输入的数据中获得电话的前三位跟map对比。决定分到哪个区中String substring &＃61; key.toString().substring(0, 3);//例如截取135return map.get(substring)&＃61;&＃61;null?5:map.get(substring);//根据键取值键135 取出0 //其他号码分到&＃xff08;编号为5&＃xff09;第6个区中
}//在这个逻辑下partition分了6个区&＃xff0c;所以以后要指定6个reducetask

}

　　4&＃xff09;FlowReduce类

package com.zy.flow;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class FlowReduce extends Reducer{&＃64;Overrideprotected void reduce(Text key, Iterable value, Reducer.Context context)throws IOException, InterruptedException {//累加long allup&＃61;0;long alldown&＃61;0;for (Flow flow : value) {allup&＃43;&＃61;Long.parseLong(flow.getUpflow().toString());alldown&＃43;&＃61;Long.parseLong(flow.getDownflow().toString());}long allsum&＃61;allup&＃43;alldown;context.write(key, new Flow(new Text(key), new LongWritable(allup), new LongWritable(alldown), new LongWritable(allsum)));}}

　　5&＃xff09;FlowApp类

package com.zy.flow;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class FlowApp {public static void main(String[] args) throws Exception {//创建配置对象Configuration configuration &＃61; new Configuration();//得到job实例Job job &＃61; Job.getInstance(configuration);//指定job运行类job.setJarByClass(FlowApp.class);//指定job中的mapperjob.setMapperClass(FlowMap.class);//指定mapper中的输出键和值类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Flow.class);//指定job中的reducerjob.setReducerClass(FlowReduce.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Flow.class);//-----//指定Partitioner使用的类job.setPartitionerClass(Part.class);//指定ReduceTask数量job.setNumReduceTasks(6);//-----//指定输入文件FileInputFormat.setInputPaths(job, new Path(args[0]));//运行时填入参数//指定输出文件FileOutputFormat.setOutputPath(job, new Path(args[1]));//提交作业job.waitForCompletion(true);}}

4、运行

　　1&＃xff09;打包

　　2&＃xff09;上传到linux

　　3&＃xff09;运行

转:https://www.cnblogs.com/qfdy123/p/11246635.html

推荐阅读

io
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
command
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
jsp
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
rsa
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
jsp
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
perl
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
io
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
io
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
copy
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
copy
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
io
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
jsp
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
io
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
io
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17

丢失的面包树

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章