热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop自定义类型处理手机上网日志

job提交源码分析

在eclipse中的写的代码如何提交作业到JobTracker中的哪?
(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法
  connect();
  info = jobClient.submitJobInternal(conf);
(2)在connect()方法中,实际上创建了一个JobClient对象。
  在调用该对象的构造方法时,获得了JobTracker的客户端代理对象JobSubmissionProtocol。
  JobSubmissionProtocol的实现类是JobTracker。
(3)在jobClient.submitJobInternal(conf)方法中,调用了
  JobSubmissionProtocol.submitJob(...),
  即执行的是JobTracker.submitJob(...)。

 

Hadoop数据类型

1.Hadoop的数据类型要求必须实现Writable接口
2.java基本类型与Hadoop常见基本类型的对照
    Long     LongWritable
    Integer     IntWritable
    Boolean    BooleanWritable
    String     Text


java类型如何转化为hadoop基本类型?
    调用hadoop类型的构造方法,或者调用set()方法。
      new LongWritable(123L);

hadoop基本类型如何转化为java类型?
    对于Text,需要调用toString()方法,其他类型调用get()方法。

 

使用Hadoop自定义类型处理手机上网日志

1、首先,将手机上网日志文件HTTP_20130313143750.dat通过WinSCP工具复制到/usr/local目录下

2、将日志文件上传到hdfs://chaoren:9000/wlan文件夹下

Hadoop自定义类型处理手机上网日志

 

日志文件:

Hadoop自定义类型处理手机上网日志

 日志文件中各字段含义:

Hadoop自定义类型处理手机上网日志

 

 3、编写Java代码将日志文件中想要的数据统计出来。

 

  1 package mapreduce;
  2 
  3 import java.io.DataInput;
  4 import java.io.DataOutput;
  5 import java.io.IOException;
  6 
  7 import org.apache.hadoop.conf.Configuration;
  8 import org.apache.hadoop.fs.Path;
  9 import org.apache.hadoop.io.LongWritable;
 10 import org.apache.hadoop.io.Text;
 11 import org.apache.hadoop.io.Writable;
 12 import org.apache.hadoop.mapreduce.Job;
 13 import org.apache.hadoop.mapreduce.Mapper;
 14 import org.apache.hadoop.mapreduce.Reducer;
 15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 16 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 17 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 18 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 19 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
 20 
 21 public class KpiApp {
 22     static final String INPUT_PATH = "hdfs://chaoren:9000/wlan";//wlan是个文件夹,日志文件放在/wlan目录下
 23     static final String OUT_PATH = "hdfs://chaoren:9000/out";
 24 
 25     public static void main(String[] args) throws Exception {
 26         final Job job = new Job(new Configuration(),
 27                 KpiApp.class.getSimpleName());
 28         // 1.1 指定输入文件路径
 29         FileInputFormat.setInputPaths(job, INPUT_PATH);
 30         // 指定哪个类用来格式化输入文件
 31         job.setInputFormatClass(TextInputFormat.class);
 32 
 33         // 1.2指定自定义的Mapper类
 34         job.setMapperClass(MyMapper.class);
 35         // 指定输出的类型
 36         job.setMapOutputKeyClass(Text.class);
 37         job.setMapOutputValueClass(KpiWritable.class);
 38 
 39         // 1.3 指定分区类
 40         job.setPartitionerClass(HashPartitioner.class);
 41         job.setNumReduceTasks(1);
 42 
 43         // 1.4 TODO 排序、分区
 44 
 45         // 1.5 TODO (可选)归约
 46 
 47         // 2.2 指定自定义的reduce类
 48         job.setReducerClass(MyReducer.class);
 49         // 指定输出的类型
 50         job.setOutputKeyClass(Text.class);
 51         job.setOutputValueClass(KpiWritable.class);
 52 
 53         // 2.3 指定输出到哪里
 54         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
 55         // 设定输出文件的格式化类
 56         job.setOutputFormatClass(TextOutputFormat.class);
 57 
 58         // 把代码提交给JobTracker执行
 59         job.waitForCompletion(true);
 60     }
 61 
 62     static class MyMapper extends Mapper {
 63         protected void map(
 64                 LongWritable key,
 65                 Text value,
 66                 org.apache.hadoop.mapreduce.Mapper.Context context)
 67                 throws IOException, InterruptedException {
 68             final String[] splited = value.toString().split("\t");
 69             final String msisdn = splited[1];
 70             final Text k2 = new Text(msisdn);
 71             final KpiWritable v2 = new KpiWritable(splited[6], splited[7],
 72                     splited[8], splited[9]);
 73             context.write(k2, v2);
 74         };
 75     }
 76 
 77     static class MyReducer extends
 78             Reducer {
 79         /**
 80          * @param k2
 81          *            表示整个文件中不同的手机号码
 82          * @param v2s
 83          *            表示该手机号在不同时段的流量的集合
 84          */
 85         protected void reduce(
 86                 Text k2,
 87                 java.lang.Iterable v2s,
 88                 org.apache.hadoop.mapreduce.Reducer.Context context)
 89                 throws IOException, InterruptedException {
 90             long upPackNum = 0L;
 91             long downPackNum = 0L;
 92             long upPayLoad = 0L;
 93             long downPayLoad = 0L;
 94 
 95             for (KpiWritable kpiWritable : v2s) {
 96                 upPackNum += kpiWritable.upPackNum;
 97                 downPackNum += kpiWritable.downPackNum;
 98                 upPayLoad += kpiWritable.upPayLoad;
 99                 downPayLoad += kpiWritable.downPayLoad;
100             }
101 
102             final KpiWritable v3 = new KpiWritable(upPackNum + "", downPackNum
103                     + "", upPayLoad + "", downPayLoad + "");
104             context.write(k2, v3);
105         };
106     }
107 }
108 
109 class KpiWritable implements Writable {
110     long upPackNum;
111     long downPackNum;
112     long upPayLoad;
113     long downPayLoad;
114 
115     public KpiWritable() {
116     }
117 
118     public KpiWritable(String upPackNum, String downPackNum, String upPayLoad,
119             String downPayLoad) {
120         this.upPackNum = Long.parseLong(upPackNum);
121         this.downPackNum = Long.parseLong(downPackNum);
122         this.upPayLoad = Long.parseLong(upPayLoad);
123         this.downPayLoad = Long.parseLong(downPayLoad);
124     }
125 
126     public void readFields(DataInput in) throws IOException {
127         this.upPackNum = in.readLong();
128         this.downPackNum = in.readLong();
129         this.upPayLoad = in.readLong();
130         this.downPayLoad = in.readLong();
131     }
132 
133     public void write(DataOutput out) throws IOException {
134         out.writeLong(upPackNum);
135         out.writeLong(downPackNum);
136         out.writeLong(upPayLoad);
137         out.writeLong(downPayLoad);
138     }
139 
140     @Override
141     public String toString() {
142         return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t"
143                 + downPayLoad;
144     }
145 }

 

4、运行结果

Hadoop自定义类型处理手机上网日志

 


推荐阅读
  • 如何在Java中高效构建WebService
    本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架,能够简化WebService的开发流程。通过结合MyEclipse集成开发环境,开发者可以更便捷地进行项目配置和代码编写,从而提高开发效率。此外,文章还详细探讨了XFire的关键特性和最佳实践,为读者提供了实用的参考。 ... [详细]
  • 全面解析JavaScript代码注释技巧与标准规范
    在Web前端开发中,JavaScript代码的可读性和维护性至关重要。本文将详细介绍如何有效地使用注释来提高代码的可读性,并探讨JavaScript代码注释的最佳实践和标准规范。通过合理的注释,开发者可以更好地理解和维护复杂的代码逻辑,提升团队协作效率。 ... [详细]
  • 使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包
    本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先,需要创建一个新的Maven项目,并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin,可以实现将所有文件及其依赖项合并为一个独立的JAR包,方便在其他项目中引用和使用。此外,该方法还支持自定义装配描述符,以满足不同场景下的需求。 ... [详细]
  • 在Java Web服务开发中,Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力,以及更简便的部署方式,成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发,包括环境搭建、服务发布和客户端调用等关键步骤,为开发者提供一个全面的实践指南。 ... [详细]
  • 在Java项目中,当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中,该文件位于 `cn.javass.bookmgr` 包下,并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行,请求提供专业的解决方案,以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手,进行全面排查和调试。 ... [详细]
  • Java能否直接通过HTTP将字节流绕过HEAP写入SD卡? ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 本文详细介绍了如何在Java Web服务器上部署音视频服务,并提供了完整的验证流程。以AnyChat为例,这是一款跨平台的音视频解决方案,广泛应用于需要实时音视频交互的项目中。通过具体的部署步骤和测试方法,确保了音视频服务的稳定性和可靠性。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Spring Security 认证模块的项目构建与初始化
    本文详细介绍了如何构建和初始化Spring Security认证模块的项目。首先,通过创建一个分布式Maven聚合工程,该工程包含四个模块,分别为core、browser(用于演示)、app等,以构成完整的SeehopeSecurity项目。在项目构建过程中,还涉及日志生成机制,确保能够输出关键信息,便于调试和监控。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 【clienteclipse集群提交运行】:客户端eclipse集群提交mapreduce代码1.需求:在master:8088上,有客户 ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
  • MapReduce统计每个用户的使用总流量
    1、原始数据2、使用java程序1)新建项目2)导包  hadoop-2.7.3\share\hadoop\mapreducehsfs的那些包commo ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
author-avatar
Tandbs
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有