热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop自定义类型处理手机上网日志

job提交源码分析

在eclipse中的写的代码如何提交作业到JobTracker中的哪?
(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法
  connect();
  info = jobClient.submitJobInternal(conf);
(2)在connect()方法中,实际上创建了一个JobClient对象。
  在调用该对象的构造方法时,获得了JobTracker的客户端代理对象JobSubmissionProtocol。
  JobSubmissionProtocol的实现类是JobTracker。
(3)在jobClient.submitJobInternal(conf)方法中,调用了
  JobSubmissionProtocol.submitJob(...),
  即执行的是JobTracker.submitJob(...)。

 

Hadoop数据类型

1.Hadoop的数据类型要求必须实现Writable接口
2.java基本类型与Hadoop常见基本类型的对照
    Long     LongWritable
    Integer     IntWritable
    Boolean    BooleanWritable
    String     Text


java类型如何转化为hadoop基本类型?
    调用hadoop类型的构造方法,或者调用set()方法。
      new LongWritable(123L);

hadoop基本类型如何转化为java类型?
    对于Text,需要调用toString()方法,其他类型调用get()方法。

 

使用Hadoop自定义类型处理手机上网日志

1、首先,将手机上网日志文件HTTP_20130313143750.dat通过WinSCP工具复制到/usr/local目录下

2、将日志文件上传到hdfs://chaoren:9000/wlan文件夹下

Hadoop自定义类型处理手机上网日志

 

日志文件:

Hadoop自定义类型处理手机上网日志

 日志文件中各字段含义:

Hadoop自定义类型处理手机上网日志

 

 3、编写Java代码将日志文件中想要的数据统计出来。

 

  1 package mapreduce;
  2 
  3 import java.io.DataInput;
  4 import java.io.DataOutput;
  5 import java.io.IOException;
  6 
  7 import org.apache.hadoop.conf.Configuration;
  8 import org.apache.hadoop.fs.Path;
  9 import org.apache.hadoop.io.LongWritable;
 10 import org.apache.hadoop.io.Text;
 11 import org.apache.hadoop.io.Writable;
 12 import org.apache.hadoop.mapreduce.Job;
 13 import org.apache.hadoop.mapreduce.Mapper;
 14 import org.apache.hadoop.mapreduce.Reducer;
 15 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 16 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 17 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 18 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 19 import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
 20 
 21 public class KpiApp {
 22     static final String INPUT_PATH = "hdfs://chaoren:9000/wlan";//wlan是个文件夹,日志文件放在/wlan目录下
 23     static final String OUT_PATH = "hdfs://chaoren:9000/out";
 24 
 25     public static void main(String[] args) throws Exception {
 26         final Job job = new Job(new Configuration(),
 27                 KpiApp.class.getSimpleName());
 28         // 1.1 指定输入文件路径
 29         FileInputFormat.setInputPaths(job, INPUT_PATH);
 30         // 指定哪个类用来格式化输入文件
 31         job.setInputFormatClass(TextInputFormat.class);
 32 
 33         // 1.2指定自定义的Mapper类
 34         job.setMapperClass(MyMapper.class);
 35         // 指定输出的类型
 36         job.setMapOutputKeyClass(Text.class);
 37         job.setMapOutputValueClass(KpiWritable.class);
 38 
 39         // 1.3 指定分区类
 40         job.setPartitionerClass(HashPartitioner.class);
 41         job.setNumReduceTasks(1);
 42 
 43         // 1.4 TODO 排序、分区
 44 
 45         // 1.5 TODO (可选)归约
 46 
 47         // 2.2 指定自定义的reduce类
 48         job.setReducerClass(MyReducer.class);
 49         // 指定输出的类型
 50         job.setOutputKeyClass(Text.class);
 51         job.setOutputValueClass(KpiWritable.class);
 52 
 53         // 2.3 指定输出到哪里
 54         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
 55         // 设定输出文件的格式化类
 56         job.setOutputFormatClass(TextOutputFormat.class);
 57 
 58         // 把代码提交给JobTracker执行
 59         job.waitForCompletion(true);
 60     }
 61 
 62     static class MyMapper extends Mapper {
 63         protected void map(
 64                 LongWritable key,
 65                 Text value,
 66                 org.apache.hadoop.mapreduce.Mapper.Context context)
 67                 throws IOException, InterruptedException {
 68             final String[] splited = value.toString().split("\t");
 69             final String msisdn = splited[1];
 70             final Text k2 = new Text(msisdn);
 71             final KpiWritable v2 = new KpiWritable(splited[6], splited[7],
 72                     splited[8], splited[9]);
 73             context.write(k2, v2);
 74         };
 75     }
 76 
 77     static class MyReducer extends
 78             Reducer {
 79         /**
 80          * @param k2
 81          *            表示整个文件中不同的手机号码
 82          * @param v2s
 83          *            表示该手机号在不同时段的流量的集合
 84          */
 85         protected void reduce(
 86                 Text k2,
 87                 java.lang.Iterable v2s,
 88                 org.apache.hadoop.mapreduce.Reducer.Context context)
 89                 throws IOException, InterruptedException {
 90             long upPackNum = 0L;
 91             long downPackNum = 0L;
 92             long upPayLoad = 0L;
 93             long downPayLoad = 0L;
 94 
 95             for (KpiWritable kpiWritable : v2s) {
 96                 upPackNum += kpiWritable.upPackNum;
 97                 downPackNum += kpiWritable.downPackNum;
 98                 upPayLoad += kpiWritable.upPayLoad;
 99                 downPayLoad += kpiWritable.downPayLoad;
100             }
101 
102             final KpiWritable v3 = new KpiWritable(upPackNum + "", downPackNum
103                     + "", upPayLoad + "", downPayLoad + "");
104             context.write(k2, v3);
105         };
106     }
107 }
108 
109 class KpiWritable implements Writable {
110     long upPackNum;
111     long downPackNum;
112     long upPayLoad;
113     long downPayLoad;
114 
115     public KpiWritable() {
116     }
117 
118     public KpiWritable(String upPackNum, String downPackNum, String upPayLoad,
119             String downPayLoad) {
120         this.upPackNum = Long.parseLong(upPackNum);
121         this.downPackNum = Long.parseLong(downPackNum);
122         this.upPayLoad = Long.parseLong(upPayLoad);
123         this.downPayLoad = Long.parseLong(downPayLoad);
124     }
125 
126     public void readFields(DataInput in) throws IOException {
127         this.upPackNum = in.readLong();
128         this.downPackNum = in.readLong();
129         this.upPayLoad = in.readLong();
130         this.downPayLoad = in.readLong();
131     }
132 
133     public void write(DataOutput out) throws IOException {
134         out.writeLong(upPackNum);
135         out.writeLong(downPackNum);
136         out.writeLong(upPayLoad);
137         out.writeLong(downPayLoad);
138     }
139 
140     @Override
141     public String toString() {
142         return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t"
143                 + downPayLoad;
144     }
145 }

 

4、运行结果

Hadoop自定义类型处理手机上网日志

 


推荐阅读
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 在使用SSH框架进行项目开发时,经常会遇到一些常见的问题。例如,在Spring配置文件中配置AOP事务声明后,进行单元测试时可能会出现“No Hibernate Session bound to thread”的错误。本文将详细探讨这一问题的原因,并提供有效的解决方案,帮助开发者顺利解决此类问题。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • STM32串口通信:完整指南
    众所周知,串口通信是MCU最基本的通信方式,对于STM32来说也是如此。本文重点讲述STM32单片机的串口通信,主要包括的内容是:通信基础知识、串口通信原理、USART有关寄存器和 ... [详细]
  • Spring – Bean Life Cycle
    Spring – Bean Life Cycle ... [详细]
  • 本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法,文章提供了多种实用技巧,帮助用户高效地生成高质量的动态图像视频。此外,还探讨了不同视频编码器的选择及其对输出文件质量的影响,为读者提供了全面的技术指导。 ... [详细]
  • 开发日志:高效图片压缩与上传技术解析 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • ### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例,介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节,揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性,如响应式设计和组件定制,为开发者提供全方位的技术支持。 ... [详细]
  • 基于试题数据的智能化管理平台采用Java语言进行面向对象编程,旨在构建一个高效的试题信息管理系统。该系统在JDK 6.0和MyEclipse 10.6环境下开发,通过优化试题数据管理和处理流程,提升系统的稳定性和用户体验。平台支持多用户操作,具备强大的数据处理能力和灵活的扩展性,适用于各类教育机构和考试组织。 ... [详细]
  • 在Java项目中,当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中,该文件位于 `cn.javass.bookmgr` 包下,并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行,请求提供专业的解决方案,以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手,进行全面排查和调试。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Eclipse JFace Text框架中IDocument接口的getNumberOfLines方法详解与编程实例 ... [详细]
  • 使用 MyEclipse 和 TestNG 测试框架在 Java 中高效进行单元测试
    通过MyEclipse集成TestNG测试框架,可以在Java开发中高效地进行单元测试。本文介绍了在JDK 1.8.0_121和MyEclipse 10.0离线环境下配置和使用TestNG的具体步骤,帮助开发者提高测试效率和代码质量。 ... [详细]
author-avatar
Tandbs
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有