当前位置: 开发笔记 > 编程语言 > 正文

HadoopMapReduce

作者：夹uh山下 | 来源：互联网 | 2023-09-04 19:35

一、概述1.是Hadoop中的一套分布式的计算框架2.将整个计算过程拆分为2个阶段：Map阶段、Reduce阶段3.Map阶段一般负责数据的整理，Reduce阶段负责数据的汇总4.

一、概述

1.是Hadoop中的一套分布式的计算框架

2.将整个计算过程拆分为2个阶段：Map阶段、Reduce阶段

3.Map阶段一般负责数据的整理，Reduce阶段负责数据的汇总

4.如果输入路径是一个文件，则MapReduce只处理这个文件；如果输入的是一个目录，则处理这个目录下的所有文件

　--注意：如果文件以 _ 开头，则该文件会被跳过，在MapReduce中，_ 开头的文件被认为是隐藏文件不需要处理

5.Rduce中的迭代器采用的是地址复用机制

6.Reduce中的迭代器只能遍历一次

7.在MapReduce中，针对Reduce出去的结果文件内容，如果不指定，内容(键值)中的默认键值之间用\t进行分割的

9.在MapReduce中，如果需要实现的功能不需要Reduce，即Reduce没有业务逻辑，可以省略Reduce

二、序列化

1.在MapReduce中，要求被传输的数据必须能够被序列化

2.Hadoop中，序列化机制默认使用AVRO，但是Hadoop对AVRO的序列化机制进行了进一步的封装，提供了更简单的序列化机制

3.在Hadoop想要实现序列化，需要实现Writable，重新其中的方法

4.在Hadoop中序列化的时候，要求属性不能为null

序列化示例：

package com.apple.flow;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
public class Flow implements Writable{

private String phone;
private String name;
private String addr;
//--在使用包装类，注意初始值的问题(null)
private int flow;

/*
* 序列化方法
* 如果是String,则调用writeUTF
* 其他的：WriteInt,WriteLong,WriteByte,WriteDouble等
*/
@Override
public void write(DataOutput out) throws IOException {
out.writeUTF(phone);
out.writeUTF(name);
out.writeUTF(addr);
out.writeInt(flow);

}
/*
* 反序列化一定要注意顺序，和序列化的顺序一致
*/
@Override
public void readFields(DataInput in) throws IOException {
this.phOne=in.readUTF();
this.name=in.readUTF();
this.addr=in.readUTF();
this.flow=in.readInt();

}
public String getPhone() {
return phone;
}
public void setPhone(String phone) {
this.phOne= phone;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public String getAddr() {
return addr;
}
public void setAddr(String addr) {
this.addr = addr;
}

public int getFlow() {
return flow;
}
public void setFlow(int flow) {
this.flow = flow;
}
@Override
public String toString() {
return "Flow [phOne=" + phone + ", name=" + name + ", addr=" + addr + ", flow=" + flow + "]";
}
}

三、分区

1.分区在MapReduce中用于进行数据的分类

2.在MapReduce中，如果不指定，则默认只有1个分区

3.每一个分区都必须对应一个ReduceTask，每一ReduceTask都会产生一个结果文件

4.在MapReduce中对分区进行了编号，编码默认从0开始递增

5.分区的顶级父类是Partitioner

6.在MapReduce中，默认使用HashPartitioner

代码示例：

public class FlowPartitioner extends Partitioner{
@Override
public int getPartition(Text key, Flow value, int numPartitions) {
if(value.getAddr().equals("bj")){
return 0;
}
else if(value.getAddr().equals("sh")){
return 1;
}else{
return 2;
}

}
}

主类Driver入口

public class FlowDriver {
public static void main(String[] args) throws Exception {
Configuration conf=new Configuration();
Job job=Job.getInstance(conf);

job.setJarByClass(FlowDriver.class);
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);

job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Flow.class);

job.setOutputKeyClass(Flow.class);
job.setOutputValueClass(NullWritable.class);

//--有3个分区，故有3个ReduceTask
job.setNumReduceTasks(3);

//--设置自定义的分区组件。如果不设定，默认用的是HashPartitioner
//--默认的分区组件，会按Mapper输出key的hashcode分区，
//--确保相同的key落到同一个分区里
job.setPartitionerClass(FlowPartitioner.class);

FileInputFormat.setInputPaths(job,
new Path("hdfs://192.168.150.137:9000/flow"));

FileOutputFormat.setOutputPath(job,
new Path("hdfs://192.168.150.137:9000/flow/result"));

job.waitForCompletion(true);
}
}

Map类：

public class FlowMapper extends Mapper{
@Override
protected void map(LongWritable key, Text value, Mapper.Context context)
throws IOException, InterruptedException {
String line=value.toString();
Flow f=new Flow();
String[] info=line.split(" ");
f.setPhone(info[0]);
f.setName(info[1]);
f.setAddr(info[2]);
f.setFlow(Integer.parseInt(info[3]));

context.write(new Text(f.getName()),f);
}
}

Reduce类：

public class FlowReducer extends Reducer{
@Override
protected void reduce(Text key, Iterable values,
Reducer.Context context)
throws IOException, InterruptedException {
Flow result=new Flow();
for(Flow value:values){
result.setPhone(value.getPhone());
result.setName(value.getName());
result.setAddr(value.getAddr());
result.setFlow(result.getFlow()+value.getFlow());

}

context.write(result,NullWritable.get());
}
}

四、排序

1.在MapReduce中，会对键做自动的排序 - 自然排序

2.如果自定义一个类产生的对象想要作为键，那么这个对象必须要允许被排序 - 实现WritableComparable接口

3.多属性排序的场景称之为二次排序

Hadoop MapReduce

推荐阅读

php
asp.net微信公众平台开发目录汇总陆续更新的相关内容

本文内容为asp.net微信公众平台开发的目录汇总，包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建（接入）、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面，适合综合运用。 ... [详细]

蜡笔小新 2023-12-14 22:40:22
php
基于layUI的图片上传前预览功能的2种实现方式

本文介绍了基于layUI的图片上传前预览功能的两种实现方式：一种是使用blob+FileReader，另一种是使用layUI自带的参数。通过选择文件后点击文件名，在页面中间弹窗内预览图片。其中，layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块，并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-14 17:06:58
import
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
import
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
import
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
php
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 12:01:13
php
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
php
SpringBoot集成前端模版（thymeleaf）的配置步骤

本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤，包括在application.properties配置文件中添加thymeleaf的配置信息，引入thymeleaf的jar包，以及创建PageController并添加index方法。 ... [详细]

蜡笔小新 2023-12-14 10:11:46
php
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
hash
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
php
后台获取视图对应的字符串

1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注：不会执行对应的ac ... [详细]

蜡笔小新 2023-12-13 18:03:01
php
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
php
ABAP开发发送邮件程序的配置和代码整理

本文介绍了通过ABAP开发往外网发邮件的需求，并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定，可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度：184字。 ... [详细]

蜡笔小新 2023-12-13 15:50:17
php
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
php
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33

夹uh山下

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章