MapReduce分区和reduceTask的数量

作者：假装坚持-我很不爽_547 | 来源：互联网 | 2023-08-15 18:46

MapReduce分区和reduceTask的数量1.MapReduce分区：相同key的数据发送到同一个reduce里面去。mapTask处理的是文件切片file

1.MapReduce分区&＃xff1a;相同key的数据发送到同一个reduce里面去。
mapTask处理的是文件切片filesplit。
注意&＃xff1a;block的概念是在hdfs当中的&＃xff0c;mapreduce当中&＃xff0c;每一个mapTask处理的数据都是叫做一个文件切片。
暂时可以简单地认为&＃xff0c;一个文件切片就是对应一个block块。还可以简单地认为&＃xff0c;有多少个block块&＃xff0c;就要启动多少个mapTask。

2.分区规则&＃xff1a;
HashPartitioner的getPartition方法返回值是int类型的&＃xff0c;每条数据都要进来计算一下数据的分区&＃xff0c;然后给每条数据打上一个逻辑标识&＃xff0c;计算每一条数据要去哪一个reduceTask里去。
逻辑编号&＃xff1a;(key.hashCode() & Integer.MAX_VALUE) % numberReduceTasks
因为key.hashCode()有可能是负数&＃xff0c;所以要&Integer.MAX_VALUE&＃xff0c;这样就永远是一个正整数。&按位与。
numberReduceTasks指多少个reduceTask。

3.自定义分区的一个例子

需求&＃xff1a;将开奖结果分为>15的一个文件&＃xff0c;<15的一个文件。
开奖结果在partition.csv文件每一行数据的第六个字段

一个reduceTask对应产生一个文件。
k1: LongWritable, v1: Text
k2: Text, v2: NullWritable&＃xff0c;即null
核心代码&＃xff1a;自定义分区
String[] arrays &＃61; k2.toString().split("\t");//因为数据是用\t进行切割的&＃xff0c;所以用tab键做好格式
if(arrays[5] >&＃61; 15){return 0;}//5为第六个字段&＃xff0c;也就是开奖结果
else{return 1;}

k3: Text, v3: NullWritable&＃xff0c;即null

代码&＃xff1a;
第一步&＃xff1a;定义我们的mapper
我们这里的mapper程序不做任何逻辑&＃xff0c;也不对key&＃xff0c;与value做任何改变&＃xff0c;只是接收我们的数据&＃xff0c;然后往下发送
package cn.itcast.mr.demo1.partition;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class PartitionMapper extends Mapper {

&＃64;Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//定义我们k2 v2类型是 Text 和 NullWritable
context.write(value,NullWritable.get());
}
}

第二步&＃xff1a;定义我们的reducer逻辑
我们的reducer也不做任何处理&＃xff0c;将我们的数据原封不动的输出即可
package cn.itcast.mr.demo1.partition;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class PartitionReducer extends Reducer {
&＃64;Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
//reduce对数据不做任何处理&＃xff0c;直接将我们的数据输出
context.write(key,NullWritable.get());
}
}

第三步&＃xff1a;自定义partitioner
package cn.itcast.mr.demo1.partition;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class PartitionOwn extends Partitioner {
&＃64;Override
public int getPartition(Text text, NullWritable nullWritable, int i) {
//自定义分区规则&＃xff0c;将我们大于15的&＃xff0c;分到一个reduceTask里面去&＃xff0c;小于15的分到一个reduceTask里面去
String[] split &＃61; text.toString().split("\t");
if(Integer.parseInt(split[5]) >&＃61; 15){
return 0;
}else{

return 1;
}

}
}

第四步&＃xff1a;程序main函数入口
package cn.itcast.mr.demo1.partition;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.net.URI;

public class PartitionMain extends Configured implements Tool {
&＃64;Override
public int run(String[] args) throws Exception {
//获取job对象
Job job &＃61; Job.getInstance(super.getConf(), "partition");
//如果程序需要打包运行&＃xff0c;这一句必不可少
job.setJarByClass(PartitionMain.class);

//第一步读取文件&＃xff0c;解析成key,value对
job.setInputFormatClass(TextInputFormat.class);
TextInputFormat.addInputPath(job,new Path("hdfs://node01:8020/partition_in"));

//第二步&＃xff1a;自定义map逻辑&＃xff0c;接收k1 v1 转换成新的K2 v2 输出
job.setMapperClass(PartitionMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);

//第三步&＃xff0c;分区&＃xff0c;自定义分区规则&＃xff0c;大于15的到一个分区号&＃xff0c;小于15的到一个分区号
job.setPartitionerClass(PartitionOwn.class);
//第四步&＃xff1a;排序第五步&＃xff1a;规约第六步&＃xff1a;分组&＃xff0c;全部省掉

//第七步自定义reduce逻辑&＃xff0c;接收k2 v2 转换成新的k3 v3 输出

job.setReducerClass(PartitionReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);

job.setOutputFormatClass(TextOutputFormat.class);

//手动设置reduceTask的个数
job.setNumReduceTasks(2);

/* FileSystem fileSystem &＃61; FileSystem.get(new URI("hdfs://node01:8020"), super.getConf());
if(fileSystem.exists(new Path("hdfs://node01:8020/partition_out"))){
fileSystem.delete(new Path("hdfs://node01:8020/partition_out"),true);
}*/

TextOutputFormat.setOutputPath(job,new Path("hdfs://node01:8020/partition_out"));

boolean b &＃61; job.waitForCompletion(true);

return b?0:1;
}

public static void main(String[] args) throws Exception {
int run &＃61; ToolRunner.run(new Configuration(), new PartitionMain(), args);
System.exit(run);
}

}

推荐阅读

io
Java 编程错误：对象无法转换为 long 类型

本文介绍了在 Java 编程中遇到的一个常见错误：对象无法转换为 long 类型，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-13 10:57:24
io
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
io
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
js
关于使用JavaScript在多个页面间传递参数的技术探讨

本文探讨了使用JavaScript在不同页面间传递参数的技术方法。具体而言，从a.html页面跳转至b.html时，如何携带参数并使b.html替代当前页面显示，而非新开窗口。文中详细介绍了实现这一功能的代码及注释，帮助开发者更好地理解和应用该技术。 ... [详细]

蜡笔小新 2024-11-09 09:28:55
bit
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
io
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
js
ButterKnife的基础应用与实践指南

ButterKnife 是一款用于 Android 开发的注解库，主要用于简化视图和事件绑定。本文详细介绍了 ButterKnife 的基础用法，包括如何通过注解实现字段和方法的绑定，以及在实际项目中的应用示例。此外，文章还提到了截至 2016 年 4 月 29 日，ButterKnife 的最新版本为 8.0.1，为开发者提供了最新的功能和性能优化。 ... [详细]

蜡笔小新 2024-11-07 13:17:24
io
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
io
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
io
WinMain 函数详解及示例

本文详细介绍了 WinMain 函数的参数及其用途，并提供了一个具体的示例代码来解析 WinMain 函数的实现。 ... [详细]

蜡笔小新 2024-11-13 12:49:31
io
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
python
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
io
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
io
Java学习第10天：深入理解Map接口及其应用

Java学习第10天：深入理解Map接口及其应用 ... [详细]

蜡笔小新 2024-11-07 15:31:11
io
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19

假装坚持-我很不爽_547

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章