Map端join算法实现，解决Reduce端数据倾斜，负载不均（分布式缓存）

作者：lin | 来源：互联网 | 2023-08-01 15:36

1.需求：订单数据表t_order：关系数据库表-iddatepidam

1.需求：

订单数据表t_order：

关系数据库表-

id	date	pid	amount
1001	20150710	P0001	2
1002	20150710	P0001	3
1002	20150710	P0002	3

抽象成文件数据：

1001,20150710,P0001,2
1002,20150710,P0001,3
1003,20150710,P0002,3
1002,20150710,P0003,3
1002,20150710,P0002,4

。。。。。。
商品信息表t_product：

id	pname
P0001	小米5
P0002	魅族

抽象成文件数据：
p0001,小米
p0002,魅族
p0003,oppo

。。。。。。

现在要把2个文件通过pID进行关联，如果按照上一遍文章，在Reduce中做关联那么问题来了，如果小米手机的订单量远远大于魅族手机的订单量，这样就会产生处理小米手机的ReduceTask任务量很大，执行时间久，而处理魅族的ReduceTask任务轻很快就执行完了，出现了负载不均衡，数据倾斜。

2.实现

鉴于是小数据量的表和大数据量的表进行join,可以用分布式缓存把小表缓存到map节点，在map阶段直接使用，与大表进行join,不在reduce阶段进行join,避免数据倾斜,提高并发量和效率。

通过main函数先把缓存文件加载到节点（底层自动分发到map节点--分布式缓存）：

job.addCacheFile(“文件路径”);

代码：

package join;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MapJoin {

	static class JoinMapper extends Mapper{
		Map pmap=new HashMap();//装产品数据
		Text k=new Text();
		/*重写setup方法，看Mapper源码里面有个线程的run方法，
		  方法执行顺序是setup()-->map(),所以会先加载setup方法
		  */
		@Override
		protected void setup(Context context)throws IOException, InterruptedException {
			//读取本地缓存中文件的数据
			BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("product")));
			String line;
			//如果读取的一行数据不为空，则把产品数据切分，存储在pmap中
			while(StringUtils.isNotEmpty(line=br.readLine())){
				String[] fields = line.split(",");
				pmap.put(fields[0], fields[1]);//K为商品id，v为商品名
			}
			br.close();
		}
		//由于已经持有完整的产品信息表，所以直接在map中实现join操作，不需要reduce操作，就不会有数据倾斜
		@Override
		protected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {
		    String oline = value.toString();//获取订单信息
		    String[] fields = oline.split(",");
		    String pName = pmap.get(fields[2]);//根据pid获取pName
		    k.set(oline+","+pName);//数据拼接
		    context.write(k, new Text(""));//输出
		}
	}
	public static void main(String[] args) throws Exception {
		Configuration cOnf= new Configuration();
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(MapJoin.class);
		job.setMapperClass(JoinMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
		
		FileInputFormat.setInputPaths(job, new Path(args[0]));//订单文件地址
		FileOutputFormat.setOutputPath(job, new Path(args[1]));//join后的文件数据地址
		//指定需要缓存文件到所有mapTask运行节点工作目录
		job.addCacheFile(new URI(args[2]));//args[2]缓存文件路径可以写死（product）
		//由于Map就把事情搞定了，所以不需要reduce阶段，reduceTask为0
		job.setNumReduceTasks(0);
		boolean res = job.waitForCompletion(true);
		System.exit(res?0:1);
	}
}

结果：

1001,20150710,P0001,2,小米

。。。。。。

推荐阅读

get
java drools5_Java Drools5.1 规则流基础【示例】（中）

五、规则文件及规则流EduInfoRule.drl:packagemyrules;importsample.Employ;ruleBachelorruleflow-group ... [详细]

蜡笔小新 2023-12-10 15:01:31
client
Netty拆包粘包问题解决 —— 特殊结束符

本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中，客户端和服务器协商定义一个特殊的分隔符号，只要没有发送分隔符号，就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]

蜡笔小新 2023-12-14 18:02:45
ip
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
main
如何在有序字符序列中插入新字符并保持有序

本文介绍了如何在给定的有序字符序列中插入新字符，并保持序列的有序性。通过示例代码演示了插入过程，以及插入后的字符序列。 ... [详细]

蜡笔小新 2023-12-14 11:16:33
main
Java高并发程序设计学习-线程安全的概念与synchronized

本文介绍了Java高并发程序设计中线程安全的概念与synchronized关键字的使用。通过一个计数器的例子，演示了多线程同时对变量进行累加操作时可能出现的问题。最终值会小于预期的原因是因为两个线程同时对变量进行写入时，其中一个线程的结果会覆盖另一个线程的结果。为了解决这个问题，可以使用synchronized关键字来保证线程安全。 ... [详细]

蜡笔小新 2023-12-13 15:43:03
php
Oracle数据库技术：如何选择cache或nocache参数来创建序列(sequence)

本文介绍了在Oracle数据库中创建序列时如何选择cache或nocache参数。cache参数可以提高序列的存取速度，但可能会导致序列丢失；nocache参数可以避免序列丢失，但在高并发访问时可能导致性能问题。文章详细解释了两者的区别和使用场景。 ... [详细]

蜡笔小新 2023-12-13 15:29:38
byte
Java中包装类的设计原因以及操作方法

本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中，除了对象类型，还有八大基本类型，为了将基本类型转换成对象，Java引入了包装类。文章通过介绍包装类的定义和实现，解答了为什么需要包装类的问题，并提供了简单易用的操作方法。通过本文的学习，读者可以更好地理解和应用Java中的包装类。 ... [详细]

蜡笔小新 2023-12-12 15:48:10
ip
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
byte
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
main
Android工程师面试准备及设计模式使用场景

本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 18:25:26
main
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
get
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
get
Android开发优化之软引用与弱引用的应用

本文介绍了在Android开发中使用软引用和弱引用的应用。如果一个对象只具有软引用，那么只有在内存不够的情况下才会被回收，可以用来实现内存敏感的高速缓存；而如果一个对象只具有弱引用，不管内存是否足够，都会被垃圾回收器回收。软引用和弱引用还可以与引用队列联合使用，当被引用的对象被回收时，会将引用加入到关联的引用队列中。软引用和弱引用的根本区别在于生命周期的长短，弱引用的对象可能随时被回收，而软引用的对象只有在内存不够时才会被回收。 ... [详细]

蜡笔小新 2023-12-10 16:33:12
byte
Python中sys模块的功能及用法详解

本文详细介绍了Python中sys模块的功能及用法，包括对解释器参数和功能的访问、命令行参数列表、字节顺序指示符、编译模块名称等。同时还介绍了sys模块中的新功能和call_tracing函数的用法。推荐学习《Python教程》以深入了解。 ... [详细]

蜡笔小新 2023-12-10 13:39:25
post
LVS 实现负载均衡的原理

LVS实现负载均衡的原理LVS负载均衡负载均衡集群是LoadBalance集群。是一种将网络上的访问流量分布于各个节点，以降低服务器压力，更好的向客户端 ... [详细]

蜡笔小新 2023-12-10 12:10:22

lin

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章