当前位置: 开发笔记 > 数据库 > 正文

Hadoop的Map-sidejoin和Reduce-sidejoin

作者：直由飞翔_447 | 来源：互联网 | 2017-05-12 15:27

Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如datasetA是关于用户个人信息的，key是用户id，value是用户姓名等等个人信息；datasetB是关于用户交易记录的，key是用

Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，key是用户id，value是用户姓名等等个人信息；dataset B是关于用户交易记录的，key是用

Hadoop的Map side join和Reduce side join

Hadoop中连接（join）操作很常见，Hadoop“连接”的概念本身，和SQL的“连接”是一致的。SQL的连接，在维基百科中已经说得非常清楚。比如dataset A是关于用户个人信息的，key是用户id，value是用户姓名等等个人信息；dataset B是关于用户交易记录的，key是用户id，value是用户的交易历史等信息。我们当然可以对这两者以共同键用户id为基准来连接两边的数据。

首先，在一切开始之前，先确定真的需要使用Hadoop的连接操作吗？

如果要把两个数据集合放到一起操作，Hadoop还提供了Side Data Distribution（data sharing）的方式，这种方式对于小数据量的情况下效率要高得多，说白了就是把某些数据缓存到本地，例如在本地内存中，直接操作执行，具体包括两种子方式：

使用Job Configuration传递；
使用Distributed Cache。

当数据量比较大时，是不适合采用Side Data Distribution的，这时候就需要考虑Join了。

Map-side Join

Map-side Join会将数据从不同的dataset中取出，连接起来并放到相应的某个Mapper中处理，因此key相同的数据肯定会在同一个Mapper里面一起得到处理的。如果Mapper前dataset中的数据是无序的，那么对于dataset A的任意一个key，要到其它的dataset中寻找该key对应的数据，造成的复杂度是n的x次方，x等于dataset的个数。因此要求dataset是有序的，这样每个对于任何一个Mapper来说，每一个dataset都只需要遍历一次就可以取到所有需要的数据。Map-side Join对dataset的限制很多，进入不仅仅是有序，不同的dataset中数据的partition方式也要一致，其实最终目的就是保证同样key的数据同时进入一个Mapper。

Hadoop的Map side join和Reduce side join

Reduce-side Join

Reduce-side Join原理上要简单得多，它也不能保证相同key但分散在不同dataset中的数据能够进入同一个Mapper，整个数据集合的排序在Mapper之后的shuffle过程中完成。相对于Map-side Join，它不需要每个Mapper都去读取所有的dataset，这是好处，但也有坏处，即这样一来Mapper之后需要排序的数据集合会非常大，因此shuffle阶段的效率要低于Map-side Join。如果希望在shuffle之后，进入Reducer的时候，value列表是有序的，那么就需要使用Hadoop的Secondary Sort（移步此文）。

Hadoop的Map side join和Reduce side join

不管使用Map-side Join还是Reduce-side Join，都要求进行Join的数据满足某一抽象，这个抽象类型即为进入Mapper或者Reducer的input key的类型。

文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接《四火的唠叨》

你可能也喜欢：

hadoop
sql

推荐阅读

sql
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
数据库
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
数据库
使用C#开发SQL Server存储过程的指南

本文介绍如何利用C#在SQL Server中创建存储过程，涵盖背景、步骤和应用场景，旨在帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-27 14:24:17
mysql
探索适用于Spring Boot的Web版SQL管理工具

本文探讨了适用于Spring Boot应用程序的Web版SQL管理工具，这些工具不仅支持H2数据库，还能够处理MySQL和Oracle等主流数据库的表结构修改。 ... [详细]

蜡笔小新 2024-12-27 14:21:10
mysql
网站与MySQL数据库的连接与交互

本文详细介绍了如何通过多种编程语言（如PHP、JSP）实现网站与MySQL数据库的连接，包括创建数据库、表的基本操作，以及数据的读取和写入方法。 ... [详细]

蜡笔小新 2024-12-27 14:09:23
数据库
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
数据库
DataGridView 保存时，为什么当前单元格的值无法保存？

在使用 DataGridView 时，如果在当前单元格中输入内容但光标未移开，点击保存按钮后，输入的内容可能无法保存。只有当光标离开单元格后，才能成功保存数据。本文将探讨如何通过调用 DataGridView 的内置方法解决此问题。 ... [详细]

蜡笔小新 2024-12-27 09:27:14
数据库
在 Linux 系统中部署 PostgreSQL 数据库

本文详细介绍了如何在 Linux 平台上安装和配置 PostgreSQL 数据库。通过访问官方资源并遵循特定的操作步骤，用户可以在不同发行版（如 Ubuntu 和 Red Hat）上顺利完成 PostgreSQL 的安装。 ... [详细]

蜡笔小新 2024-12-27 03:46:27
数据库
如何在PostgreSQL中查看数据表

本文将指导您使用pgAdmin工具连接到PostgreSQL数据库，并展示如何浏览和查找其中的数据表。通过简单的步骤，您可以轻松访问所需的表结构和数据。 ... [详细]

蜡笔小新 2024-12-26 19:55:24
数据库
利用存储过程构建年度日历表的详细指南

本文将介绍如何使用SQL存储过程创建一个完整的年度日历表。通过实例演示，帮助读者掌握存储过程的应用技巧，并提供详细的代码解析和执行步骤。 ... [详细]

蜡笔小新 2024-12-26 18:20:17
数据库
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
sql
解决SQL Server动态SQL中LIKE语句参数传递导致无返回值的问题

在使用SQL Server进行动态SQL查询时，如果遇到LIKE语句无法正确返回预期结果的情况，通常是因为参数传递方式不当。本文将详细探讨这一问题，并提供解决方案及相关的技术背景。 ... [详细]

蜡笔小新 2024-12-26 17:02:33
mysql
SQL 触发器实现视图插入操作

本文介绍如何通过创建替代插入触发器，使对视图的插入操作能够正确更新相关的基本表。涉及的表包括：飞机（Aircraft）、员工（Employee）和认证（Certification）。 ... [详细]

蜡笔小新 2024-12-26 15:53:40
mysql
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
sql
Qt 环境下 SQLite 动态创建表的实现方法

SQLite 动态创建多个表的需求在网络上有不少讨论，但很少有详细的解决方案。本文将介绍如何在 Qt 环境中使用 QString 类轻松实现 SQLite 表的动态创建，并提供详细的步骤和示例代码。 ... [详细]

蜡笔小新 2024-12-26 15:11:34

直由飞翔_447

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章