shuffle

作者：519cxf | 来源：互联网 | 2023-09-08 13:36

Shuffle过程Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程shuffle是MR的心脏。map端当Map程序开始产生结果的时候，

Shuffle过程

Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程shuffle是MR的心脏。

map 端

当Map程序开始产生结果的时候&＃xff0c;并不是直接写到文件的&＃xff0c;而是利用缓存做一些排序方面的预处理操作

每个Map任务都有一个循环内存缓冲区&＃xff08;默认100MB, 可改io.sort.mb进行调整&＃xff09;&＃xff0c;当缓存的内容达到80%时&＃xff0c;后台线程开始将内容溢出到(spill)磁盘(linux文件中, 并非hdfs)&＃xff0c;此时map输出继续写到缓冲区&＃xff0c;但如果缓冲区满了&＃xff0c;map会被阻塞直到写磁盘过程完成。

写文件使用round-robin&＃xff08;轮询&＃xff09;方式。在写入文件之前&＃xff0c;线程先将数据按照Reduce进行分区。对于每一个分区&＃xff0c;都会在内存中根据key进行排序&＃xff0c;如果配置了Combiner&＃xff0c;则排序后执行Combiner&＃xff08;Combine之后可以减少写入文件和传输的数据&＃xff09;

每次结果达到缓冲区的阀值时&＃xff0c;都会创建一个文件&＃xff0c;在Map结束时&＃xff0c;可能会产生大量的文件。在Map完成前&＃xff0c;会将这些文件进行合并和排序。如果文件的数量超过3个&＃xff0c;则会再次运行Combiner&＃xff08;1、2个文件就没有必要了&＃xff09;

如果配置了压缩&＃xff0c;则最终写入的文件会先进行压缩&＃xff0c;这样可以减少写入和传输的数据

一旦Map完成&＃xff0c;则通知任务管理器&＃xff0c;此时Reduce就可以开始复制结果数据

reduce 端
每个节点的map都将结果写入了本地磁盘中&＃xff0c;reduce需要将map的结果通过集群拉取过来&＃xff0c;这里要注意的是&＃xff0c;需要等到所有map任务结束后reduce才会对map的结果进行拷贝&＃xff0c;由于reduce函数有几个复制线程&＃xff0c;以至于它可以同时拉取多个map的输出结果。默认的为5个线程&＃xff08;可通过修改配置mapreduce.reduce.shuffle.parallelcopies来修改其个数&＃xff09;

这里有个问题&＃xff0c;那么reducers怎么知道从哪些机器拉取数据呢&＃xff1f;
当所有map的任务结束后&＃xff0c;applicationMaster通过心跳机制&＃xff08;heartbeat mechanism)&＃xff0c;由它知道mapping的输出结果与机器host,所以reducer会定时的通过一个线程访问applicationmaster请求map的输出结果。

　　Map的结果将会被拷贝到reduce task的JVM的内存中&＃xff08;内存大小可在mapreduce.reduce.shuffle.input.buffer.percent中设置&＃xff09;如果不够用&＃xff0c;则会写入磁盘。当内存缓冲区的大小到达一定比例时&＃xff08;可通过mapreduce.reduce.shuffle.merge.percent设置)或map的输出结果文件过多时&＃xff08;可通过配置mapreduce.reduce.merge.inmen.threshold)&＃xff0c;将会除法合并(merged)随之写入磁盘。

　　这时要注意&＃xff0c;所有的map结果这时都是被压缩过的&＃xff0c;需要先在内存中进行解压缩&＃xff0c;以便后续合并它们。&＃xff08;合并最终文件的数量可通过mapreduce.task.io.sort.factor进行配置&＃xff09; 最终reduce进行运算进行输出。

转:https://www.cnblogs.com/SleepyLemon/p/8372597.html

推荐阅读

text
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
text
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
ip
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
md5
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
ip
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
text
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
ip
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
ip
如何优化MySQL数据库性能以提升查询效率和系统稳定性

如何优化MySQL数据库性能以提升查询效率和系统稳定性 ... [详细]

蜡笔小新 2024-11-09 13:48:51
text
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
case
本地存储组件实现对IE低版本浏览器的兼容性支持

本地存储组件实现对IE低版本浏览器的兼容性支持 ... [详细]

蜡笔小新 2024-11-11 22:42:37
ip
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
request
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
ip
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
ip
Git命令基础应用指南

本指南详细介绍了Git命令的基础应用，包括如何使用`git clone`从远程服务器克隆仓库（例如：`git clone [url/path/repository]`）以及如何克隆本地仓库（例如：`git clone [local/path/repository]`）。此外，还提供了常见的Git操作技巧，帮助开发者高效管理代码版本。 ... [详细]

蜡笔小新 2024-11-11 09:19:38
ip
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44

519cxf

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章