hadoopmapred的执行过程

作者：永远路鸣 | 来源：互联网 | 2023-10-12 14:31

hadoop的map-red就是一个并行计算平台，我们在使用这个平台的时候，要做的事情就是提交自己定制的任务（job，主要定制map类，reduce类，combine类等类）,

hadoop的
map-red就是一个并行计算平台，我们在使用这个平台的时候，要做的事情就是提交自己定制的任务（job，主要定制map类，reduce类，combine类等类）,然后设置job的各种参数，比如设置mappe/reducer/combine类，
输入数据路径，输出数据路径，输出格式。然后可以根据日志或者web页面查看任务执行的情况，如果错误，通过web页面查看日志。对于map-red平台，我们可以设置各种参数，来使得我们提交的任务的执行效率得到优化，比如多少个reducer任务，分片大小等。

map-red的执行过程，首先分片由hadoop来完成，hadoop将完成的分片交给一个mapper任务，一个mapper任务可以不只执行一个分片，mapper任务的执行过程是，从data中读入一行，然后用我们自定义的mapper函数处理，每读入一行，调用mapper函数一次。
如果有多个reducer任务，hadoop还要进行分区，默认的分区器是“key.hash（reduce任务的个数）”（注：
可以写自己的分区器），也就是在一个分区中，是具有相同的hash值的key-value,
等到reducer任务运行的时候，会从对应于自身（hash对应）的多个mapper的相应分区中通过网络取过来放在本地，然后在reducer本地进行shuffle操作，shuffle操作是对多个map的输出进行一次重排序，因为单个map的输出已经是有序的啦（map写入磁盘前在内存中执行的），shuffle操作后进行reduc操作，将结果输出到目标地。（为什么要进行排序，为了reduce的输出？）

为了减少map和redu的之间传输的数据数量，在mapper操作完成后，在map处可以对中间数据进行一次combine处理，combine处理实质上是reduce数据的预处理在map本地的运行。combine是在map输出的中间数据写入到磁盘前运行，并且会反复运行，所以combine的另外一个意义也是使得map写入到磁盘的中间数据量更少。

如果没有reduce任务，hadoop会将map结果直接输出到目标地，如果有reduce，map的结果就是reduce的输入，即中间数据，hadoop把这些中间数据放在本地存储（是否是采用oracle的临时表空间的思想）。

hadoop map-red的执行过程,布布扣,bubuko.com

推荐阅读

php
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
php
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
php
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
uri
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
php
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
php
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
php
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
php
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
php
几何画板展示电场线与等势面的交互关系

几何画板是一款功能强大的物理教学软件，具备丰富的绘图和度量工具。它不仅能够模拟物理实验过程，还能通过定量分析揭示物理现象背后的规律，尤其适用于难以在实际实验中展示的内容。本文将介绍如何使用几何画板演示电场线与等势面之间的关系。 ... [详细]

蜡笔小新 2024-12-27 10:46:07
php
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
php
MySQL中枚举类型的所有可能值获取方法

本文介绍了一种在MySQL数据库中查询枚举（ENUM）类型字段所有可能取值的方法，帮助开发者更好地理解和利用这一数据类型。 ... [详细]

蜡笔小新 2024-12-27 10:36:44
php
实现密码输入框的掩码设置

本文介绍如何在应用程序中使用文本输入框创建密码输入框，并通过设置掩码来隐藏用户输入的内容。我们将详细解释代码实现，并提供专业的补充说明。 ... [详细]

蜡笔小新 2024-12-27 02:22:09
php
从JDE系统中提取完整字典数据

本文介绍如何通过SQL查询从JDE（JD Edwards）系统中提取所有字典数据，涵盖关键表的关联和字段选择。具体包括F0004和F0005系列表的数据提取方法。 ... [详细]

蜡笔小新 2024-12-26 21:04:46
php
启动MySQL服务的命令行步骤

本文详细介绍了如何通过命令行启动MySQL服务，包括打开命令提示符窗口、进入MySQL的bin目录、输入正确的连接命令以及注意事项。文中还提供了更多相关命令的资源链接。 ... [详细]

蜡笔小新 2024-12-26 20:16:36
php
使用 NSTimer 实现倒计时功能

本文介绍如何使用 NSTimer 实现倒计时功能，详细讲解了初始化方法、参数配置以及具体实现步骤。通过示例代码展示如何创建和管理定时器，确保在指定时间间隔内执行特定任务。 ... [详细]

蜡笔小新 2024-12-26 19:08:19

永远路鸣

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章