当前位置: 开发笔记 > 编程语言 > 正文

GoogleMapReduce有啥巧妙优化？

作者：月光下大手拉S小手 | 来源：互联网 | 2023-09-16 18:57

搞架构的人，Google的架构论文是必看的，但好像大家都不愿意去啃英文论文。故把自己的读书笔记，加入自己的思考，分享给大家。

搞架构的人&＃xff0c;Google的架构论文是必看的&＃xff0c;但好像大家都不愿意去啃英文论文。故把自己的读书笔记&＃xff0c;加入自己的思考&＃xff0c;分享给大家。

《MapReduce到底解决什么问题&＃xff1f;》做了简介&＃xff0c;这是第二篇&＃xff0c;Google MapReduce优化启示&＃xff08;中&＃xff09;。

什么是MapReduce&＃xff1f;

MapReduce这个编程模型解决什么问题&＃xff1f;

Google MapReduce是Google产出的一个编程模型&＃xff0c;同时Google也给出架构实现。它能够解决“能用分治法解决的问题”。

同时&＃xff0c;前文以“统计大量文档中单词出现的个数”为例&＃xff0c;例举了如何“先分再合”的撰写map与reduce来解决实际问题。

画外音&＃xff0c;强烈建议回顾一下前情提要&＃xff1a;

《MapReduce到底解决什么问题&＃xff1f;》。

MapReduce的核心思路是&＃xff1a;

并行
先分再合

下图简述了MR计算“词频统计”的过程。

从左到右四个部分&＃xff0c;分别是&＃xff1a;

输入文件
分&＃xff1a;M个并行的map计算实例
合&＃xff1a;R个并行的reduce计算实例
输出结果

先看最后一步&＃xff0c;reduce输出最终结果。

可以看到&＃xff0c;R个reduce实例并发进行处理&＃xff0c;直接输出最后的计数结果。

实例1输出&＃xff1a;(a, 256)(able, 128)(emacs, 1)

实例2输出&＃xff1a;(f*ck, 32768) (coding, 65535)

实例3输出&＃xff1a;(vim,65535)(x, 16)(zero, 258)

画外音&＃xff1a;这就是总结果&＃xff0c;可以看到vim比emacs受欢迎很多。

需要理解的是&＃xff0c;由于这是业务计算的最终结果&＃xff0c;一个单词的计数不会出现在两个实例里。即&＃xff1a;如果(a, 256)出现在了实例1的输出里&＃xff0c;就一定不会出现在其他实例的输出里。

画外音&＃xff1a;否则的话&＃xff0c;还需要合并&＃xff0c;就不是最终结果了。

再看中间步骤&＃xff0c;map到reduce的过程。

可以看到&＃xff0c;M个map实例的输出&＃xff0c;会作为R个reduce实例的输入。

潜在问题一&＃xff1a;每个map都有可能输出(a, 1)&＃xff0c;而最终结果(a, 256)必须由一个reduce输出&＃xff0c;那如何保证每个map输出的同一个key&＃xff0c;落到同一个reduce上去呢&＃xff1f;

这就是“分区函数”的作用。

什么是分区函数&＃xff1f;

分区函数&＃xff0c;是使用MapReduce的用户需所实现的&＃xff0c;决定map输出的每一个key应当落到哪个reduce上的函数。

画外音&＃xff1a;如果用户没有实现&＃xff0c;会使用默认分区函数。

以词频统计的应用为例&＃xff0c;分区函数可能是&＃xff1a;

(1) 以[a-g]开头的key落到第一个reduce实例&＃xff1b;

(2) 以[h-n]开头的key落到第二个reduce实例&＃xff1b;

(3) 以[o-z]开头的key落到第三个reduce实例&＃xff1b;

画外音&＃xff1a;有点像数据库水平切分的“范围法”。

分区函数实现要点是什么&＃xff1f;

为了保证每一个reduce实例都能够差不多时间结束工作任务&＃xff0c;分区函数的实现要点是&＃xff1a;尽量负载均衡。

画外音&＃xff1a;即数据均匀分摊。

上述词频统计的分区函数&＃xff0c;就不是负载均衡的&＃xff0c;有些reduce实例处理的单词多&＃xff0c;有些reduce处理的单词少&＃xff0c;这样就可能出现&＃xff0c;所有reduce实例都处理结束&＃xff0c;最后等待一个长尾reduce的情况。

对于词频统计&＃xff0c;负载更为均衡的分区函数为&＃xff1a;

hash(key) % 3

画外音&＃xff1a;有点像数据库水平切分的“哈希法”。

潜在问题二&＃xff1a;每个map都有可能输出多个(a, 1)&＃xff0c;这样无形中增大了网络带宽资源&＃xff0c;以及reduce的计算资源&＃xff0c;有没有办法进行优化呢&＃xff1f;

这就是“合并函数”的作用。

什么是合并函数&＃xff1f;

有时&＃xff0c;map产生的中间key的重复数据比重很大&＃xff0c;可以提供给用户一个自定义函数&＃xff0c;在一个map实例完成工作后&＃xff0c;本地就做一次合并&＃xff0c;这样网络传输与reduce计算资源都能节省很多。

合并函数在每个map任务结束前都会执行一次&＃xff0c;一般来说&＃xff0c;合并函数与reduce函数是一样的&＃xff0c;区别是&＃xff1a;

合并函数执行map实例本地数据合并
reduce函数执行最终的合并&＃xff0c;会收集多个map实例的数据

对于词频统计应用&＃xff0c;合并函数可以将&＃xff1a;

一个map实例的多个(a, 1)合并成一个(a, $count)输出。

最后看第一个个步骤&＃xff0c;输入文件到map的过程。

潜在问题三&＃xff1a;如何确定文件到map的输入呢&＃xff1f;

随意即可&＃xff0c;只要负载均衡&＃xff0c;均匀切分输入文件大小就行&＃xff0c;不用管分到哪个map实例。

画外音&＃xff1a;无论分到那个map都能正确处理。

结论

Google MapReduce实施了一系列的优化。

分区函数&＃xff1a;保证不同map输出的相同key&＃xff0c;落到同一个reduce里
合并函数&＃xff1a;在map结束时&＃xff0c;对相同key的多个输出做本地合并&＃xff0c;节省总体资源
输入文件到map如何切分&＃xff1a;随意&＃xff0c;切分均匀就行

希望大家对MapReduce的优化思路有一个了解&＃xff0c;思路比结论更重要。

下章&＃xff0c;讲Google MapReduce的工程架构实现。

架构师之路-分享可落地的技术文章

推荐阅读

utf-8
Zabbix自定义监控与邮件告警配置实践

本文详细介绍了如何在Zabbix中添加自定义监控项目，配置邮件告警功能，并解决测试告警时遇到的邮件不发送问题。 ... [详细]

蜡笔小新 2024-11-22 08:33:19
filter
设置Shadowsocks公共代理的关键步骤

本文详细介绍了如何正确设置Shadowsocks公共代理，包括调整超时设置、检查系统限制、防止滥用及遵守DMCA法规等关键步骤。 ... [详细]

蜡笔小新 2024-11-20 20:41:33
filter
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
const
深入解析C语言中的关键字及其分类

本文将全面介绍C语言中的关键字，并按照功能将其分为数据类型关键字、控制结构关键字、存储类别关键字和其他关键字四大类，旨在帮助读者更好地理解和运用这些基本元素。C语言中共有32个关键字。 ... [详细]

蜡笔小新 2024-11-22 09:55:47
cmd
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
const
Singleton单例模式和DoubleChecked Locking双重检查锁定模式

问题描述现在，不管开发一个多大的系统（至少我现在的部门是这样的），都会带一个日志功能；在实际开发过程中 ... [详细]

蜡笔小新 2024-11-21 15:14:45
split
深入探讨前端代码优化策略

本文深入讨论了前端开发中代码优化的关键技术，包括JavaScript、HTML和CSS的优化方法，旨在提升网页加载速度和用户体验。 ... [详细]

蜡笔小新 2024-11-21 10:57:01
config
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
config
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
main
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
function
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
split
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
split
六个关键步骤掌握Python数据分析，探索六款小众但强大的数据处理库

Python 数据分析领域不仅拥有高质量的开发环境，还提供了众多功能强大的第三方库。本文将介绍六个关键步骤，帮助读者掌握 Python 数据分析的核心技能，并深入探讨六款虽不广为人知但却极具潜力的数据处理库，如 Pandas 的替代品和新兴的可视化工具，助力数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-10-29 11:26:54
split
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40

月光下大手拉S小手

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章