mapreduce理解_大数据

作者：王丹__-划_402 | 来源：互联网 | 2023-08-22 15:10

map:对不同的数据进行同种操作reduce：按keys把数据规约到一起看这篇文章请出去跑两圈，然后泡一壶茶，边喝茶，边看&

map:对不同的数据进行同种操作
reduce&＃xff1a;按keys 把数据规约到一起

看这篇文章请出去跑两圈&＃xff0c;然后泡一壶茶&＃xff0c;边喝茶&＃xff0c;边看&＃xff0c;看完你就对hadoop 与MapReduce的整体有所了解了。

【前言】

Hadoop是一个实现了Google云计算系统的开源系统&＃xff0c;包括并行计算模型Map/Reduce、分布式文件系统HDFS&＃xff0c;以及分布式数据库Hbase&＃xff0c;同时Hadoop的相关项目也很丰富&＃xff0c;包括ZooKeeper&＃xff0c;Pig&＃xff0c;Chukwa&＃xff0c;Hive&＃xff0c;Hbase&＃xff0c;Mahout&＃xff0c;flume等。

本文就hadoop的并行分布式计算模型MapReduce做一个简单的入门介绍。

【什么是Map/Reduce】

看看下面的各种解释&＃xff1a;

&＃xff08;1&＃xff09;MapReduce是hadoop的核心组件之一&＃xff0c;hadoop要实现分布式需要包括两部分&＃xff0c;一部分是分布式文件系统hdfs&＃xff0c;一部分是分布式计算框架mapreduce&＃xff0c;缺一不可&＃xff0c;也就是说&＃xff0c;可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。
&＃xff08;2&＃xff09;Mapreduce是一种编程模型&＃xff0c;是一种方法&＃xff0c;抽象理论。
&＃xff08;3&＃xff09;下面是一个关于一个程序员是如何跟妻子讲解什么是MapReduce&＃xff0c;文章很长请耐心的看。

我问妻子&＃xff1a;“你真的想要弄懂什么是MapReduce&＃xff1f;” 她很坚定的回答说“是的”。

因此我问道&＃xff1a;

我&＃xff1a; 你是如何准备洋葱辣椒酱的&＃xff1f;&＃xff08;以下并非准确食谱&＃xff0c;请勿在家尝试&＃xff09;
妻子&＃xff1a; 我会取一个洋葱&＃xff0c;把它切碎&＃xff0c;然后拌入盐和水&＃xff0c;最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。但这和MapReduce有什么关系&＃xff1f;
我&＃xff1a; 你等一下。让我来编一个完整的情节&＃xff0c;这样你肯定可以在15分钟内弄懂MapReduce。
妻子&＃xff1a; 好吧。
我&＃xff1a;现在&＃xff0c;假设你想用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱。你会怎么做呢&＃xff1f;
妻子&＃xff1a; 我会取薄荷叶一撮&＃xff0c;洋葱一个&＃xff0c;番茄一个&＃xff0c;辣椒一根&＃xff0c;大蒜一根&＃xff0c;切碎后加入适量的盐和水&＃xff0c;再放入混合研磨机里研磨&＃xff0c;这样你就可以得到一瓶混合辣椒酱了。

我&＃xff1a; 没错&＃xff0c;让我们把MapReduce的概念应用到食谱上。Map和Reduce其实是两种操作&＃xff0c;我来给你详细讲解下。Map&＃xff08;映射&＃xff09; 把洋葱、番茄、辣椒和大蒜切碎&＃xff0c;是各自作用在这些物体上的一个Map操作。所以你给Map一个洋葱&＃xff0c;Map就会把洋葱切碎。同样的&＃xff0c;你把辣椒&＃xff0c;大蒜和番茄一一地拿给Map&＃xff0c;你也会得到各种碎块。所以&＃xff0c;当你在切像洋葱这样的蔬菜时&＃xff0c;你执行就是一个Map操作。 Map操作适用于每一种蔬菜&＃xff0c;它会相应地生产出一种或多种碎块&＃xff0c;在我们的例子中生产的是蔬菜块。在Map操作中可能会出现有个洋葱坏掉了的情况&＃xff0c;你只要把坏洋葱丢了就行了。所以&＃xff0c;如果出现坏洋葱了&＃xff0c;Map操作就会过滤掉坏洋葱而不会生产出任何的坏洋葱块。Reduce&＃xff08;化简&＃xff09;这一阶段&＃xff0c;你将各种蔬菜碎都放入研磨机里进行研磨&＃xff0c;你就可以得到一瓶辣椒酱了。这意味要制成一瓶辣椒酱&＃xff0c;你需要研磨所有的原料。因此&＃xff0c;研磨机通常将map操作的蔬菜碎聚集在了一起。

妻子&＃xff1a; 所以&＃xff0c;这就是MapReduce?
我&＃xff1a; 你可以说是&＃xff0c;也可以说不是。其实这只是MapReduce的一部分&＃xff0c;MapReduce的强大在于分布式计算。
妻子&＃xff1a; 分布式计算&＃xff1f; 那是什么&＃xff1f;请给我解释下吧。
我&＃xff1a; 假设你参加了一个辣椒酱比赛并且你的食谱赢得了最佳辣椒酱奖。得奖之后&＃xff0c;辣椒酱食谱大受欢迎&＃xff0c;于是你想要开始出售自制品牌的辣椒酱。假设你每天需要生产10000瓶辣椒酱&＃xff0c;你会怎么办呢&＃xff1f;
妻子&＃xff1a; 我会找一个能为我大量提供原料的供应商。
我&＃xff1a;是的&＃xff0c;就是那样的。那你能否独自完成制作呢&＃xff1f;也就是说&＃xff0c;独自将原料都切碎&＃xff1f; 仅仅一部研磨机又是否能满足需要&＃xff1f;而且现在&＃xff0c;我们还需要供应不同种类的辣椒酱&＃xff0c;像洋葱辣椒酱、青椒辣椒酱、番茄辣椒酱等等。
妻子&＃xff1a; 当然不能了&＃xff0c;我会雇佣更多的工人来切蔬菜。我还需要更多的研磨机&＃xff0c;这样我就可以更快地生产辣椒酱了。
我&＃xff1a;没错&＃xff0c;所以现在你就不得不分配工作了&＃xff0c;你将需要几个人一起切蔬菜。每个人都要处理满满一袋的蔬菜&＃xff0c;而每一个人都相当于在执行一个简单的Map操作。每一个人都将不断地从袋子里拿出蔬菜来&＃xff0c;并且每次只对一种蔬菜进行处理&＃xff0c;也就是将它们切碎&＃xff0c;直到袋子空了为止。这样&＃xff0c;当所有的工人都切完&＃xff0c;工作台上就有了洋葱块、番茄块、和蒜蓉等等。
妻子&＃xff1a;但是我怎么会制造出不同种类的番茄酱呢&＃xff1f;
我&＃xff1a;现在你会看到MapReduce遗漏的阶段——搅拌。MapReduce将所有输出的蔬菜碎都搅拌在了一起&＃xff0c;这些蔬菜碎都是在以key为基础的map操作下产生的。搅拌将自动完成&＃xff0c;你可以假设key是一种原料的名字&＃xff0c;就像洋葱一样。所以全部的洋葱keys都会搅拌在一起&＃xff0c;并转移到研磨洋葱的研磨器里。这样&＃xff0c;你就能得到洋葱辣椒酱了。同样地&＃xff0c;所有的番茄也会被转移到标记着番茄的研磨器里&＃xff0c;并制造出番茄辣椒酱。

&＃xff08;4&＃xff09;上面都是从理论上来说明什么是MapReduce&＃xff0c;那么咱们在MapReduce产生的过程和代码的角度来理解这个问题。
如果想统计下过去10年计算机论文出现最多的几个单词&＃xff0c;看看大家都在研究些什么&＃xff0c;那收集好论文后&＃xff0c;该怎么办呢&＃xff1f;

方法一&＃xff1a;可以写一个小程序&＃xff0c;把所有论文按顺序遍历一遍&＃xff0c;统计每一个遇到的单词的出现次数&＃xff0c;最后就可以知道哪几个单词最热门了。这种方法在数据集比较小时&＃xff0c;是非常有效的&＃xff0c;而且实现最简单&＃xff0c;用来解决这个问题很合适。

方法二&＃xff1a;写一个多线程程序&＃xff0c;并发遍历论文。这个问题理论上是可以高度并发的&＃xff0c;因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器&＃xff0c;方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了&＃xff0c;我们必须自己同步共享数据&＃xff0c;比如要防止两个线程重复统计文件。

方法三&＃xff1a;把作业交给多个计算机去完成。我们可以使用方法一的程序&＃xff0c;部署到N台机器上去&＃xff0c;然后把论文集分成N份&＃xff0c;一台机器跑一个作业。这个方法跑得足够快&＃xff0c;但是部署起来很麻烦&＃xff0c;我们要人工把程序copy到别的机器&＃xff0c;要人工把论文集分开&＃xff0c;最痛苦的是还要把N个运行结果进行整合&＃xff08;当然我们也可以再写一个程序&＃xff09;。

方法四&＃xff1a;让MapReduce来帮帮我们吧&＃xff01;MapReduce本质上就是方法三&＃xff0c;但是如何拆分文件集&＃xff0c;如何copy程序&＃xff0c;如何整合结果这些都是框架定义好的。我们只要定义好这个任务&＃xff08;用户程序&＃xff09;&＃xff0c;其它都交给MapReduce。

map函数和reduce函数&＃xff1a;map函数和reduce函数是交给用户实现的&＃xff0c;这两个函数定义了任务本身。

map函数&＃xff1a;接受一个键值对&＃xff08;key-value pair&＃xff09;&＃xff0c;产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。

reduce函数&＃xff1a;接受一个键key&＃xff0c;以及相关的一组值&＃xff08;value list&＃xff09;&＃xff0c;将这组值进行合并产生一组规模更小的值&＃xff08;通常只有一个或零个值&＃xff09;。

统计词频的MapReduce函数的核心代码非常简短&＃xff0c;主要就是实现这两个函数。

map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, "1");

reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result &＃61; 0;
for each v in values:
result &＃43;&＃61; ParseInt(v);
Emit(AsString(result));

　　在统计词频的例子里&＃xff0c;map函数接受的键&＃xff08;key&＃xff09;是文件名&＃xff0c;值&＃xff08;value&＃xff09;是文件的内容&＃xff0c;map逐个遍历单词&＃xff0c;每遇到一个单词word就产生一个中间键值对&＃xff08;表示单词w咱又找到了一个&＃xff09;&＃xff1b;MapReduce将键相同&＃xff08;都是单词w&＃xff09;的键值对传给reduce函数&＃xff0c;这样reduce函数接受的键就是单词w&＃xff0c;值是一串"1"&＃xff08;最基本的实现是这样&＃xff0c;但可以优化&＃xff09;&＃xff0c;个数等于键为w的键值对的个数&＃xff0c;然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置&＃xff0c;存储在底层的分布式存储系统&＃xff08;GFS或HDFS&＃xff09;。

【MapReduce工作原理】

上图是论文里给出的MapReduce流程图。一切都是从最上方的user program开始的&＃xff0c;user program链接了MapReduce库&＃xff0c;实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。

&＃xff08;1&＃xff09;MapReduce库先把user program的输入文件划分为M份&＃xff08;M为用户定义&＃xff09;&＃xff0c;每一份通常有16MB到64MB&＃xff0c;如图左方所示分成了split0~split4&＃xff1b;然后使用fork将用户进程拷贝到集群内其它机器上。

&＃xff08;2&＃xff09;user program的副本中有一个称为master&＃xff0c;其余称为worker&＃xff0c;master是负责调度的&＃xff0c;为空闲worker分配作业&＃xff08;Map作业或者Reduce作业&＃xff09;&＃xff0c;worker的数量也是可以由用户指定的。

&＃xff08;3&＃xff09;被分配了Map作业的worker&＃xff0c;开始读取对应分片的输入数据&＃xff0c;Map作业数量是由M决定的&＃xff0c;和split一一对应&＃xff1b;Map作业从输入数据中抽取出键值对&＃xff0c;每一个键值对都作为参数传递给map函数&＃xff0c;map函数产生的中间键值对被缓存在内存中&＃xff08;环形缓冲区kvBuffer&＃xff09;。

&＃xff08;4&＃xff09;缓存的中间键值对会被定期写入本地磁盘&＃xff08;spill&＃xff09;&＃xff0c;而且被分为R个区&＃xff0c;R的大小是由用户定义的&＃xff0c;将来每个区会对应一个Reduce作业&＃xff1b;这些中间键值对的位置会被通报给master&＃xff0c;master负责将信息转发给Reduce worker。

&＃xff08;5&＃xff09;master通知分配了Reduce作业的worker它负责的分区在什么位置&＃xff08;肯定不止一个地方&＃xff0c;每个Map作业产生的中间键值对都可能映射到所有R个不同分区&＃xff09;&＃xff0c;当Reduce worker把所有它负责的中间键值对都读过来后&＃xff0c;先对它们进行排序&＃xff0c;使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业&＃xff0c;所以排序是必须的。

&＃xff08;6&＃xff09;reduce worker遍历排序后的中间键值对&＃xff0c;对于每个唯一的键&＃xff0c;都将键与关联的值传递给reduce函数&＃xff0c;reduce函数产生的输出会添加到这个分区的输出文件中。

&＃xff08;7&＃xff09;当所有的Map和Reduce作业都完成了&＃xff0c;master唤醒正版的user program&＃xff0c;MapReduce函数调用返回user program的代码。

所有执行完毕后&＃xff0c;MapReduce输出放在了R个分区的输出文件中&＃xff08;分别对应一个Reduce作业&＃xff09;。用户通常并不需要合并这R个文件&＃xff0c;而是将其作为输入交给另一个MapReduce程序处理。整个过程中&＃xff0c;输入数据来自底层分布式文件系统&＃xff08;hdfs&＃xff09;&＃xff0c;中间数据是放在本地文件系统的&＃xff0c;最终输出数据是写入hdfs的。注意Map/Reduce作业和map/reduce函数的区别&＃xff1a;Map作业处理一个输入数据的分片&＃xff0c;可能需要调用多次map函数来处理每个输入键值对&＃xff1b;Reduce作业处理一个分区的中间键值对&＃xff0c;期间要对每个不同的键调用一次reduce函数&＃xff0c;Reduce作业最终也对应一个输出文件。

【总结】

通过以上你是否了解什么是MapReduce了&＃xff0c;什么是key&＃xff0c;怎么过滤有效数据&＃xff0c;怎么得到自己想要的数据。

MapReduce是一种编程思想&＃xff0c;可以使用java来实现&＃xff0c;C&＃43;&＃43;来实现。Map的作用是过滤一些原始数据&＃xff0c;Reduce则是处理这些数据&＃xff0c;得到我们想要的结果&＃xff08;比如造出番茄辣椒酱&＃xff09;。也就是我们使用hadoop&＃xff0c;比如进行日志处理之后&＃xff0c;得到我们关心的数据。

推荐阅读

function
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
scala
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
python
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
python
Spring Boot 入门指南：Hello World 示例

本教程详细介绍了如何使用 Spring Boot 创建一个简单的 Hello World 应用程序。适合初学者快速上手。 ... [详细]

蜡笔小新 2024-11-12 15:18:38
tree
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
copy
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
import
iOS 不定参数详解

iOS 不定参数详解 ... [详细]

蜡笔小新 2024-11-14 17:12:05
header
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
function
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
email
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
import
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
const
C语言检测

字符串学习时间：1.5W（“W”周，下同）知识点checkliststrlen()函数的返回值是什么类型的？字 ... [详细]

蜡笔小新 2024-11-12 19:23:53
function
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
command
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
import
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53

王丹__-划_402

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章