当前位置: 开发笔记 > 编程语言 > 正文

MapReduce_从单词统计看MapReduce

作者：永不放弃2702935973 | 来源：互联网 | 2023-09-16 22:56

本文由编程笔记#小编为大家整理，主要介绍了从单词统计看MapReduce相关的知识，希望对你有一定的参考价值。概述

本文由编程笔记#小编为大家整理，主要介绍了从单词统计看MapReduce相关的知识，希望对你有一定的参考价值。

概述

键值对构成了MapReduce的基本数据结构。键、值均可以是各种类型的数据，比如整型、浮点型、字符串甚至随机字节。当然，用户也可以定义他们自己的数据类型（类似于C++里面类的概念）

MapReduce包含Map和Reduce两个过程：

map执行过程:（k1，v1）→[（k2，v2）]

reduce
执行过程:（k2，[v2]）→[（k3，v3）]（[…]表示列表）

在单词次数统计问题中:

(1)对于mapper来说，输入的k1是文档ID，输入的v1是文档内容；输出的k2是字母，v2是该字母出现的次数；

(2)reducer的输入是经过分组的mapper的输出，输出的k3是字母，v3是经过聚集后字母出现的总次数;

过程分析

如上图

（1）第一个mapper
统计出文档A中a有一个，b有两个；

（2）第二个mapper
统计出文档B有3个c，文档C有6个c；

（3）
聚合操作(可选)：（c，3）和（c，6），它们经过聚合变成（c，9）

（4）
划分操作(可选)：确定把哪些键给哪些reducer处理

（5）经过
排序，基于键对键值对进行
分组，reducer负责处理相应的结果

单词次数统计问题

输入：文档集合

输出：文档集合中每个单词出现的次数

简单算法实现

Map函数

输入；（key：文档a，value：文档内容d）

输出：（key：单词t，value：1）

过程：

for all 单词t∈doc d do

输出（t，1）

Reduce 函数

输入：（key：单词t，value：单词个数{c1，c2，…}）

输出：（key：单词t，value：单词总数）

过程：

sum=0

for all c∈{ci，ca…} do

sum=sum+c

输出（t，sum）

MapReduce执行过程总结

1）将输入的每个键值对放到mapper中执行，生成另一个键值对列表（中间结果）；如（docid a，doc d）→[（term t，count1）];

2）中间结果按照键进行分组聚合；如（termt，[count1]）;

3）将每一组放到一个reducer中执行，输出结果写入文件系统

a）reducer内对每一组按照键顺序处理，reducer之间并行运行

b）r个reducer将会生成r个输出文件。如(termt,[count 1])-[(term t,count num)]

推荐阅读

sum
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
input
MIT 6.824 实验笔记：MapReduce 开发指南

本文详细记录了 MIT 6.824 课程中 MapReduce 实验的开发过程，包括环境搭建、实验步骤和具体实现方法。 ... [详细]

蜡笔小新 2024-11-18 12:05:23
sum
Go从入门到精通系列视频之go编程语言密码学哈希算法（二）

Go从入门到精通系列视频之go编程语言密码学哈希算法（二） ... [详细]

蜡笔小新 2024-11-21 10:55:36
数组
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
数组
如何提升Python处理约1GB数据集时的运行效率？

如何提升Python处理约1GB数据集时的运行效率？本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈，介绍了多种提高数据处理速度的技术，包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外，文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤，适用于从事推荐系统等领域的开发者。 ... [详细]

蜡笔小新 2024-10-27 02:13:48
bash
Docker安全策略与管理

本文探讨了Docker的安全挑战、核心安全特性及其管理策略，旨在帮助读者深入理解Docker安全机制，并提供实用的安全管理建议。 ... [详细]

蜡笔小新 2024-11-21 20:03:03
text
Oracle VM VirtualBox 使用指南：创建静态网页及高级功能

本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换，包括安装Guest Additions增强功能，以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]

蜡笔小新 2024-11-21 18:13:22
text
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
php
利用Windows EFS实现文件夹加密

Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具，特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹，以及加密过程中的注意事项。 ... [详细]

蜡笔小新 2024-11-20 18:57:46
php
MongoDB 高可用集群搭建指南：分片、读写分离与负载均衡

本文详细介绍了如何搭建一个高可用的MongoDB集群，包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]

蜡笔小新 2024-11-20 18:28:16
php
Linux命令操作指南：返回文件头与桌面的方法

本文介绍了在Linux环境下如何有效返回命令行状态、上一级目录及快速查找头文件和函数定义的方法。包括处理长时间运行命令、编辑器退出技巧、目录导航以及文件搜索策略。 ... [详细]

蜡笔小新 2024-11-20 16:56:14
bash
ARM平台下构建SSH服务端并实现远程访问

本文详细介绍了如何在ARM架构的目标设备上部署SSH服务端，包括必要的软件包下载、交叉编译过程以及最终的服务配置与测试。适合嵌入式开发人员和系统集成工程师参考。 ... [详细]

蜡笔小新 2024-11-20 14:13:38
text
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
function
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40

永不放弃2702935973

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章