热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MapReduce_从单词统计看MapReduce

本文由编程笔记#小编为大家整理,主要介绍了从单词统计看MapReduce相关的知识,希望对你有一定的参考价值。概述
本文由编程笔记#小编为大家整理,主要介绍了从单词统计看MapReduce相关的知识,希望对你有一定的参考价值。


概述



键值对构成了MapReduce的基本数据结构。键、值均可以是各种类型的数据,比如整型、浮点型、字符串甚至随机字节。当然,用户也可以定义他们自己的数据类型(类似于C++里面类的概念)


MapReduce包含Map和Reduce两个过程:


map执行过程:(k1,v1)→[(k2,v2)]


reduce
执行过程:(k2,[v2])→[(k3,v3)]([…]表示列表)



在单词次数统计问题中:


(1)对于mapper来说,输入的k1是文档ID,输入的v1是文档内容;输出的k2是字母,v2是该字母出现的次数;


(2)reducer的输入是经过分组的mapper的输出,输出的k3是字母,v3是经过聚集后字母出现的总次数;


过程分析




如上图




(1)第一个mapper
统计出文档A中a有一个,b有两个;


(2)第二个mapper
统计出文档B有3个c,文档C有6个c;


(3)
聚合操作(可选):(c,3)和(c,6),它们经过聚合变成(c,9)


(4)
划分操作(可选):确定把哪些键给哪些reducer处理


(5)经过
排序,基于键对键值对进行
分组,reducer负责处理相应的结果


单词次数统计问题


输入:文档集合


输出:文档集合中每个单词出现的次数


简单算法实现




Map函数


输入;(key:文档a,value:文档内容d)


输出:(key:单词t,value:1)


过程:

for all 单词t∈doc d do

    输出(t,1)

Reduce 函数



输入:(key:单词t,value:单词个数{c1,c2,…})


输出:(key:单词t,value:单词总数)


过程:


sum=0

for all c∈{ci,ca…} do



    sum=sum+c


输出(t,sum)

MapReduce执行过程总结



1)将输入的每个键值对放到mapper中执行,生成另一个键值对列表(中间结果);如(docid a,doc d)→[(term t,count1)];


2)中间结果按照键进行分组聚合;如(termt,[count1]);


3)将每一组放到一个reducer中执行,输出结果写入文件系统


a)reducer内对每一组按照键顺序处理,reducer之间并行运行

b)r个reducer将会生成r个输出文件。如(termt,[count 1])-[(term t,count num)]


推荐阅读
  • PHP中元素的计量单位是什么? ... [详细]
  • 本文详细记录了 MIT 6.824 课程中 MapReduce 实验的开发过程,包括环境搭建、实验步骤和具体实现方法。 ... [详细]
  • Go从入门到精通系列视频之go编程语言密码学哈希算法(二) ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • 本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换,包括安装Guest Additions增强功能,以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]
  • OBS Studio自动化实践:利用脚本批量生成录制场景
    本文探讨了如何利用OBS Studio进行高效录屏,并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]
  • Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具,特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹,以及加密过程中的注意事项。 ... [详细]
  • 本文详细介绍了如何搭建一个高可用的MongoDB集群,包括环境准备、用户配置、目录创建、MongoDB安装、配置文件设置、集群组件部署等步骤。特别关注分片、读写分离及负载均衡的实现。 ... [详细]
  • 本文介绍了在Linux环境下如何有效返回命令行状态、上一级目录及快速查找头文件和函数定义的方法。包括处理长时间运行命令、编辑器退出技巧、目录导航以及文件搜索策略。 ... [详细]
  • 本文详细介绍了如何在ARM架构的目标设备上部署SSH服务端,包括必要的软件包下载、交叉编译过程以及最终的服务配置与测试。适合嵌入式开发人员和系统集成工程师参考。 ... [详细]
  • 本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件,并详细解释了 SequenceFile 的结构和用途。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Hadoop——实验七:MapReduce编程实践
    文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本,安装hadoop-eclipse-kepler-plugi ... [详细]
author-avatar
永不放弃2702935973
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有