热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MapReduce的计算模型(编程模型)

MapReduce的主要应用场景可以转化为MR任务的条件:问题必须可以拆分子问题必须独立数据结构能够满足key-value的这样的模式常见场景:

 

MapReduce的主要应用场景

  可以转化为MR任务的条件:

  • 问题必须可以拆分
  • 子问题必须独立
  • 数据结构能够满足key-value的这样的模式

  常见场景:

  • 计数与求和,如:日志查询、统计分析
  • 整理归类,如:构建倒排索引,ETL(Extract-Transform-Load 用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。)、数据查询校验
  • 分布式任务执行,如:性能测试
  • 排序,排重,如:数据分析,ETL
  • 关系运算,如:连接、投影
  • 图处理,如:网页索引,图分析

 MapReduce的不适用的场景

  • 任务之间有结果依赖,如 斐波那契数列 Fn=F(n-1)+F(n-2)
  • 处理需要及时相应的任务,高并发请求的任务

MapReduce开发基本思路和流程

  思路

  • 任务是否可以拆分?
  • 子任务是否独立?
  • 树立业务需求,将数据需求转化为(K,V)模式
  • 选择设计K和V
  • 设计K和V的经过map和reduce的变换过程,一次迭代不够则需要多次

  流程

  • 继承Mapper类,实现map函数
  • 继承Reducer类,实现reduce函数
  • 设置Job相关信息
  • 提交Job运行

MapReduce    Java API


推荐阅读
  • 为什么80%的码农都做不了架构师?#0系列目录#聊聊远程通信Java远程通讯技术及原理分析聊聊Socket、TCPIP、HTTP、FTP及网 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 一、过滤器1.1概述(1)过滤器(Filters)提供了一种执行文本转换的方法,比如说都转换成大写字母或者几乎 ... [详细]
  • 从入门到真香!java语言三大特性
    如何提升自己的实力?Step1:梳理自己的知识对照下面这份学习大纲,梳理出自己的知识盲区,这份大纲里面的技术点完全对标P ... [详细]
  • 实战分析SpringBoot整合JSON,面试题附答案
    前言作为同时具备高性能、高可靠和高可扩 ... [详细]
  • 微服务应用性能如何?APM监控工具来告诉你
    当微服务系统越来越庞大,各个服务间的调用关系也变得越来越复杂,需要一个工具来帮忙理清请求调用的服务链路。之前使用的是Sleuth+Zipkin的解决方案,最近发现应 ... [详细]
  • 祖先|目的地_logback架构
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了logback架构相关的知识,希望对你有一定的参考价值。logback的架构 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mongodb 监控权限_运维监控产品分析篇
    开源运维监控系统篇1.zabbix用户群:85%以上的泛互联网企业。优点:支持多平台的企业级分布式开源监控软件安装部署简单,多种数据采集 ... [详细]
  • ASP.NETCoreZero笔记(PowerTools)
    安装ASP.NETCoreZeroPowerTool根据官方的介绍,使用该工具,可以快速得创建具备单个表结构及父子表结构的服务以及前端页面。服务:指的是生产对应基础功能webApi ... [详细]
  • MySQL重大Bug!自增主键竟然不是连续递增?
    MySQL重大Bug!自增主键竟然不是连续递增? ... [详细]
author-avatar
手机用户2602938185
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有