当前位置: 开发笔记 > 编程语言 > 正文

Mapreduce概述和WordCount程序

作者：男孩艹艹 | 来源：互联网 | 2023-09-23 12:16

一、Mapreduce概述Mapreduce是分布式程序编程框架，也是分布式计算框架，它简化了开发！Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运

一、Mapreduce概述

　　Mapreduce是分布式程序编程框架，也是分布式计算框架，它简化了开发！

　　Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序，并发的运行在hadoop集群上。

二、Mapreduce优缺点

　　优点：1.易于编程：只用实现几个接口即可完成一个并发的程序。

　　　　　2.良好的拓展性：再不行当前程序运行的情况下，可以通过增加节点来解决用户/数据扩展，计算量增加的问题。

　　　　　3.高容错性：可以运行在廉价的集群机器上。

　　　　　4.适合处理PB级别以上的离线处理。

　　缺点：1.不擅长做实时计算、流式计算。

　　　　　2.不支持DAG(有向图)计算，有依赖的程序(spark支持)。

　　　　　3.每次把计算结果写入磁盘当中，造成磁盘io，性能较低。

三、Mapreduce编程思想

　　需求：统计一个200M的单词文件，查询出每个单词出现的次数。

　　思想：1.将200M的文件切分为两块，128M和72M；

　　　　　2.将两块文件分别交给两个maptask处理，对数据进行读取，切分，封装，然后传输到reducetask；

　　　　　3.reducetask将数据再次整合，累加，输出到结果文件中。

　　注意：mapreduce中的所有maptask都是并行运行的，reducetask也是，

　　　　但是reducetask的运行要依赖maptask的输出。

四、WordCount程序

/**
 * @author: PrincessHug
 * @date: 2019/3/24, 0:52
 * @Blog: https://www.cnblogs.com/HelloBigTable/
 */
public class WordCountMapper extends Mapper {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //读取数据
        String line = value.toString();

        //切分数据
        String[] fields = line.split(" ");

        //传输数据
        for (String f:fields){
            context.write(new Text(f),new IntWritable(1));
        }
    }
}

public class WordCountReducer extends Reducer {
    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        //累加
        int sum = 0;
        for (IntWritable i:values){
            sum += i.get();
        }
        //输出
        context.write(key,new IntWritable(sum));
    }
}

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //配置，job对象
        Configuration cOnf= new Configuration();
        Job job = Job.getInstance();

        //设置运行类
        job.setJarByClass(WordCountDriver.class);

        //设置Mapper，Reducer类
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //设置Mapper输出数据类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置Reducer输出数据类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置输入输出流
        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\wordcount\\in"));
        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\wordcount\\out"));

        //提交任务
        if (job.waitForCompletion(true)){
            System.out.println("运行完成！");
        }else {
            System.out.println("运行失败！");
        }

    }

}

Mapreduce概述和WordCount程序

推荐阅读

html
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
web
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
const
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
web
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
ip
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
ip
如何在Windows内置的Ubuntu系统中更改SSH服务的端口号设置

如何在Windows内置的Ubuntu系统中更改SSH服务的端口号设置 ... [详细]

蜡笔小新 2024-11-11 17:01:31
ip
在 Windows 系统上使用 Docker 构建 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境

本文介绍了如何在 Windows 系统上利用 Docker 构建一个包含 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境。通过详细的步骤说明，帮助开发者快速搭建和配置这一复杂的技术栈，提升开发效率和环境一致性。 ... [详细]

蜡笔小新 2024-11-07 06:06:15
web
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
python
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
object
在GitHub上克隆vue-element-admin项目时遇到依赖安装错误

在 GitHub 上克隆 vue-element-admin 项目后，使用 `npm install` 安装依赖时遇到了未知的 Git 错误。具体错误信息为 `npm ERR! code 128`，提示命令执行失败。这可能是由于网络问题、Git 配置不正确或某些依赖包的仓库地址无效导致的。建议检查网络连接、更新 Git 版本并确保所有依赖项的 URL 正确无误。 ... [详细]

蜡笔小新 2024-11-04 17:01:47
format
基址获取与驱动开发：内核中提取ntoskrnl模块的基地址方法解析

基址获取与驱动开发：内核中提取ntoskrnl模块的基地址方法解析 ... [详细]

蜡笔小新 2024-11-04 15:56:02
format
下篇：APP端登录流程详解——前置知识与技术准备

下篇：APP端登录流程详解——前置知识与技术准备 ... [详细]

蜡笔小新 2024-11-04 14:10:44
object
新增用户账户管理功能

1. 设置用户密码：使用 `slappasswd` 工具生成加密密码，确保账户安全。具体步骤如下：输入命令 `slappasswd -s NewPassword`，系统将提示重新输入新密码，并生成加密后的哈希值 {SSHA}xxxxxxxxxxxxxxxxx。2. 编写配置文件：编辑 `vildapus` 配置文件，添加必要的用户账户信息，以确保新用户能够顺利登录系统。 ... [详细]

蜡笔小新 2024-11-04 12:22:52

男孩艹艹

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章