当前位置: 开发笔记 > 编程语言 > 正文

大数据之Hadoop（五）：MapReduce实战、利用MRJob编写和运行MapReduce代码、运行MRJOB的不同方式、mrjob实现topN统计（实验）

作者：Theduck_king | 来源：互联网 | 2023-09-05 15:36

文章目录MapReduce实战3.3.1利用MRJob编写和运行MapReduce代码3.3.2运行MRJOB的不同方式3.3.3mrjob实现topN统计（实验&#

文章目录

- MapReduce实战
- - 3.3.1 利用MRJob编写和运行MapReduce代码
  - 3.3.2 运行MRJOB的不同方式
  - 3.3.3 mrjob 实现 topN统计&＃xff08;实验&＃xff09;

MapReduce实战

3.3.1 利用MRJob编写和运行MapReduce代码

mrjob 简介

使用python开发在Hadoop上运行的程序, mrjob是最简单的方式
mrjob程序可以在本地测试运行也可以部署到Hadoop集群上运行
如果不想成为hadoop专家, 但是需要利用Hadoop写MapReduce代码,mrJob是很好的选择

mrjob 安装

使用pip安装
- pip install mrjob

mrjob实现WordCount

from mrjob.job import MRJobclass MRWordCount(MRJob):#每一行从line中输入def mapper(self, _, line):for word in line.split():yield word,1# word相同的会走到同一个reducedef reducer(self, word, counts):yield word, sum(counts)if __name__ &＃61;&＃61; &＃39;__main__&＃39;:MRWordCount.run()

运行WordCount代码

打开命令行, 找到一篇文本文档, 敲如下命令:

python mr_word_count.py my_file.txt

3.3.2 运行MRJOB的不同方式

1、内嵌(-r inline)方式

特点是调试方便&＃xff0c;启动单一进程模拟任务执行状态和结果&＃xff0c;默认(-r inline)可以省略&＃xff0c;输出文件使用 > output-file 或-o output-file&＃xff0c;比如下面两种运行方式是等价的

python word_count.py -r inline input.txt > output.txt
python word_count.py input.txt > output.txt

2、本地(-r local)方式

用于本地模拟Hadoop调试&＃xff0c;与内嵌(inline)方式的区别是启动了多进程执行每一个任务。如&＃xff1a;

python word_count.py -r local input.txt > output1.txt

3、Hadoop(-r hadoop)方式

用于hadoop环境&＃xff0c;支持Hadoop运行调度控制参数&＃xff0c;如&＃xff1a;

1)指定Hadoop任务调度优先级(VERY_HIGH|HIGH),如&＃xff1a;–jobconf mapreduce.job.priority&＃61;VERY_HIGH。

2)Map及Reduce任务个数限制&＃xff0c;如&＃xff1a;–jobconf mapreduce.map.tasks&＃61;2 --jobconf mapreduce.reduce.tasks&＃61;5

python word_count.py -r hadoop hdfs:///test.txt -o hdfs:///output

3.3.3 mrjob 实现 topN统计&＃xff08;实验&＃xff09;

统计数据中出现次数最多的前n个数据

import sys from mrjob.job import MRJob,MRStep import heapqclass TopNWords(MRJob):def mapper(self, _, line):if line.strip() !&＃61; "":for word in line.strip().split():yield word,1#介于mapper和reducer之间&＃xff0c;用于临时的将mapper输出的数据进行统计def combiner(self, word, counts):yield word,sum(counts)def reducer_sum(self, word, counts):yield None,(sum(counts),word)#利用heapq将数据进行排序&＃xff0c;将最大的2个取出def top_n_reducer(self,_,word_cnts):for cnt,word in heapq.nlargest(2,word_cnts):yield word,cnt#实现steps方法用于指定自定义的mapper&＃xff0c;comnbiner和reducer方法def steps(self):#传入两个step 定义了执行的顺序return [MRStep(mapper&＃61;self.mapper,combiner&＃61;self.combiner,reducer&＃61;self.reducer_sum),MRStep(reducer&＃61;self.top_n_reducer)]def main():TopNWords.run()if __name__&＃61;&＃61;&＃39;__main__&＃39;:main()

推荐阅读

install
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
install
安装mysqlclient失败解决办法

本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]

蜡笔小新 2023-12-14 18:24:10
install
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
email
在mac环境下使用nginx配置nodejs代理服务器的步骤

本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤，包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]

蜡笔小新 2023-12-13 10:34:21
io
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
install
CentOS安装Python2.7.2的步骤和注意事项

本文介绍了在CentOS上安装Python2.7.2的详细步骤，包括下载、解压、编译和安装等操作。同时提供了一些注意事项，以及测试安装是否成功的方法。 ... [详细]

蜡笔小新 2023-12-12 13:54:31
install
RouterOS 5.16软路由安装图解教程

本文介绍了如何安装RouterOS 5.16软路由系统，包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程，方便读者进行操作。 ... [详细]

蜡笔小新 2023-12-12 10:22:22
c语言
树莓派语音控制的配置方法和步骤

本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助，文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行，然后使用Eoman的控制方法，即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]

蜡笔小新 2023-12-12 03:02:49
io
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
install
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
install
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
install
Python工具安装教程及注意事项

本文介绍了在Windows系统下安装Python、setuptools、pip和virtualenv的步骤，以及安装过程中需要注意的事项。详细介绍了Python2.7.4和Python3.3.2的安装路径，以及如何使用easy_install安装setuptools。同时提醒用户在安装完setuptools后，需要继续安装pip，并注意不要将Python的目录添加到系统的环境变量中。最后，还介绍了通过下载ez_setup.py来安装setuptools的方法。 ... [详细]

蜡笔小新 2023-12-10 16:46:45
install
Pandas 基础(3) - 生成 Dataframe 的几种方式总结

本文总结了使用不同方式生成 Dataframe 的方法，包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项，如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]

蜡笔小新 2023-12-10 12:59:34
install
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
command
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34

Theduck_king

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章