Hadoop——实验七：MapReduce编程实践

作者：rannman | 来源：互联网 | 2024-10-14 18:07

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi

文章目录

- 一. 实验目的
- 二. 实验内容
- 三. 实验步骤及结果分析
- - 1. 基于ubuntukylin14.04(7)版本&＃xff0c;安装hadoop-eclipse-kepler-plugin-2.6.0.jar
  - - 1.1 安装hadoop-eclipse-plugin
    - 1.2 配置hadoop-eclipse-plugin
  - 2. 基于ubuntukylin14.04(8)版本&＃xff0c;通过eclipse完成MapReduce编程实践
  - - 2.1 通过eclipse操作HDFS文件
    - 2.2 通过eclipse创建MapReduce项目
    - 2.3 通过eclipse运行MapReduce

一. 实验目的

掌握MapReduce编程实践技术。

二. 实验内容

1) 基于ubuntukylin14.04(7)版本&＃xff0c;安装hadoop-eclipse-kepler-plugin-2.6.0.jar&＃xff0c;形成ubuntukylin14.04(8)版本。
2) 基于ubuntukylin14.04(8)版本&＃xff0c;通过eclipse完成MapReduce编程实践。
参考&＃xff1a;http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/

三. 实验步骤及结果分析

1. 基于ubuntukylin14.04(7)版本&＃xff0c;安装hadoop-eclipse-kepler-plugin-2.6.0.jar

版本说明&＃xff1a;ubuntukylin14.04(7)&＃61;hadoop集群&＃xff08;hadoop2.6.0版本&＃xff09;&＃43;hbase伪分布式&＃xff08;hbase1.1.2版本&＃xff09;

注&＃xff1a;hadoop-eclipse-plugin下载地址为: https://github.com/winghc/hadoop2x-eclipse-plugin

1.1 安装hadoop-eclipse-plugin

首先下载插件&＃xff0c;然后输入unzip -qo ~/下载/hadoop2x-eclipse-plugin-master.zip -d ~/下载命令将其解压到下载目录&＃xff0c;然后输入sudo cp ~/下载/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /opt/eclipse/plugins/命令将hadoop-eclipse-kepler-plugin-2.6.0.jar复制到ecljpse安装目录的plugins文件夹中。然后输入/opt/eclipse/eclipse -clean命令启动eclipse使插件生效。
在这里插入图片描述

1.2 配置hadoop-eclipse-plugin

首先输入start-dfs.sh、start-yarn.sh、mr-jobhistory-daemon.sh start historyserver三个命令启动Hadoop集群&＃xff0c;然后启动eclipse。
点击导航栏Windows→Show View→Project Explorer&＃xff0c;在左侧就会显示出DFS Locations。
在这里插入图片描述

然后点击导航栏Windows→Preferences→左侧Hadoop Map/Reduce→在Hadoop installation directory中填写Hadoop的安装地址/usr/local/hadoop→Apply and Close。

然后点击导航栏Windows→Perspective→Open Perspective→Other→Map/Reduce→Open&＃xff0c;就会在控制台下方显示Map/Reduce Locations面板。
在这里插入图片描述

在Map/Reduce Locations面板中右击→New Hadoop location…→Location name自定义→Map/Reduce(V2)Master的Host为K1、Port默认→DFS Master的Port为9000→User name默认→Finish。其中&＃xff0c;因为我的Hadoop是集群式&＃xff0c;设置的fs.defaultFS为hdfs://K1:9000&＃xff0c;所以DFS Maser要与其对应。
在这里插入图片描述

2. 基于ubuntukylin14.04(8)版本&＃xff0c;通过eclipse完成MapReduce编程实践

版本说明&＃xff1a;ubuntukylin14.04(8) &＃61;hadoop集群&＃xff08;hadoop2.6.0版本&＃xff09;&＃43;hbase伪分布式&＃xff08;hbase1.1.2版本&＃xff09;&＃43;安装好hadoop-eclipse-kepler-plugin-2.6.0.jar

2.1 通过eclipse操作HDFS文件

确保已经启动了Hadoop集群&＃xff0c;然后打开eclipse&＃xff0c;此时展开左侧DFS Locations就可以查看HDFS中的文件&＃xff0c;然后可以通过右键进行上传、下载、删除等操作&＃xff0c;不用再通过繁琐的hdfs dfs -ls等命令进行操作。
在这里插入图片描述

2.2 通过eclipse创建MapReduce项目

点击导航栏File→New→Project…→选中Map/Reduce Project→Next→Project name为mcf14HDFSgzxm→Finish&＃xff0c;然后在左侧就能看到创建的项目了。
在这里插入图片描述

右击mcf14HDFSgzxm项目→New→Class→Package改为org.apache.hadoop.examples→Name为mcf14HDFSgzxm→Finish&＃xff0c;就会自动创建mcf14HDFSgzxm.java文件&＃xff08;代码见文末&＃xff09;&＃xff0c;在其中写入代码。

2.3 通过eclipse运行MapReduce

复制配置文件解决参数设置问题。在终端输入cp /usr/local/hadoop/etc/hadoop/{core-site.xml,hdfs-site.xml,log4j.properties} ~/eclipse-workspace/mcf14HDFSgzxm/src命令将/usr/local/hadoop/etc/hadoop中修改过的三个配置文件core-site.xml、hdfs-site.xml和log4j.properties复制到mcf14HDFSgzxm项目下的src文件夹即~/eclipse-workspace/mcf14HDFSgzxm/src中&＃xff0c;然后可输入ls ~/eclipse-workspace/mcf14HDFSgzxm/src命令进行查看。
在这里插入图片描述
右击mcf14HDFSgzxm项目&＃xff0c;点击Refresh进行刷新&＃xff0c;会看到复制进去的文件。然后运行代码就会在控制台输出运行结果&＃xff0c;在DFS Locations的output中也能查看结果。

mcf14HDFSgzxm.java代码&＃xff1a;

import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser;public class mcf14HDFSgzxm {public mcf14HDFSgzxm() {}public static void main(String[] args) throws Exception {Configuration conf &＃61; new Configuration();// String[] otherArgs &＃61; new GenericOptionsParser(conf, args).getRemainingArgs();/*需要手动设置运行的输入输出参数*/String[] otherArgs&＃61;new String[]{"input","output"}; /* 直接设置输入参数 */if(otherArgs.length < 2) {System.err.println("Usage: wordcount [...] ");System.exit(2);}Job job &＃61; Job.getInstance(conf, "word count");job.setJarByClass(mcf14HDFSgzxm.class);job.setMapperClass(mcf14HDFSgzxm.TokenizerMapper.class);job.setCombinerClass(mcf14HDFSgzxm.IntSumReducer.class);job.setReducerClass(mcf14HDFSgzxm.IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);for(int i &＃61; 0; i < otherArgs.length - 1; &＃43;&＃43;i) {FileInputFormat.addInputPath(job, new Path(otherArgs[i]));}FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));System.exit(job.waitForCompletion(true)?0:1);}public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result &＃61; new IntWritable();public IntSumReducer() {}public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {int sum &＃61; 0;IntWritable val;for(Iterator i$ &＃61; values.iterator(); i$.hasNext(); sum &＃43;&＃61; val.get()) {val &＃61; (IntWritable)i$.next();}this.result.set(sum);context.write(key, this.result);}}public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {private static final IntWritable one &＃61; new IntWritable(1);private Text word &＃61; new Text();public TokenizerMapper() {}public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {StringTokenizer itr &＃61; new StringTokenizer(value.toString());while(itr.hasMoreTokens()) {this.word.set(itr.nextToken());context.write(this.word, one);}}} }

推荐阅读

http
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
http
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
range
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
uri
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
default
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
object
解决Android SDK中aapt错误：无法加载libstdc++.so.6共享库

在创建新的Android项目时，您可能会遇到aapt错误，提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-23 11:49:11
uri
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
select
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
select
从码农到创业者：我的职业转型之路

在观察了众多同行的职业发展后，我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师，并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]

蜡笔小新 2024-12-21 15:55:02
select
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
substring
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
php
精通Spring Cloud：从入门到实践的全面指南

Spring Cloud因其强大的功能和灵活性，被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现，还被广泛应用于企业级生产环境中。本书内容详实，覆盖了从微服务基础到Spring Cloud的高级应用，适合各层次的开发者。 ... [详细]

蜡笔小新 2024-12-16 16:21:23
select
大数据SQL优化：全面解析数据倾斜解决方案

本文深入探讨了大数据SQL优化中的数据倾斜问题，提供了多种解决策略和实际案例，旨在帮助读者理解和应对这一常见挑战。 ... [详细]

蜡笔小新 2024-11-29 13:37:00
select
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47
email
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14

rannman

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章