MapReduce编程(一)IntellijIdea配置MapReduce编程环境

作者：humphrey7247 | 来源：互联网 | 2023-10-13 16:56

介绍怎样在IntellijIdea中通过创建mavenproject配置MapReduce的编程环境。一、软件环境我使用的软件版本号例如以下:IntellijIdea2017.1M

介绍怎样在Intellij Idea中通过创建mavenproject配置MapReduce的编程环境。

一、软件环境

我使用的软件版本号例如以下:

Intellij Idea 2017.1
Maven 3.3.9
Hadoop伪分布式环境( 安装教程可參考这里)

二、创建mavenproject

打开Idea,file->new->Project,左側面板选择mavenproject。(假设仅仅跑MapReduce创建javaproject就可以，不用勾选Creat from archetype，假设想创建webproject或者使用骨架能够勾选)
《MapReduce编程(一) Intellij Idea配置MapReduce编程环境》
设置GroupId和ArtifactId。下一步。

《MapReduce编程(一) Intellij Idea配置MapReduce编程环境》
设置project存储路径。下一步。

Finish之后，空白project的路径例如以下图所看到的。

《MapReduce编程(一) Intellij Idea配置MapReduce编程环境》

完整的project路径例如以下图所看到的：
《MapReduce编程(一) Intellij Idea配置MapReduce编程环境》

三、加入maven依赖

在pom.xml加入依赖。对于hadoop 2.7.3版本号的hadoop，须要的jar包有下面几个：

hadoop-common
hadoop-hdfs
hadoop-mapreduce-client-core
hadoop-mapreduce-client-jobclient
log4j( 打印日志)
pom.xml中的依赖例如以下:

<dependencies> <dependency> <groupId>junitgroupId> <artifactId>junitartifactId> <version>4.12version> <scope>testscope> dependency> <dependency> <groupId>org.apache.hadoopgroupId> <artifactId>hadoop-commonartifactId> <version>2.7.3version> dependency> <dependency> <groupId>org.apache.hadoopgroupId> <artifactId>hadoop-hdfsartifactId> <version>2.7.3version> dependency> <dependency> <groupId>org.apache.hadoopgroupId> <artifactId>hadoop-mapreduce-client-coreartifactId> <version>2.7.3version> dependency> <dependency> <groupId>org.apache.hadoopgroupId> <artifactId>hadoop-mapreduce-client-jobclientartifactId> <version>2.7.3version> dependency> <dependency> <groupId>log4jgroupId> <artifactId>log4jartifactId> <version>1.2.17version> dependency> dependencies>四、配置log4j

在src/main/resources目录下新增log4j的配置文件log4j.properties。内容例如以下：

log4j.rootLogger = debug,stdout ### 输出信息到控制抬 ### log4j.appender.stdout = org.apache.log4j.ConsoleAppender log4j.appender.stdout.Target = System.out log4j.appender.stdout.layout = org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern = [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n五、启动Hadoop

启动Hadoop，执行命令：

cd hadoop-2.7.3/ ./sbin/start-all.sh

訪问http://localhost:50070/查看hadoop是否正常启动。

六、执行WordCount(从本地读取文件)

在project根目录下新建input目录，input目录下新增dream.txt，随便写入一些单词:

I have a dream a dream

在src/main/java目录下新建包。新增FileUtil.java，创建一个删除output文件的函数，以后就不用手动删除了。内容例如以下:

package com.mrtest.hadoop; import java.io.File; /** * Created by bee on 3/25/17. */ public class FileUtil { public static boolean deleteDir(String path) { File dir = new File(path); if (dir.exists()) { for (File f : dir.listFiles()) { if (f.isDirectory()) { deleteDir(f.getName()); } else { f.delete(); } } dir.delete(); return true; } else { System.out.println("文件(夹)不存在!"); return false; } } }

编写WordCount的MapReduce程序WordCount.java，内容例如以下:

package com.mrtest.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; /** * Created by bee on 3/25/17. */ public class WordCount { public static class TokenizerMapper extends Mapper { public static final IntWritable One= new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { this.word.set(itr.nextToken()); context.write(this.word, one); } } } public static class IntSumReduce extends Reducer { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { int sum = 0; IntWritable val; for (Iterator i = values.iterator(); i.hasNext(); sum += val.get()) { val = (IntWritable) i.next(); } this.result.set(sum); context.write(key, this.result); } } public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { FileUtil.deleteDir("output"); Configuration cOnf= new Configuration(); String[] otherArgs = new String[]{"input/dream.txt","output"}; if (otherArgs.length != 2) { System.err.println("Usage:Merge and duplicate removal "); System.exit(2); } Job job = Job.getInstance(conf, "WordCount"); job.setJarByClass(WordCount.class); job.setMapperClass(WordCount.TokenizerMapper.class); job.setReducerClass(WordCount.IntSumReduce.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } }

执行完成以后。会在project根目录下添加一个output目录。打开output/part-r-00000，内容例如以下:

I 1 a 2 dream 2 have 1

这里在main函数中新增了一个String类型的数组，假设想用main函数的args数组接受參数。在执行时指定输入和输出路径也是能够的。执行WordCount之前，配置Configuration并指定Program arguments就可以。
《MapReduce编程(一) Intellij Idea配置MapReduce编程环境》

七、执行WordCount(从HDFS读取文件)

在HDFS上新建目录:

hadoop fs -mkdir /worddir

假设出现Namenode安全模式导致的不能创建目录提示：

mkdir: Cannot create directory /worddir. Name node is in safe mode.

执行下面命令关闭safe mode:

hadoop dfsadmin -safemode leave

上传本地文件:

hadoop fs -put dream.txt /worddir

改动otherArgs參数，指定输入为文件在HDFS上的路径:

String[] otherArgs = new String[]{"hdfs://localhost:9000/worddir/dream.txt","output"};八、代码下载

代码下载地址:http://download.csdn.net/detail/napoay/9799523

推荐阅读

format
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
php
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
schema
Struts与Spring框架的集成指南

本文详细介绍了如何将Struts和Spring两个流行的Java Web开发框架进行整合，涵盖从环境配置到代码实现的具体步骤。 ... [详细]

蜡笔小新 2024-12-23 17:46:59
format
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
format
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
schema
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
php
Eclipse 开发环境配置与插件安装指南

本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件，包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-24 19:47:22
export
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
controller
ssm 框架整合及工程分层

ssm框架整合及工程分层1.先创建一个新的project1.1配置pom.xml ... [详细]

蜡笔小新 2024-12-21 12:56:58
php
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31
format
Logback使用小结

1一定要使用slf4j的jar包，不要使用apachecommons的jar。否则滚动生成文件不生效，不滚动的时候却生效~~importorg.slf ... [详细]

蜡笔小新 2024-12-19 20:40:37
web
如何配置Java环境变量PATH以完成JDK安装

本文详细介绍了如何正确配置Java环境变量PATH，以确保JDK安装完成后能够正常运行。文章不仅涵盖了基本的环境变量设置步骤，还提供了针对不同操作系统下的具体操作指南。 ... [详细]

蜡笔小新 2024-12-19 20:15:05
client
CAS单点登录实现详解与案例分析

本文将详细介绍通过CAS（Central Authentication Service）实现单点登录的原理和步骤。CAS由耶鲁大学开发，旨在为多应用系统提供统一的身份认证服务。文中不仅涵盖了CAS的基本架构，还提供了具体的配置实例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-19 19:31:46
match
解决WildFly中MySQL数据源依赖问题

本文介绍了如何在WildFly 10中配置MySQL数据源时遇到的服务依赖问题及其解决方案。 ... [详细]

蜡笔小新 2024-12-18 19:16:04
text
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45

humphrey7247

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章