当前位置: 开发笔记 > 运维 > 正文

eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任

作者：世卍界创意驿站肀 | 来源：互联网 | 2018-05-28 15:21

1eclipse中hadoop环境部署概览eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版

1eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版

1 eclipse中hadoop环境部署概览

eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版本对环境的要求度高低不同就导致部署的复杂度大相径庭。例如hadoop1包括以前的版本部署就比较简单，可在windows和Linux执行部署运行，而hadoop2 及以上版本对环境要求就比较严&＃26684;，一般只能在Linux中部署，如果需要在windows中部署需要使用cygwin等软件模拟Linux环境，该篇介绍在Linux环境中部署hadoop环境。该篇假设hadoop2.3.0集群已经部署完成，集群访问权限为hadoop用户。这种在eclipse上操作hdfs和提交mapreduce任务的方式为hadoop客户端操作，故无须在该机器上配置hadoop集群文件，也无须在该机器上启动hadoop相关进程。

2 部署环境机器相关配置

Centos6，32位
Hadoop2.3.0
Eclipse4.3.2_jee Linux版
JDK1.7 Linux版

3 eclipse中hdfs及mapreduce环境部署

3.1 Linux中eclipse安装

3.1.1 在Linux中选择一个eclipse安装目录如/home目录，将eclipse压缩包eclipse-standard-kepler-SR2-linux-gtk.tar.gz在该目录下解压即可，解压命令如下：

tar -zxvf eclipse-standard-kepler-SR2-linux-gtk.tar.gz

3.1.2 解压后的eclipse目录需要赋予hadoop用户权限chown -R hadoop:hadoop /home/eclipse，解压后eclipse目录如下图所示：

3.1.3 将自己打包或者下载的hadoop和eclipse直接的插件导入eclipse的 plugins目录（复制进去即可），该篇使用直接下载的插件hadoop-eclipse-plugin-2.2.0.jar，然后启动eclipse。

3.2 eclipse环境部署

3.2.1 打开eclipse后切换到mapreduce界面会出现mapreduce插件图标，一个是DFS显示的位置，一个是mapreduce显示的位置，具体如下图所示：

3.2.2 在MapReduce Locations出处点击右键新建mapreduce配置环境，具体图示如下：

3.2.3 进入mapreduce配置环境，具体如下图所示。其中，Location name可任意填写，Mapreduce Master中Host为resourcemanager机器ip，Port为resourcemanager接受任务的端口号，即yarn-site.xml文件中yarn.resourcemanager.scheduler.address配置项中端口号。DFS Master中的Host为namenode机器ip，Port为core-site.xml文件中fs.defaultFS配置项中端口号。

3.2.4 上一步骤配置完成后，我们看到的界面如下图所示。左侧栏中即为hdfs目录，在每个目录上课点击右键操作。

4 eclipse中直接提交mapreduce任务（此处以wordcount为例，同时注意hadoop集群防火墙需对该机器开放相应端口）

如果我们将hadoop自带的wordcount在eclipse中执行是不可以的，调整后具体操作如下。

4.1 首先新建Map/Reduce工程（无须手动导入hadoop jar包），或者新建java工程（需要手动导入hadoop相应jar包）。

4.1.1 新建Map/Reduce工程（无须手动导入hadoop jar包），具体图示如下图所示：

4.1.1.1 点击next输入hadoop工程名即可，具体如下图所示：

4.1.1.2 新建的hadoop工程如下图所示：

4.1.2 新建java工程（需要手动导入hadoop相应jar包），具体如下图所示：

4.1.2.1 新建java工程完成后，下面添加hadoop相应jar包，hadoop2.3.0相应jar包在/hadoop-2.3.0/share/hadoop目录中。

4.1.2.2 进入Libraries，点击Add Library添加hadoop相应jar包。

4.1.2.3 新建hadoop相应library成功后添加hadoop相应jar包到该library下面即可。

4.1.2.4 需要添加的hadoop相应jar包有：

/hadoop-2.3.0/share/hadoop/common下所有jar包，及里面的lib目录下所有jar包

/hadoop-2.3.0/share/hadoop/hdfs下所有jar包，不包括里面lib下的jar包

/hadoop-2.3.0/share/hadoop/mapreduce下所有jar包，不包括里面lib下的jar包

/hadoop-2.3.0/share/hadoop/yarn下所有jar包，不包括里面lib下的jar包

4.2 eclipse直接提交mapreduce任务所需环境配置代码如下所示：

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URL;
import java.net.URLClassLoader;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.jar.JarEntry;
import java.util.jar.JarOutputStream;
import java.util.jar.Manifest;

public class EJob {

    // To declare global field
    private static List classPath = new ArrayList();

    // To declare method
    public static File createTempJar(String root) throws IOException {
        if (!new File(root).exists()) {
            return null;
        }
        Manifest manifest = new Manifest();
        manifest.getMainAttributes().putValue("Manifest-Version", "1.0");
        final File jarFile = File.createTempFile("EJob-", ".jar", new File(System.getProperty("java.io.tmpdir")));

        Runtime.getRuntime().addShutdownHook(new Thread() {
            public void run() {
                jarFile.delete();
            }
        });

        JarOutputStream out = new JarOutputStream(new FileOutputStream(jarFile), manifest);
        createTempJarInner(out, new File(root), "");
        out.flush();
        out.close();
        return jarFile;
    }

    private static void createTempJarInner(JarOutputStream out, File f,
            String base) throws IOException {
        if (f.isDirectory()) {
            File[] fl = f.listFiles();
            if (base.length() > 0) {
                base = base + "/";
            }
            for (int i = 0; i  0)) {
            try {
                File f = new File(component);

                if (f.exists()) {
                    URL key = f.getCanonicalFile().toURL();
                    if (!classPath.contains(key)) {
                        classPath.add(key);
                    }
                }
            } catch (IOException e) {
            }
        }
    }

}

4.3 修改后的wordcount代码如下

4.4 在eclipse中提交mapreduce任务

在eclipse中代码区点击右键，点击里面的run on hadoop即可运行该程序。

Java自学之道完整版 CSDN 下载地址： http://download.csdn.net/detail/longdeyun/5839581

Java自学之道完整版开源中国下载地址： http://www.oschina.net/news/42748/java-self-study-guide

Java自学之道技术分享及经验交流群：301318062

Java、hadoop、spark相关技术共享交流群：287683381

推荐阅读

apache
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
apache
安装hadoop2.9.2jdk1.8centos7

安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]

蜡笔小新 2024-10-16 12:02:42
server
本地执行MapReduce程序之后，报的一些错误

【clienteclipse集群提交运行】：客户端eclipse集群提交mapreduce代码1.需求：在master:8088上，有客户 ... [详细]

蜡笔小新 2024-10-15 10:46:12
apache
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
ssh
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
ssh
05Hadoop的HA搭建

前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]

蜡笔小新 2024-10-16 18:20:36
ssh
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55
sudo
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40
apache
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
apache
centos x64搭建 hadoop2.4.1 HA

HadoopHA的实现方式上图大致架构包括：1、利用共享存储来在两个NN间同步edits信息。以前的HDFS是sharenothingbutNN，现在NN又sharestorage ... [详细]

蜡笔小新 2024-10-11 14:03:33
server
Sqoop-1.99.7安装配置（详细图文）

环境：centos6.5，hadoop2.6.4集群1.解压安装sqoop从官网下载好安装包，发送到集群中任意一台主机即可。相信大家已经看到，1.99.7跟1.4.6是不兼容的，而 ... [详细]

蜡笔小新 2024-10-09 16:41:01
linux
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
apache
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
apache
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
linux
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24

世卍界创意驿站肀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章