idea远程调试MapReduce

作者：亮我mc踢弯的 | 来源：互联网 | 2023-07-10 11:14

作为习惯了用idea开发的小伙伴，不太想用eclipse开发Hadoop,于是研究了一下idea如何远程调试mr，现分享一下。一开发环境本地win10系统Intellijidea1

作为习惯了用idea开发的小伙伴，不太想用eclipse开发Hadoop,于是研究了一下idea如何远程调试mr，现分享一下。

一开发环境

本地win10系统

Intellij idea14工具

虚拟机中hadoop2.6.0伪分布模式

二配置步骤(这里笨小葱参考的这篇文章：http://www.cnblogs.com/yjmyzz/p/how-to-remote-debug-hadoop-with-eclipse-and-intellij-idea.html，下面列出idea中的配置)

2.1 下载hadoop-2.6.0二进制文件(hadoop-2.6.0.tar.gz)，解压。

官网地址:https://archive.apache.org/dist/hadoop/common/hadoop2.6.0/.

2.2 在win10中添加几个环境变量

HADOOP_HOME=D:\yangjm\Code\study\hadoop\hadoop-2.6.0

HADOOP_BIN_PATH=%HADOOP_HOME%\bin

HADOOP_PREFIX=D:\yangjm\Code\study\hadoop\hadoop-2.6.0

另外，PATH变量在最后追加;%HADOOP_HOME%\bin

2.3 创建一个maven的WordCount项目

pom文件如下：

 1 xml version="1.0" encoding="UTF-8"?>
 2 <project xmlns="http://maven.apache.org/POM/4.0.0"
 3          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 4          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 5     <modelVersion>4.0.0modelVersion>
 6 
 7     <groupId>yjmyzzgroupId>
 8     <artifactId>mapreduce-helloworldartifactId>
 9     <version>1.0-SNAPSHOTversion>
10 
11     <dependencies>
12         <dependency>
13             <groupId>org.apache.hadoopgroupId>
14             <artifactId>hadoop-commonartifactId>
15             <version>2.6.0version>
16         dependency>
17         <dependency>
18             <groupId>org.apache.hadoopgroupId>
19             <artifactId>hadoop-mapreduce-client-jobclientartifactId>
20             <version>2.6.0version>
21         dependency>
22         <dependency>
23             <groupId>commons-cligroupId>
24             <artifactId>commons-cliartifactId>
25             <version>1.2version>
26         dependency>
27     dependencies>
28 
29     <build>
30         <finalName>${project.artifactId}finalName>
31     build>
32 
33 project>

项目结构如下：

idea远程调试MapReduce

项目上右击-》Open Module Settings 或按F12，打开模块属性

idea远程调试MapReduce

添加依赖的Libary引用

idea远程调试MapReduce

然后把$HADOOP_HOME下的对应包全导进来

idea远程调试MapReduce

导入的libary可以起个名称，比如hadoop2.6

idea远程调试MapReduce

3.2 设置运行参数

idea远程调试MapReduce

注意二个地方：

1是Program aguments，这里跟eclipes类似的做法，指定输入文件和输出文件夹

2是Working Directory，即工作目录，指定为$HADOOP_HOME所在目录

然后就可以调试了

idea远程调试MapReduce

intellij下唯一不爽的，由于没有类似eclipse的hadoop插件，每次运行完wordcount，下次再要运行时，只能手动命令行删除output目录，再行调试。

在IDE环境中运行时，IDE需要知道去连哪一个hdfs实例（就好象在db开发中，需要在配置xml中指定DataSource一样的道理），将$HADOOP_HOME\etc\hadoop下的core-site.xml，复制到resouces目录下，类似下面这样：
idea远程调试MapReduce

里面的内容如下：

xml version="1.0" encoding="UTF-8"?>
xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://172.28.20.***:9000value>
    property>
configuration>

上面的IP换成虚拟机里的IP即可

三 bug解决

问题0：如果启动最初报错一个winutils.exe 找不到，那么下载一下放到HADOOP_HOME的bin目录下.（这里还需要添加一个下载hadoop.dll放到HADOOP_HOME的bin目录下和windows系统的c:/window/system32/，不然的话会出现问题三错误。)

这里分享一下winutils.exe和hadoop.dll的2.6.0版本

网盘地址:http://pan.baidu.com/s/1i5HKJIH

问题一：

抛异常：java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol messageend-group tag did not match expected tag.;

可能是端口问题
cdh的环境下，hdfs是8020端口，conf.set(“fs.defaultFS”, “hdfs://192.168.0.4:8020”);
普通hadoop环境，hdfs是9000端口，conf.set(“fs.defaultFS”, “hdfs://192.168.0.121:9000”);

问题二：

抛异常：Exception in thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)

at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:557)

at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:977)

at org.apache.hadoop.util.DiskChecker.checkAccessByFileMethods(DiskChecker.java:187)

........

修改org.apache.hadoop.io.nativeio.NativeIO源码：

idea远程调试MapReduce

为：

idea远程调试MapReduce

重新编译

问题三：

Exception in thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V

at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method)

at org.apache.hadoop.util.NativeCrc32.calculateChunkedSumsByteArray(NativeCrc32.java:86)

at org.apache.hadoop.util.DataChecksum.calculateChunkedSums(DataChecksum.java:430)

at org.apache.hadoop.fs.FSOutputSummer.writeChecksumChunks(FSOutputSummer.java:202)

。。。。。。。。

下载hadoop.dll放到HADOOP_HOME的bin目录下和windows系统的c:/window/system32/

注意如果这个hadoop.dll的版本要和hadoop的一致，可以稍微高一点，低了可能就会报这个异常

问题四：

异常信息:

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied:user=Administrator, access=WRITE, inode="/spark/global":root:supergroup:drwxr-xr-x

at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkFsPermission(FSPermissionChecker.java:271)

at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:257)

这是因为当前用户Administrator没有对hdfs的写入权限. 有几种方式解决：

1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME，这个值具体等于多少看自己的情况，以后会运行HADOOP上的Linux的用户名。（修改完重启eclipse，不然可能不生效）

2、将当前系统的帐号修改为hdfs用户(CDH默认为用户名hdfs)

3、使用HDFS的命令行接口修改相应目录的权限，hadoop fs -chmod 777 /user,后面的/user是要上传文件的路径，不同的情况可能不一样，比如要上传的文件路径为hdfs://namenode/user/xxx.doc，则这样的修改可以，如果要上传的文件路径为hdfs://namenode/java/xxx.doc，则要修改的为hadoop fs -chmod 777 /java或者hadoop fs -chmod 777 /，java的那个需要先在HDFS里面建立Java目录，后面的这个是为根目录调整权限。

bug全部改完后打个断点就可以远程调试mr啦。 idea远程调试MapReduce

推荐阅读

io
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
spring
Java毕业设计：在线办公工作流系统MyBatis+源码+调试部署+数据库+论文

本文介绍了基于Java的在线办公工作流系统的毕业设计方案，涵盖了MyBatis框架的应用、源代码分析、调试与部署流程、数据库设计以及相关论文撰写指导。 ... [详细]

蜡笔小新 2024-11-25 10:21:47
format
iOS 小组件开发指南

本文详细介绍了iOS小部件（Widget）的开发流程，从环境搭建、证书配置到业务逻辑实现，提供了一系列实用的技术指导与代码示例。 ... [详细]

蜡笔小新 2024-11-25 08:43:14
io
详解MyBatis二级缓存的启用与配置

本文深入探讨了MyBatis二级缓存的启用方法及其配置细节，通过具体的代码实例进行说明，有助于开发者更好地理解和应用这一特性，提升应用程序的性能。 ... [详细]

蜡笔小新 2024-11-25 17:47:13
io
解决远程桌面连接时的身份验证错误问题

本文介绍了如何解决在尝试远程访问服务器时遇到的身份验证错误，特别是当系统提示‘要求的函数不受支持’时的具体解决步骤。通过调整Windows注册表设置，您可以轻松解决这一常见问题。 ... [详细]

蜡笔小新 2024-11-25 14:15:06
hash
华为云openEuler环境下的Web应用部署实践

本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤，包括配置yum源、安装Apache、MariaDB、PHP及其相关组件，并完成WordPress的安装与配置过程。 ... [详细]

蜡笔小新 2024-11-25 12:39:31
string
MIT 6.824 实验笔记：MapReduce 开发指南

本文详细记录了 MIT 6.824 课程中 MapReduce 实验的开发过程，包括环境搭建、实验步骤和具体实现方法。 ... [详细]

蜡笔小新 2024-11-18 12:05:23
string
使用EventBus在Android Fragment间传递参数

本文介绍了如何在Android应用中使用EventBus库在Fragment之间传递参数。通过具体的代码示例，详细说明了EventBus的使用方法和注意事项。 ... [详细]

蜡笔小新 2024-11-17 17:48:39
format
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
spring
Java毕业设计项目：“传情旧物”网站（含源码与数据库）

本项目介绍了如何配置和运行“传情旧物”网站，包括所需的技术栈、环境配置以及具体的操作步骤。 ... [详细]

蜡笔小新 2024-11-15 20:52:51
spring
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
spring
Java初学者的一天

本文介绍了Java编程语言的基础知识，包括其历史背景、主要特性以及如何安装和配置JDK。此外，还详细讲解了如何编写和运行第一个Java程序，并简要介绍了Eclipse集成开发环境的安装和使用。 ... [详细]

蜡笔小新 2024-11-14 18:05:41
spring
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
format
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38

亮我mc踢弯的

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章