当前位置: 开发笔记 > 编程语言 > 正文

Hadoop+Spark安装(三)——调hadoop

作者：钞绚舞亨利 | 来源：互联网 | 2024-10-17 11:56

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9.

***************************测试hadoop及问题跟进***************************

执行以下语句报错

/data/hadoop-2.9.1/bin/hdfs dfsadmin -report

《Hadoop + Spark安装(三) —— 调hadoop》

按照帖子支招，打开etc/hosts

这两句加#注释掉

#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

再执行以下语句，还是报错

/data/hadoop-2.9.1/bin/hdfs dfsadmin -report

***************************查看端口通信是否正常***************************

尝试telnet master 9000发现通信是拒绝的，所以问题从先解决通信问题开始

《Hadoop + Spark安装(三) —— 调hadoop》

再执行ping master发现是通的，telnet master 9000发现通信是拒绝的，网上说开了防火墙，可是我查看了防火墙的状态执行/etc/init.d/iptables status，并没有开启

在同事的指导下，我执行了telnet master 22，或者telnet ip地址 22，都是通的

监听端口lsof -i:9000没有任何响应

lsof -i:22有返回，所以是占用9000端口的进程也就是在配置core-site.xml时，hdfs://master:9000这个服务有问题，应该查看hadoop的日志看看报错的原因

《Hadoop + Spark安装(三) —— 调hadoop》

***************************端口通信正常***************************

***************************hadoop查看运行进程***************************

在master节点先把所有服务停掉，一个个测试：

/data/hadoop-2.9.1/sbin/stop-all.sh

然后执行

/data/hadoop-2.9.1/sbin/start-all.sh

jps

看看正常运行的进程

《Hadoop + Spark安装(三) —— 调hadoop》

主要有DataNode NameNode SecondaryNameNode TaskTracker JobTracker这几个进程，就表示正常了，但是我有几个没有NameNode、TaskTracker、JobTracker

然后我再执行了一遍启动namenode的指令，发现还是没起起来，没有报错，但是没有起来

/data/hadoop-2.9.1/sbin/hadoop-daemon.sh start namenode

《Hadoop + Spark安装(三) —— 调hadoop》

看了一下slave-1节点，正常

《Hadoop + Spark安装(三) —— 调hadoop》

所以问题集中解决在为什么在master节点上，NameNode没有启动！！！

***************************hadoop进程NameNode没有启动***************************

***************************hadoop查看日志***************************

查看日志，在master节点的文件夹中，查看/data/hadoop-2.9.1/logs，找到namenode的日志，按时间排序，取对应命令行执行完的时间对应的日志，并且拉到日志最下端。

《Hadoop + Spark安装(三) —— 调hadoop》

发现出现了出错的根本原因是：java.io.IOException: NameNode is not formatted。

***************************通过hadoop日志提示解决问题***************************

方法1 —— 一种解决方案是格式化，可以参考这篇帖子：

遇到问题&＃8212;Hadoop&＃8212;java.io.IOException: NameNode is not formatted blog.csdn.net 《Hadoop + Spark安装(三) —— 调hadoop》

2. 方法2 —— 另一种解决方案是配置文件稍微改动，不知道是否能生效：

hadoop启动dfs报错NameNode is not formatted blog.csdn.net

3. 方法3 —— 如果出错日志显示是权限问题导致NameNode没有启动，可以参考这篇帖子

Hadoop namenode无法启动问题解决 www.cnblogs.com

我试图重启hadoop看看namenode有没有启动：

/data/hadoop-2.9.1/sbin/stop-all.sh

/data/hadoop-2.9.1/sbin/start-all.sh

jps

发现没起来，马上照着更新时间去看最新的日志。

看了日志：/data/hadoop-2.9.1/logs下面hadoop-root-secondarynamenode-master.log，发现SecondaryNameNode也有报错，这就是帖子最开始发现的问题端口为9000的服务没启动也就是命令行telnet master 9000报错的原因

master:9000 failed on connection exception: java.net.ConnectException: Connection refused

《Hadoop + Spark安装(三) —— 调hadoop》

查看了/data/hadoop-2.9.1/logs下面的日志hadoop-root-namenode-master.log，发现NameNode没有被格式化还是在报错

《Hadoop + Spark安装(三) —— 调hadoop》

综述，需要重新进行一次格式化。

***************************通过hadoop日志找到方案***************************

***************************重新修改hadoop配置文件***************************

切换到master节点，修改配置项

/data/hadoop-2.9.1/etc/hadoop/slaves

《Hadoop + Spark安装(三) —— 调hadoop》

/data/hadoop-2.9.1/etc/hadoop/masters

《Hadoop + Spark安装(三) —— 调hadoop》

core-site.xml

《Hadoop + Spark安装(三) —— 调hadoop》

hdfs-site.xml

《Hadoop + Spark安装(三) —— 调hadoop》

mapred-site.xml

《Hadoop + Spark安装(三) —— 调hadoop》

yarn-site.xml

《Hadoop + Spark安装(三) —— 调hadoop》

hadoop-env.sh、mapred-env.sh、yarn-env.sh 把JAVA_HOME修改为环境中的绝对路径

《Hadoop + Spark安装(三) —— 调hadoop》

然后把master节点的日志删除，一路选择y

rm -r /data/hadoop-2.9.1/logs/*

《Hadoop + Spark安装(三) —— 调hadoop》

最后把master节点的临时文件删除，一路选择y

rm -r /data/hdfs/tmp/*

《Hadoop + Spark安装(三) —— 调hadoop》

有很多隐藏文件，所以用命令行删除比较推荐！！！

把slave-1节点的hadoop整个删掉，重新拷贝一份，具体改动如下：

rm -rf /data/hadoop-2.9.1

下面把master的整个hadoop文件夹拷贝纸slave-1

scp -r /data/hadoop-2.9.1 root@slave-1:/data

***************************完成修改hadoop配置文件***************************

***************************hadoop重新格式化***************************

在master节点停掉hadoop和日志
/data/hadoop-2.9.1/sbin/stop-all.sh

关闭日志

/data/hadoop-2.9.1/sbin/mr-jobhistory-daemon.sh stop historyserver

（如果没有在调试过程中产生新日志或者临时文件可以跳过这步！）

通过命令行，把master节点、slave-1节点的日志和临时文件夹删除，一路选择y

rm -r /data/hadoop-2.9.1/logs/*

rm -r /data/hdfs/tmp/*

开始再执行一次格式化hadoop，执行以下语句做格式化：

$HADOOP_HOME/bin/hdfs namenode -format

特别要强调必须要$HADOOP_HOME方式去做格式化，之前我用cd命令行然后直接运行hdfs是失败的

发现NameNode格式化成功

《Hadoop + Spark安装(三) —— 调hadoop》

启动hadoop
/data/hadoop-2.9.1/sbin/start-all.sh

jps

确认namenode节点启动！

《Hadoop + Spark安装(三) —— 调hadoop》

查看所有的日志namenode和datanode有没有报错

《Hadoop + Spark安装(三) —— 调hadoop》

改了一通，检查所有的日志邮件，已经没有ERROR了，就表示所有配置正常，WARN的话，有空可以优化，百度都有解决方案的！

***************************完成修改hadoop重新格式化***************************

***************************测试hadoop管理界面***************************

http://localhost:50070（HDFS管理界面）

《Hadoop + Spark安装(三) —— 调hadoop》

master的IP地址同你在hosts中设置的内网或者外网IP，我这里配置的是内网IP

http://IP地址:8088/cluster

YARN监控界面

《Hadoop + Spark安装(三) —— 调hadoop》

推荐阅读

byte
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
byte
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
java
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
config
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
split
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
byte
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
config
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
java
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
java
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
java
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
split
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
java
ZooKeeper集群构建与详解

本文详细介绍了使用ZooKeeper构建高可用集群的方法，包括必要的软件环境准备、配置文件调整及集群启动等关键步骤。通常，一个ZooKeeper集群由奇数个节点组成，以确保Leader选举的有效性。 ... [详细]

蜡笔小新 2024-12-16 11:16:22
scala
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
config
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
byte
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41

钞绚舞亨利

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章