当前位置: 开发笔记 > 运维 > 正文

hadoop集群DataNode起不来：“DiskChecker$DiskErrorExceptio

作者：陈豪韦小宝_517 | 来源：互联网 | 2018-06-11 15:26

最近把线上一个配置在拷贝到线下一台机器后，发现hadoopdatanode起不来，总是报这个异常：2014-03-1110:38:44,238FATALorg.apache.hadoop.hdfs.server.datanode.DataNode:InitializationfailedforblockpoolBlockpoolBP-1337291857-192.168.2.5

最近把线上一个配置在拷贝到线下一台机器后，发现 hadoop datanode起不来，总是报这个异常： 2014-03-11 10:38:44,238 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-1337291857-192.168.2.5

最近把线上一个配置在拷贝到线下一台机器后，发现hadoop datanode起不来，总是报这个异常：

2014-03-11 10:38:44,238 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-1337291857-192.168.2.50-1394505472069 (storage id DS-1593966629-192.168.2.50-50010-1394505524173) service to search002050.sqa.cm4/192.168.2.50:9000
org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalid volume failure  config value: 1
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.
(FsDatasetImpl.java:183)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetFactory.newInstance
(FsDatasetFactory.java:34)
        at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetFactory.newInstance
(FsDatasetFactory.java:30)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:920)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:882)
        at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo
(BPOfferService.java:308)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake
(BPServiceActor.java:218)
        at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:660)
        at java.lang.Thread.run(Thread.java:662)

原因是：
dfs.datanode.failed.volumes.tolerated 这个参数直接拷贝了线上的配置为1，
其含义是：The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume failure will cause a datanode to shutdown. 即datanode可以忍受的磁盘损坏的个数。

在hadoop集群中，经常会发生磁盘只读或者损坏的情况。datanode在启动时会使用dfs.datanode.data.dir下配置的文件夹（用来存储block），若是有一些不可以用且个数>上面配置的值，DataNode就会启动失败。

在线上环境中fs.datanode.data.dir配置为10块盘，所以dfs.datanode.failed.volumes.tolerated设置为1，是允许有一块盘是坏的。而线下的只有一块盘，这volFailuresTolerated和volsConfigured的值都为1，所以会导致代码里面判断失败。

详见hadoop源码的FsDatasetImpl.java的182行：

    // The number of volumes required for operation is the total number 
    // of volumes minus the number of failed volumes we can tolerate.
    final int volFailuresTolerated =
      conf.getInt(DFSConfigKeys.DFS_DATANODE_FAILED_VOLUMES_TOLERATED_KEY,
                  DFSConfigKeys.DFS_DATANODE_FAILED_VOLUMES_TOLERATED_DEFAULT);
    String[] dataDirs = conf.getTrimmedStrings(DFSConfigKeys.DFS_DATANODE_DATA_DIR_KEY);
    int volsCOnfigured= (dataDirs == null) ? 0 : dataDirs.length;
    int volsFailed = volsConfigured - storage.getNumStorageDirs();
    this.validVolsRequired = volsConfigured - volFailuresTolerated;
    if (volFailuresTolerated <0 || volFailuresTolerated >= volsConfigured) {
      throw new DiskErrorException("Invalid volume failure "
          + " config value: " + volFailuresTolerated);
    }
    if (volsFailed > volFailuresTolerated) {
      throw new DiskErrorException("Too many failed volumes - "
          + "current valid volumes: " + storage.getNumStorageDirs() 
          + ", volumes configured: " + volsConfigured 
          + ", volumes failed: " + volsFailed
          + ", volume failures tolerated: " + volFailuresTolerated);
    }

原文地址：hadoop集群DataNode起不来：“DiskChecker$DiskErrorExceptio, 感谢原作者分享。

推荐阅读

服务器
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
负载均衡
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
容器
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
apache
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
apache
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
apache
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
容器
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
服务器
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
apache
HBase RegionServer 故障分析与解决

本文详细记录了一次 HBase RegionServer 异常宕机的情况，包括具体的错误信息和可能的原因分析。通过此案例，探讨了如何有效诊断并解决 HBase 中常见的 RegionServer 挂起问题。 ... [详细]

蜡笔小新 2024-12-01 16:21:27
apache
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
服务器
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
服务器
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22
服务器
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
服务器
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
服务器
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47

陈豪韦小宝_517

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章