热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

记一次CDH集群磁盘扩容(热插拔)详细步骤

前言:如果CDH集群搭载的是Hadoop3,支持单节点内磁盘的数据均衡,那给集群节点增加磁盘是可行的。若搭载的是Hadoop2.x版本&#

前言:

        如果CDH集群搭载的是Hadoop3,支持单节点内磁盘的数据均衡,那给集群节点增加磁盘是可行的。若搭载的是Hadoop2.x版本,请注意,2.x版本的Hadoop没有单节点内磁盘均衡的功能,增加的新磁盘可能只会写入很少的数据,不能实际解决集群磁盘空间不足的问题,谨记!

正文:

        数据仓库的其中一个作用是保存公司完整的业务或其他数据,在RDB如mysql/Oracle中,数据太多可以进行归档,但数仓不可以.这就导致了数仓中的磁盘占用率越来越高,终归有一天,磁盘不足,那给CDH集群增加磁盘就不能避免.

        以下是我实际工作中一次增加磁盘的记录.分享出来希望可以帮到有缘人.

分为以下三个部分描述

    1-磁盘热插拔的注意事项

    2-具体操作步骤

    3-增加磁盘后的效果

注意事项

  • 热插拔只能添加具有空数据目录的磁盘。
  • 卸下磁盘不会将数据移出磁盘,这可能会导致数据丢失。
  • 不要同时在多个主机上执行热交换。
  • 每次更改单独机器的HDFS配置信息,不要更改角色组的信息,即便是统一每台机器都增加同样数量的磁盘且磁盘mount路径都相同

因此次我们是操作增加磁盘,所以注意事项第二条可以忽略掉.

操作步骤

准备阶段:

准备阶段主要是磁盘硬件添加和挂载,这些工作都是IT部门同事帮忙做的,最终给一台机器增加10块磁盘,分别挂载在/u06和/u07 ..../u15目录下.

a-登录CDH主界面,点击HDFS角色

b-点击"实例"选项卡

此时我们可以看到所有DataNode节点的列表,选择要添加磁盘的机器,点击它对应的DATA NODE

点进去后,我们看到的就是这台机器单独的界面,点击配置.

绿色框部分为该机器现有的磁盘挂载目录.只需要点击加号按钮添加磁盘路径即可.添加后截图如下

更改完毕,点击保存更改.此时DN处于使用过期配置的情况,更新配置界面如下

勾选上这两个选项,只重新启动单台DN,对集群影响降低到最小.不会影响正在运行的各种服务.重启过程如下

增加后的效果

重启后,在CDH界面查看该机器信息,发现磁盘容量从4T+变为了25T+,此时登录服务器导磁盘挂载目录下,发现创建好了对应的dfs数据文件夹.

扩容完成.其他应用没有受到影响

以上,为CDH机器增加磁盘的过程,请注意,不要一次性操作多台机器.感谢耐心阅读.

2019-12-06=================================================

在集群页面找到了一个直接更新数据目录的按钮.截图如下

也就是说,在添加完数据存储目录的时候,直接在右上角找到操作->刷新数据目录即可完成数据目录的更改和添加,该步骤执行结果如下


推荐阅读
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • Windows环境下Oracle数据库迁移实践
    本文详细记录了一次在Windows操作系统下将Oracle数据库的控制文件、数据文件及在线日志文件迁移至外部存储的过程,旨在为后续的集群环境部署做好准备。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • Redis:缓存与内存数据库详解
    本文介绍了数据库的基本分类,重点探讨了关系型与非关系型数据库的区别,并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • HDFS数据读写流程详解
    本文详细解析了HDFS(Hadoop分布式文件系统)中的数据读写过程,包括从客户端发起请求到最终完成数据传输的每一个关键步骤。 ... [详细]
  • Java虚拟机及其发展历程
    Java虚拟机(JVM)是每个Java开发者日常工作中不可或缺的一部分,但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程,帮助读者深入了解这一关键技术。 ... [详细]
  • 本文详细介绍了Oracle 11g中的创建表空间的方法,以及如何设置客户端和服务端的基本配置,包括用户管理、环境变量配置等。 ... [详细]
  • 本文详细介绍了如何在Oracle VM VirtualBox中实现主机与虚拟机之间的数据交换,包括安装Guest Additions增强功能,以及如何利用这些功能进行文件传输、屏幕调整等操作。 ... [详细]
  • 如何在Django框架中实现对象关系映射(ORM)
    本文介绍了Django框架中对象关系映射(ORM)的实现方式,通过ORM,开发者可以通过定义模型类来间接操作数据库表,从而简化数据库操作流程,提高开发效率。 ... [详细]
  • 本文介绍了如何在两个Oracle数据库(假设为数据库A和数据库B)之间设置DBLink,以便能够从数据库A中直接访问和操作数据库B中的数据。文章详细描述了创建DBLink前的必要准备步骤以及具体的创建方法。 ... [详细]
author-avatar
洁西卡915_922
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有