hbaseput写入数据慢_HBase运维|HBase疑难杂症诊治

作者：吉樺雄_910 | 来源：互联网 | 2023-09-02 11:52

hbase2.0处理rit状态记录日期版本号类别描述2019-07-051.0.0A排查hbase2.0的rit问题问题说明由于使用HDP3.0，HDP3.0使用的是

hbase2.0处理rit状态记录

日期	版本号	类别	描述
2019-07-05	1.0.0	A	排查hbase2.0的rit问题

问题说明

由于使用HDP3.0&＃xff0c;HDP3.0使用的是hbase2.0.0版本&＃xff0c;hbase的ui页面发现很多表出现了rit&＃xff0c;删除表过程中&＃xff0c;region的状态卡在了opening。先尝试使用hbck2工具进行修复&＃xff0c;发现在hbase2.0的master的rpc方法中没有hbck2中的bypass&＃xff0c;assign方法&＃xff0c;通过源码发现&＃xff0c;hbck2的rpc方法是在hbase2.0.2中才增加的&＃xff0c;所以只能尝试手动处理&＃xff1a;

一.hdfs上已经没有对应目录&＃xff0c;meta里没有对应表状态信息&＃xff0c;存在有对应的分区信息

1. 检查表状态

get &＃39;hbase:meta&＃39;,&＃39;KYLIN_0054K9NLSU&＃39;,&＃39;table:state&＃39;

结果为空

2. 通过源码发现表状态

ENABLED,对应meta表里的值\x80\x00 DISABLED, 对应meta表里的值\x80\x01 DISABLING, 对应meta表里的值\x80\x02 ENABLING, 对应meta表里的值\x80\x03

3. 查找分区信息

scan &＃39;hbase:meta&＃39;,{FILTER &＃61;> org.apache.hadoop.hbase.filter.PrefixFilter.new(org.apache.hadoop.hbase.util.Bytes.toBytes(&＃39;KYLIN_0054K9NLSU&＃39;))}

发现存在有分区记录

4. 手动修改表状态或者删除分区信息

put &＃39;hbase:meta&＃39;,&＃39;KYLIN_0054K9NLSU&＃39;,&＃39;table:state&＃39;,&＃39;\x80\x01&＃39;

或者deleteall 表对应的分区信息&＃xff0c;修改后重启hbase&＃xff0c;发现rit状态消失

二.hdfs上已经有对应目录&＃xff0c;meta里有对应表状态信息和分区信息

1. 确认一下表的信息和数据

hbase hbck -summary TableName

2. 检查表状态

get &＃39;hbase:meta&＃39;,&＃39;KYLIN_0354K9NLSU&＃39;,&＃39;table:state&＃39;

meta表里的值\x80\x02&＃xff0c;表的状态为DISABLING

3. 找出异常的region

echo "scan &＃39;hbase:meta&＃39;,{FILTER &＃61;> org.apache.hadoop.hbase.filter.PrefixFilter.new(org.apache.hadoop.hbase.util.Bytes.toBytes(&＃39;KYLIN_0354K9NLSU&＃39;))}"|hbase shell -n|grep OPENING

找出异常的region

4. 将region信息更新为CLOSED状态

put &＃39;hbase:meta&＃39;,&＃39;KYLIN_0354K9NLSU,,1561953520536.30b7d24eaa3209c6e5e8de764ad04855.&＃39;,&＃39;info:state&＃39;,&＃39;CLOSED&＃39;,1562117738678

………

5. 将表状态更新为disable

put &＃39;hbase:meta&＃39;,&＃39;KYLIN_0354K9NLSU&＃39;,&＃39;table:state&＃39;,"\x08\x01",1562120793251

重启hbase后rit消失

存在问题

rit是删除表的时候出现&＃xff0c;所以表中的数据可以忽略&＃xff0c;上述操作也是表中没有数据时操作
如果是生成集群&＃xff0c;已经存在的数据比较多&＃xff0c;不建议直接重启&＃xff0c;可以通过切换master的方式
可以使用HDP3.1.1&＃xff0c;里面hbase版本是2.0.2&＃xff0c;可以使用hbck2操作
使用hbck2的方法的话&＃xff0c;修改meta状态后还会同步改zookeeper状态&＃xff0c;能避免状态不一致

HBase2.x之RIT问题解决

问题描述

Region-In-Trasition机制&＃xff1a;从字面意思来看&＃xff0c;Region-In-Transition说的是Region变迁机制&＃xff0c;实际上是指在一次特定操作行为中Region状态的变迁&＃xff0c;例如merge、split、assign、unssign等操作。RIT问题指的是在RIT过程中出现异常情况&＃xff0c;然后导致region的状态一直保持在RIT&＃xff0c;使得HBase出现异常。

解决方案

方案一

检查hdfs的健康度&＃xff0c;是否有hbase的文件丢失或损坏&＃xff0c;运行命令hadoop fsck /&＃xff0c;结果如下&＃xff1a;

排除hdfs丢失block的问题。如果出现hdfs的block损坏或丢失的情况&＃xff0c;可以通过hdfs的修复命令进行修复。

方案二

在HBase1.x系列中RIT问题通常可以通过hbase hbck –repair操作完成修复。但是在HBase2.x系列中&＃xff0c;该命令还没有支持&＃xff0c;所以暂时无法通过这种命令完成修复。结果如下&＃xff1a;

第一次执行发现没有权限&＃xff0c;root用户不是hdfs的超级用户&＃xff0c;安装提示需要以hbase用户去执行该命令。修改如下&＃xff1a;

su hbase -s /bin/sh -c "hbase hbck -repair"

提示为hbase有其他线程正在执行hbck fix命令&＃xff0c;但是其实没有这种命令&＃xff0c;其实从这里就可以看出HBase2.x对于-repair的支持是不够的。我按照提示删除了hdfs(/hbase/.tmp/)上的hbase-hbck.lock文件&＃xff0c;重新运行命令如下&＃xff1a;

方案三

根据RIT状态执行assign或者unassign命令&＃xff0c;状态信息如下&＃xff1a;

经过查询资料&＃xff0c;解决方案如下&＃xff1a;

hbase shell多次执行unassign &＃39;20acfcbd68fd624a78bb34c88f9382d1&＃39;和unassign &＃39;20acfcbd68fd624a78bb34c88f9382d1&＃39; , true都超时结束&＃xff0c;通过修改rpc和zk的超时时间都无法完成(正常超时时间为60000ms&＃xff0c;修改为600000ms)。

方案四

经过多次试验&＃xff0c;最终都无法使得HBase回复正常&＃xff0c;最终决定删除进行测试。

Zookeeper节点删除&＃xff1a;

通过hbase zkcli命令进入Zookeeper命令行界面&＃xff1a;

我想删除节点 /hbase-unsecure/region-in-transition&＃xff0c;但是发现并没有该节点&＃xff0c;经过资料查询了解到HBase2.x的RIT状态并不像HBase1.x系列存储在Zookeeper上。经过测试删除/hbase节点重启hbase并不能解决RIT问题。

HBase表删除&＃xff1a;

hbase shell>disable M_TDY_PT_LCZZ

disable失败&＃xff0c;所以正常删除表操作无法执行。需要进行暴力删除&＃xff0c;暴力删除指的是从元数据进行删除。

先停掉HBase

删除hdfs表目录(记得先备份&＃xff0c;等下恢复用)

hdfs dfs -cp /hbase/data/hospital/P_TDY_DASC_DE02_01_039_63 / hdfs dfs -cp /hbase/data/hospital/M_TDY_PT_LCZZ / hdfs dfs -rm -r -skipTrash /hbase/data/hospital/P_TDY_DASC_DE02_01_039_63 hdfs dfs -rm -r -skipTrash /hbase/data/hospital/ M_TDY_PT_LCZZ delete &＃39;hbase:meta&＃39;,&＃39;rowkey&＃39;, &＃39;column&＃39;

Rowkey信息可以通过hbase的UI看到&＃xff1a;

然后重启HBase&＃xff0c;但是发现问题没有解决。

hbase shell查询数据看到hbase的meta删除失败了&＃xff0c;原本的meta信息还在&＃xff1a;

然后重新删除(delete命令换成deleteall命令)&＃xff1a;

再删除Zookeeper中的/hbase节点&＃xff0c;重启HBase发现RIT问题已经解决了。

后续就是重建表&＃xff0c;然后恢复数据。

Phoenix故障处理笔记

1. Timeline

06-26 16:00 Phoenix使用方反馈慢&＃xff1b;
06-26 16:02 同事通过监控看到Phoenix HBase集群一个对应的RegionServer&＃xff0c;QueueSize过高&＃xff0c;此bug基本是Butch Put Lock在高并发写入的问题&＃xff0c;我们已在下个版本中增加信息日志定位此问题&＃xff1b;
06-26 16:05 同事重启该队列过高的RegionServer&＃xff1b;
06-26 16:10 同事跟我说&＃xff0c;好多Phoenix的Region处于RIT状态&＃xff1b;
06-26 17:00 暂停该Phoenix集群所有的写入&＃xff1b;
06-26 20:00 跟业务沟通&＃xff0c;可能会正常影响一段时间&＃xff0c;经同意。至此各种hbck&＃xff0c;各种重启RegionServer&Master不怎么管用&＃xff0c;RIT数量升至550个&＃xff1b;
06-27 12:00 尝试修复&＃xff1b;
06-27 15:00 问题修复。

2. 处理流程

2.1 异常现象

1. 大量Region无法上线(NotServingRegionException)

2. Phoenix的SYSTEM.CATALOG系统表也无法上线。

2.2 处理流程

手动assign SYSTEM.CATALOG 表的Region上线&＃xff0c;并且跟踪Master&对应RegionServer的日志。整个offline&open流程都正常。但是中间会由于各种其他的表不在线failover后close掉&＃xff1b;
打印jstack, 感觉这几个线程有问题&＃xff0c;都在waiting&＃xff1b;

通过上面的信息看&＃xff0c;open region确实有问题。查看Phoenix Indexer Observer源码就会知道是在根据Recover WAL Entry构建索引&＃xff1b;
修改hbase.regionserver.executor.openregion.threads数,此配置是负责open region的handler数&＃xff1a;
hbase.regionserver.executor.openregion.threadsname> 50value> property>
默认 3&＃xff0c; 我们这边的hbase版本(1.0.0-cdh5.4.4)
重启RegionServer&＃xff1b;
assign SYSTEM.CATAOG 表的Region&＃xff0c;上线成功&＃xff1b;
修修补补&＃xff0c;fixMeta fixAssignments就ok了。

3. 原理分析

1. 重启RegionServer&＃xff0c; 会造成该RegionServer上面的Region下线&＃xff0c;并且被重新Balance到新的RegionServer中。

2. Region在新的RegionServer中open过程会找到该Region下的recover.edits 文件&＃xff0c;进行replay&＃xff1b;

3.Phoenix表使用HBase的协处理类型之Observer&＃xff0c;具体使用查看示例

org.apache.phoenix.hbase.index.Indexer&＃xff0c;此用作根据WAL构建索引的&＃xff0c;具体参考Phoenix的相关材料。

4. 在SYSTEM.CATALOG 的打开过程中&＃xff0c;会查询其他的里面表&＃xff0c;其他的表也处于RIT未恢复。然而其他的表Region在open的过程也需要构建Index&＃xff0c;尚且有一部分在openregion的队列里面。最终SYSTEM.CATALOG无法上线(此处不准确&＃xff0c;纯属囫囵吞枣似的查看源码推测)。

5. 增加open region handler数之后&＃xff0c;重启RegionServer后&＃xff0c;需要进行一些hbck -fixMeta -fixAssginment 将一些未上线的Region上线, 就ok了。

6. 如果出现个别的Region还是上线失败&＃xff0c;那就手动解决吧&＃xff01;个人认为比hbck -repair暴力修复靠谱。

推荐阅读

range
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
int
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
int
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
python
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
python
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
import
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
rsa
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
rsa
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
version
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
scala
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
int
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
version
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
int
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
int
org.jboss.netty.buffer.ChannelBuffer.readUnsignedInt()方法的使用及代码示例

本文整理了Java中org.jboss.netty.buffer.ChannelBuffer.readUnsignedInt()方法的一些代码示例，展示了C ... [详细]

蜡笔小新 2024-10-18 21:55:05
version
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41

吉樺雄_910

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章