热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。

随着最后一台设备的退还,标志着整个10P+的HBase数据迁移完成。目前新集群已经在新机房平稳运行2个月,从监控图明显反应出新集群查询耗时更低,更稳定。从消费的曲线来看,也更平滑,基本不会有大量毛刺的情况出现。一颗心也落了地。终于可以腾出时间,来好好梳理一下这次数据大迁移的过程。

第一次主导HBase大数据的数据迁移,由于缺乏类似的实战经验,迁移期间战战兢兢、如履薄冰。幸亏有老司机的协助,才得以顺利完成。总结一下整个项目的过程以及遇到的问题,吸取经验和教训,以便后面能做得更好。同时也为其他运维HBase的技术朋友提供一个成功的案例参考。

项目背景

某日,收到资源测的通知:机房即将裁撤,需要尽快将机房所有的业务都迁移到新机房,这里面涉及到自己刚接手的HBase集群,集群存储有近10P的金融数据,这个集群承担着每秒上百万次的数据写入,存储的都是重要的金融数据。很多关键流程都依赖HBase服务,比如退款、历史订单查询、证书查询、客服系统等,这些重要业务都是不能出现中断的。

概括一下需求:2个多月的时间里,需要将近10P的金融数据平滑迁移到新机房,并且中间不能出现数据丢失和业务中断。

项目挑战

这个项目面临的蛮大的挑战,主要的挑战简单概括日下:

1、数据量巨大,涉及10P+的数据

2、不能停业务,只能平滑迁移

3、金融数据数据不能丢,不能错

4、缺乏大规模数据的迁移经验,只能摸着石头过河

瞬间感觉压力巨大,因为之前一直做MySQL相关的工作,这次要处理的是分布式数据库HBase的数据迁移。从最近的学习来看,HBase(底层存储用的HDFS)的运维本身要比MySQL的运维要难得多,加上这个项目面临的几个大挑战,不免临事而惧,只能沉下心来好好规划,详细地去测试验证。从方案选型、到方案的测试、验证和实施,每个步骤都需要做到心中有数。先来介绍方案的选型。

迁移方案

考察了所有的HBase的数据迁移方案,以及各个方案适用场景,这里可以参考如下两个KM文章针对不同数据迁移方式的讨论:

链接1:https://www.jianshu.com/p/8d091591d872(玩转HBase快照)

链接2:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html(HBase数据迁移方案介绍)

也参考了其他公司在数据迁移方案上经验,比如snapshot和CopyTable的讨论可以参见:http://hbase-help.com/?/question/35

最终选择了snapshot+bulkload+集群双写的方案

如下图所示的迁移方案:

《HBase金融大数据乾坤大挪移》

大致方案为:开启双写后,使用SnapShot技术对集群A的表做好快照,然后通过Export snapshot将快照传输到集群B,并使用BuldLoad在B集群进行导入,从而使得集群数据一致。

具体步骤如下:

1、在集群A和集群B开启双写

备注:需要特别注意B集群delete标记参数(hbase.hstore.time.to.purge.deletes)的配置,因为从在A集群做快照到Export snapshot传输到B集群在到使用BuldLoad在B集群完成导入是需要时间的,尤其是如果一个表很大,需要的时间更久,甚至可能超过好几个小时。因此必须保证B集群的hbase.hstore.time.to.purge.deletes参数大于最大的表迁移时间,否则可能会导致删除的数据又“奇迹”般地出现在B集群中。

2、迁移表结构

3、针对表创建snapshot

    备注:snapshot相关的知识可以参考:https://www.jianshu.com/p/8d091591d872(玩转HBase快照)

4、通过Export Snapshot将快照传输到B集群

5、使用BulkLoad将数据导入到B集群

6、对迁移的表进行集群间对账,确认数据是否一致

7、灰度切换表的查询到B集群

统筹规划

在数据迁移之前,我们考虑了之前集群存在的问题,根据这些问题我们对新集群做了非常多的优化,这是系统思维在运维过程中比较好的运用了。这些问题主要体现在:

1、版本比较旧(HBase 0.98   HDFS 2.2),对于新功能不支持,比如异构存储;性能也不如新版本号;

2、group比较多,导致机器相对比较分散

3、表的region数量设计不太合理,部分表数量比较小,region数量很多

4、有的表没有开启布隆过滤器,性能比较差

5、部分参数没有优化(由于重启整个集群成本比较高,部分参数一直没有优化)

6、全链路监控未完全打通,有的问题无法快速发现

针对这部分问题,在迁移集群就顺便做了优化,从目前新集群的运行情况来看,优化效果还是非常好的。

具体优化分类如下:

1、版本升级优化

    HBase0.98 —>  1.26

    HDFS    2.2 —>  2.7

    备注:兼容性评估和测试未发现异常

2、硬件层面优化

    a、充分利用TSC10自带的一个SSD盘,HDFS的异构存储将WAL日志写入到SSD盘,充分利用资源的同时提升性能;

备注:关于异构存储实战相关的知识,可以访问:https://www.jianshu.com/p/167d7677a050(HDFS异构存储实战)

    b、将regionserver的配置从24G调整到48G,因为TSC10的内存为64G

3、运营层面优化

    a、统筹各个类型表的历史数据情况,重新调整表的region数,减少必须要的元数据空间损耗

    b、减少集群group数量,从原来的7个变成5个,减少机器分散;

备注:关于group的相关知识可以访问:https://www.jianshu.com/p/04d56a2c8b5c(HBase隔离方案实战)

    c、对集群进行本地化优化,历史数据全量进行major_compact

4、参数优化

    建表参数优化:

    a、hbase.hstore.compaction.min 调整为3,提升自动合并效率

    b、BLOOMFILTER => ‘ROW’ ,提升查询性能

    HBase参数优化

    a、hbase.ipc.server.callqueue.read.ratio  指定读的所占比率,保证读操作顺利进行

    b、hbase.wal.storage.policy  确定hbase写WAL的策略,提升写WAL的性能,充分利用资源

    HDFS参数优化

    这里主要是减少机器故障后给整个集群带来的性能冲击。

    a、dfs.namenode.replication.interval   减少副本计算频率

    b、dfs.namenode.replication.work.multiplier.per.iteration 减少每次迁移的block数

5、监控层面优化:

    a、增加了全链路的监控上报和告警(DBSYNC、TDSORT),快速发现机器负载异常、表不存在、region未上线、RegionServer超时等问题;

    b、增加了采集容灾调整,对发现只配置了单台采集机器但实例本身有多台备机的问题进行配置改造;

    c、增加了采集延迟场景的监控,用于快速发现切换到跨机房导致的采集延迟问题;

遇到问题

迁移过程中,遇到了很多的问题,分别总感觉如下:

1、dfs.datanode.du.reserved参数引起的WAL无法写入SSD的问题

原因是因为我们配置了dfs.datanode.du.reserved为200G,意思是HDFS数据盘保留200G的空间,而我们的SSD盘(规划用来存储WAL的盘也只有200G,加上系统保留5%的空间,总计可用空间还不足200G),因此在写SSD之前空间少于200G,因此WAL也写入到了SATA盘,导致SSD使用率为0。解决办法具体的场景查阅文章:https://www.jianshu.com/p/508449d8f12c

2、使用Mapreduce传输快照文件的各类异常

    在使用Mapreduce将快照文件Export到新集群的时候,出现过各种异常,包括搭建以及调试的时候的异常,问题都总结在了下面的两篇文章中,有兴趣的可以自行了解:

MR相关问题排查思路(https://www.jianshu.com/p/ebd469da07d2)

HBase混布MapReduce集群学习记录(https://www.cnblogs.com/ballwql/p/9278389.html)

3、配置WAL写SSD后,很快发现SSD被用光

在之前的规划统计中,WAL日志应该在5T以内,折算到每台机器为55G左右。如果都写SSD,我们为WAL分配了120G的空间,因此正常情况下每台机器的WAL使用率为55%~60%之间,为什么会使用率为99%呢?经过追踪namenode的日志,发现有大量的非WAL数据也写入到了SSD中,因此导致SSD很快耗尽。根本原因是版本bug导致的获取盘的时候把SSD也当做普通的存储处理,版本修复后,正常。这里涉及到需要将已经写入到SSD的数据迁移到SATA中,在HDFS异构存储实战中已有详细的描述,有兴趣的可以阅读这篇文章,《HDFS异构存储实战》(https://www.jianshu.com/p/167d7677a050)

4、BulkLoad出现文件不存在的异常

    在检查BulkLoad结果的时候,有的时候回出现文件不存在的exceptions,访问频繁的表尤其容易出现,异常日志如下:

org.apache.hadoop.io.MultipleIOException: 6 exceptions [java.io.FileNotFoundException: File does not exist: /hbase/archive/data/default/t_tcpay_list_201611/c520120e9b6cd2f49851931ff68ad97a/I/ccb7414cc0054c25aeb8da63c4bf2bda

    在去老集群也找不到对应的region,后来跟踪文件并模拟线上个环境重现确认是compact操作导致Hfile移动到了archive目录下,而程序中是逐个读取archive目录下对应的Hfile,因为BulkLoad导入大表需要比较长的时间,大概率会遇到compact的情景,导致读取文件列表的时候文件存在,到真正导入的时候,该文件已经被清理掉了。其实这个并不影响数据准确性,调整异常捕获的关键字并通过对账来解决。

5、数据冗余问题

    在迁移完数据进行核对和业务灰度的时候,发现有部分记录出现冗余,具体表现为记录有两台,一条是新数据一条是老数据,如下图:

《HBase金融大数据乾坤大挪移》

初步怀疑是迁移过程中delete标记丢失导致,目前在测试环境无法重现该问题,已记录tapd持续跟进中。已经通过程序修复冗余数据。

迁移过程中遇到太多的问题,这里就不一一列举出来,有兴趣的同学可以访问Fit HBase专门的K吧,我们遇到的问题都会整理到这个K吧中Fit HBase专门的K吧,(http://km.oa.com/group/34126?kmref=km_header),希望能和更多的同行交流HBase中遇到的问题和使用心得。

运营质量

这里从接入业务的查询HBase的成功率和平均延时来确定HBase运营质量的改善情况:

1、HBase订单可用性和延迟情况

《HBase金融大数据乾坤大挪移》

2、HBase交易单可用性和延迟情况

《HBase金融大数据乾坤大挪移》

感谢

回顾整个数据迁移的过程,从集群搭建、参数调优、方案制定、方案测试、问题解决、业务切换,再到最后的设备退还,整个过程痛苦而漫长。这几个月来每天都要面对大量没有遇到过的问题和场景,每天思考最多的就是如何快速的学习,快速地解决问题。一路走来,跌跌撞撞,但收获巨大。从对Hadoop和HBase懵懵懂懂,到对HBase集群运维逐步得心应手,心中已了无恐惧,因为我的背后站着一个非常棒的团队,有idavidjiang(姜老师)和steven老大强力支持,还有TEG强大的老司机们护航,还有很多同事的默默支持,。总之,特别的感谢大家,有了你们的支持,才能实现HBase集群的无缝迁移。


推荐阅读
  • MySQL性能优化与调参指南【数据库管理】
    本文详细探讨了MySQL数据库的性能优化与参数调整技巧,旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面,结合实际案例进行深入分析,提供实用的操作建议。此外,还介绍了常见的性能监控工具和方法,助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]
  • 进程(Process)是指计算机中程序对特定数据集的一次运行活动,是系统资源分配与调度的核心单元,构成了操作系统架构的基础。在早期以进程为中心的计算机体系结构中,进程被视为程序的执行实例,其状态和控制信息通过任务描述符(task_struct)进行管理和维护。本文将深入探讨进程的概念及其关键数据结构task_struct,解析其在操作系统中的作用和实现机制。 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 深入解析:RKHunter与AIDE在入侵检测中的应用与优势
    本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析,详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果,为安全管理人员提供了有效的防护策略建议。 ... [详细]
  • 开发心得:利用 Redis 构建分布式系统的轻量级协调机制
    开发心得:利用 Redis 构建分布式系统的轻量级协调机制 ... [详细]
  • 本题库精选了Java核心知识点的练习题,旨在帮助学习者巩固和检验对Java理论基础的掌握。其中,选择题部分涵盖了访问控制权限等关键概念,例如,Java语言中仅允许子类或同一包内的类访问的访问权限为protected。此外,题库还包括其他重要知识点,如异常处理、多线程、集合框架等,全面覆盖Java编程的核心内容。 ... [详细]
  • 本文详细介绍了如何在Linux系统中搭建51单片机的开发与编程环境,重点讲解了使用Makefile进行项目管理的方法。首先,文章指导读者安装SDCC(Small Device C Compiler),这是一个专为小型设备设计的C语言编译器,适合用于51单片机的开发。随后,通过具体的实例演示了如何配置Makefile文件,以实现代码的自动化编译与链接过程,从而提高开发效率。此外,还提供了常见问题的解决方案及优化建议,帮助开发者快速上手并解决实际开发中可能遇到的技术难题。 ... [详细]
  • 深入解析Tomcat:开发者的实用指南
    深入解析Tomcat:开发者的实用指南 ... [详细]
  • 本文详细解析了 MySQL 5.7.20 版本中二进制日志(binlog)崩溃恢复机制的工作流程。假设使用 InnoDB 存储引擎,并且启用了 `sync_binlog=1` 配置,文章深入探讨了在系统崩溃后如何通过 binlog 进行数据恢复,确保数据的一致性和完整性。 ... [详细]
  • 为了优化直播应用底部聊天框的弹出机制,确保在不同设备上的布局稳定性和兼容性,特别是在配备虚拟按键的设备上,我们对用户交互流程进行了调整。首次打开应用时,需先点击首个输入框以准确获取键盘高度,避免直接点击第二个输入框导致的整体布局挤压问题。此优化通过调整 `activity_main.xml` 布局文件实现,确保了更好的用户体验和界面适配。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • Java新手求助:如何优雅地向心仪女生索要QQ联系方式(附代码示例与技巧)
    在端午节后的闲暇时光中,我无意间在技术社区里发现了一篇关于如何巧妙地向心仪女生索取QQ联系方式的文章,顿时感到精神焕发。这篇文章详细介绍了源自《啊哈!算法》的方法,不仅图文并茂,还提供了实用的代码示例和技巧,非常适合 Java 新手学习和参考。 ... [详细]
  • 深入理解Spark框架:RDD核心概念与操作详解
    RDD是Spark框架的核心计算模型,全称为弹性分布式数据集(Resilient Distributed Dataset)。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作,包括创建、转换和行动操作等,帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段,进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]
  • PHP连接MySQL的三种方法及预处理语句防止SQL注入的技术详解
    PHP连接MySQL的三种方法及预处理语句防止SQL注入的技术详解 ... [详细]
  • Spring框架入门指南:专为新手打造的详细学习笔记
    Spring框架是Java Web开发中广泛应用的轻量级应用框架,以其卓越的功能和出色的性能赢得了广大开发者的青睐。本文为初学者提供了详尽的学习指南,涵盖基础概念、核心组件及实际应用案例,帮助新手快速掌握Spring框架的核心技术与实践技巧。 ... [详细]
author-avatar
高--洁
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有