hbase查询_HBase在滴滴出行的应用场景和最佳实践

作者：政委锤炼_394_774 | 来源：互联网 | 2023-09-02 13:37

背景对接业务类型HBase是建立在Hadoop生态之上的Database，源生对离线任务支持友好，又因为LSM树是一个优秀的高吞吐数据库结构࿰

背景

对接业务类型

HBase是建立在Hadoop生态之上的Database&＃xff0c;源生对离线任务支持友好&＃xff0c;又因为LSM树是一个优秀的高吞吐数据库结构&＃xff0c;所以同时也对接了很多线上业务。在线业务对访问延迟敏感&＃xff0c;并且访问趋向于随机&＃xff0c;如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务&＃xff0c;对一段时间内的数据进行处理并产出结果&＃xff0c;对任务完成的时间要求不是非常敏感&＃xff0c;并且处理逻辑复杂&＃xff0c;如天级别报表、安全和用户行为分析、模型训练等。

多语言支持

HBase提供了多语言解决方案&＃xff0c;并且由于滴滴各业务线RD所使用的开发语言各有偏好&＃xff0c;所以多语言支持对于HBase在滴滴内部的发展是至关重要的一部分。我们对用户提供了多种语言的访问方式&＃xff1a;HBase Java native API、Thrift Server&＃xff08;主要应用于C&＃43;&＃43;、PHP、Python&＃xff09;、JAVA JDBC&＃xff08;Phoenix JDBC&＃xff09;、Phoenix QueryServer&＃xff08;Phoenix对外提供的多语言解决方案&＃xff09;、MapReduce Job&＃xff08;Htable/Hfile Input&＃xff09;、Spark Job、Streaming等。

数据类型

HBase在滴滴主要存放了以下四种数据类型&＃xff1a;

统计结果、报表类数据&＃xff1a;主要是运营、运力情况、收入等结果&＃xff0c;通常需要配合Phoenix进行SQL查询。数据量较小&＃xff0c;对查询的灵活性要求高&＃xff0c;延迟要求一般。
原始事实类数据&＃xff1a;如订单、司机乘客的GPS轨迹、日志等&＃xff0c;主要用作在线和离线的数据供给。数据量大&＃xff0c;对一致性和可用性要求高&＃xff0c;延迟敏感&＃xff0c;实时写入&＃xff0c;单点或批量查询。
中间结果数据&＃xff1a;指模型训练所需要的数据等。数据量大&＃xff0c;可用性和一致性要求一般&＃xff0c;对批量查询时的吞吐量要求高。
线上系统的备份数据&＃xff1a;用户把原始数据存在了其他关系数据库或文件服务&＃xff0c;把HBase作为一个异地容灾的方案。

使用场景介绍

场景一&＃xff1a;订单事件

这份数据使用过滴滴产品的用户应该都接触过&＃xff0c;就是App上的历史订单。近期订单的查询会落在Redis&＃xff0c;超过一定时间范围&＃xff0c;或者当Redis不可用时&＃xff0c;查询会落在HBase上。业务方的需求如下&＃xff1a;

在线查询订单生命周期的各个状态&＃xff0c;包括status、event_type、order_detail等信息。主要的查询来自于客服系统。
在线历史订单详情查询。上层会有Redis来存储近期的订单&＃xff0c;当Redis不可用或者查询范围超出Redis&＃xff0c;查询会直接落到HBase。
离线对订单的状态进行分析。
写入满足每秒10K的事件&＃xff0c;读取满足每秒1K的事件&＃xff0c;数据要求在5s内可用。

图1 订单流数据流程

按照这些要求&＃xff0c;我们对Rowkey做出了下面的设计&＃xff0c;都是很典型的scan场景。

订单状态表

Rowkey&＃xff1a;reverse(order_id) &＃43; (MAX_LONG – TS)
Columns&＃xff1a;该订单各种状态

订单历史表

Rowkey&＃xff1a;reverse(passenger_id | driver_id) &＃43; (MAX_LONG – TS)
Columns&＃xff1a;用户在时间范围内的订单及其他信息

场景二&＃xff1a;司机乘客轨迹

这也是一份滴滴用户关系密切的数据&＃xff0c;线上用户、滴滴的各个业务线和分析人员都会使用。举几个使用场景上的例子&＃xff1a;用户查看历史订单时&＃xff0c;地图上显示所经过的路线&＃xff1b;发生司乘纠纷&＃xff0c;客服调用订单轨迹复现场景&＃xff1b;地图部门用户分析道路拥堵情况。

图2 司乘轨迹数据流程

用户们提出的需求&＃xff1a;

满足App用户或者后端分析人员的实时或准实时轨迹坐标查询&＃xff1b;
满足离线大规模的轨迹分析&＃xff1b;
满足给出一个指定的地理范围&＃xff0c;取出范围内所有用户的轨迹或范围内出现过的用户。

其中&＃xff0c;关于第三个需求&＃xff0c;地理位置查询&＃xff0c;我们知道MongoDB对于这种地理索引有源生的支持&＃xff0c;但是在滴滴这种量级的情况下可能会发生存储瓶颈&＃xff0c;HBase存储和扩展性上没有压力但是没有内置类似MongoDB地理位置索引的功能&＃xff0c;没有就需要我们自己实现。通过调研&＃xff0c;了解到关于地理索引有一套比较通用的GeohHash算法。

GeoHash是将二维的经纬度转换成字符串&＃xff0c;每一个字符串代表了某一矩形区域。也就是说&＃xff0c;这个矩形区域内所有的点&＃xff08;经纬度坐标&＃xff09;都共享相同的GeoHash字符串&＃xff0c;比如说我在悠唐酒店&＃xff0c;我的一个朋友在旁边的悠唐购物广场&＃xff0c;我们的经纬度点会得到相同的GeoHash串。这样既可以保护隐私&＃xff08;只表示大概区域位置而不是具体的点&＃xff09;&＃xff0c;又比较容易做缓存。

图3 GeoHash示意图

但是我们要查询的范围和GeohHash块可能不会完全重合。以圆形为例&＃xff0c;查询时会出现如图4所示的一半在GeoHash块内&＃xff0c;一半在外面的情况&＃xff08;如A、B、C、D、E、F、G等点&＃xff09;。这种情况就需要对GeoHash块内每个真实的GPS点进行第二次的过滤&＃xff0c;通过原始的GPS点和圆心之间的距离&＃xff0c;过滤掉不符合查询条件的数据。

图4 范围查询时&＃xff0c;边界GeoHash块示意图

最后依据这个原理&＃xff0c;把GeoHash和其他一些需要被索引的维度拼装成Rowkey&＃xff0c;真实的GPS点为Value&＃xff0c;在这个基础上封装成客户端&＃xff0c;并且在客户端内部对查询逻辑和查询策略做出速度上的大幅优化&＃xff0c;这样就把HBase变成了一个MongoDB一样支持地理位置索引的数据库。如果查询范围非常大&＃xff08;比如进行省级别的分析&＃xff09;&＃xff0c;还额外提供了MR的获取数据的入口。

两种查询场景的Rowkey设计如下&＃xff1a;

单个用户按订单或时间段查询&＃xff1a; reverse(user_id) &＃43; (Integer.MAX_LONG-TS/1000)
给定范围内的轨迹查询&＃xff1a;reverse(geohash) &＃43; ts/1000 &＃43; user_id

场景三&＃xff1a;ETA

ETA是指每次选好起始和目的地后&＃xff0c;提示出的预估时间和价格。提示的预估到达时间和价格&＃xff0c;最初版本是离线方式运行&＃xff0c;后来改版通过HBase实现实时效果&＃xff0c;把HBase当成一个KeyValue缓存&＃xff0c;带来了减少训练时间、可多城市并行、减少人工干预的好处。

整个ETA的过程如下&＃xff1a;

模型训练通过Spark Job&＃xff0c;每30分钟对各个城市训练一次&＃xff1b;
模型训练第一阶段&＃xff0c;在5分钟内&＃xff0c;按照设定条件从HBase读取所有城市数据&＃xff1b;
模型训练第二阶段在25分钟内完成ETA的计算&＃xff1b;
HBase中的数据每隔一段时间会持久化至HDFS中&＃xff0c;供新模型测试和新的特征提取。

Rowkey&＃xff1a;salting&＃43;cited&＃43;type0&＃43;type1&＃43;type2&＃43;TS
Column&＃xff1a;order, feature

图5 ETA数据流程

场景四&＃xff1a;监控工具DCM

用于监控Hadoop集群的资源使用&＃xff08;Namenode&＃xff0c;Yarn container使用等&＃xff09;&＃xff0c;关系数据库在时间维度过程以后会产生各种性能问题&＃xff0c;同时我们又希望可以通过SQL做一些分析查询&＃xff0c;所以使用Phoenix&＃xff0c;使用采集程序定时录入数据&＃xff0c;生产成报表&＃xff0c;存入HBase&＃xff0c;可以在秒级别返回查询结果&＃xff0c;最后在前端做展示。

图6 DCM数据流程

图7、图8、图9是几张监控工具的用户UI&＃xff0c;数字相关的部分做了模糊处理。

图7 DCM HDFS按时间统计使用全量和增量

图8 DCM HDFS按用户统计文件数

图9 DCM&＃xff0c;MR Job运行结果统计

滴滴在HBase对多租户的管理

我们认为单集群多租户是最高效和节省精力的方案&＃xff0c;但是由于HBase对多租户基本没有管理&＃xff0c;使用上会遇到很多问题&＃xff1a;在用户方面比如对资源使用情况不做分析、存储总量发生变化后不做调整和通知、项目上线下线没有计划、想要最多的资源和权限等&＃xff1b;我们平台管理者也会遇到比如线上沟通难以理解用户的业务、对每个接入HBase的项目状态不清楚、不能判断出用户的需求是否合理、多租户在集群上发生资源竞争、问题定位和排查时间长等。

针对这些问题&＃xff0c;我们开发了DHS系统&＃xff08;Didi HBase Service&＃xff09;进行项目管理&＃xff0c;并且在HBase上通过Namespace、RS Group等技术来分割用户的资源、数据和权限。通过计算开销并计费的方法来管控资源分配。

图10 DHS项目表监控

DHS主要有下面几个模块和功能&＃xff1a;

项目生命周期管理&＃xff1a;包括立项、资源预估和申请、项目需求调整、需求讨论&＃xff1b;
用户管理&＃xff1a;权限管理&＃xff0c;项目审批&＃xff1b;
集群资源管理&＃xff1b;
表级别的使用情况监控&＃xff1a;主要是读写监控、memstore、blockcache、locality。

当用户有使用HBase存储的需求&＃xff0c;我们会让用户在DHS上注册项目。介绍业务的场景和产品相关的细节&＃xff0c;以及是否有高SLA要求。

之后是新建表以及对表性能需求预估&＃xff0c;我们要求用户对自己要使用的资源有一个准确的预估。如果用户难以估计&＃xff0c;我们会以线上或者线下讨论的方式与用户讨论帮助确定这些信息。

然后会生成项目概览页面&＃xff0c;方便管理员和用户进行项目进展的跟踪。

HBase自带的jxm信息会汇总到Region和RegionServer级别的数据&＃xff0c;管理员会经常用到&＃xff0c;但是用户却很少关注这个级别。根据这种情况我们开发了HBase表级别的监控&＃xff0c;并且会有权限控制&＃xff0c;让业务RD只能看到和自己相关的表&＃xff0c;清楚自己项目表的吞吐及存储占用情况。

通过DHS让用户明确自己使用资源情况的基础之上&＃xff0c;我们使用了RS Group技术&＃xff0c;把一个集群分成多个逻辑子集群&＃xff0c;可以让用户选择独占或者共享资源。共享和独占各有自己的优缺点&＃xff0c;如表1。

表1 多租户共享和独占资源的优缺点

根据以上的情况&＃xff0c;我们在资源分配上会根据业务的特性来选择不同方案&＃xff1a;

对于访问延迟要求低、访问量小、可用性要求低、备份或者测试阶段的数据&＃xff1a;使用共享资源池&＃xff1b;
对于延迟敏感、吞吐要求高、高峰时段访问量大、可用性要求高、在线业务&＃xff1a;让其独占一定机器数量构成的RegionServer Group资源&＃xff0c;并且按用户预估的资源量&＃xff0c;额外给出20%~30%的余量。

最后我们会根据用户对资源的使用&＃xff0c;定期计算开销并向用户发出账单。

RS Group

RegionServer Group&＃xff0c;实现细节可以参照HBase HBASE-6721这个Patch。滴滴在这个基础上作了一些分配策略上的优化&＃xff0c;以便适合滴滴业务场景的修改。RS Group简单概括是指通过分配一批指定的RegionServer列表&＃xff0c;成为一个RS Group&＃xff0c;每个Group可以按需挂载不同的表&＃xff0c;并且当Group内的表发生异常后&＃xff0c;Region不会迁移到其他的Group。这样&＃xff0c;每个Group就相当于一个逻辑上的子集群&＃xff0c;通过这种方式达到资源隔离的效果&＃xff0c;降低管理成本&＃xff0c;不必为每个高SLA的业务线单独搭集群。

图11 RS Group示意图

总结

在滴滴推广和实践HBase的工作中&＃xff0c;我们认为至关重要的两点是帮助用户做出良好的表结构设计和资源的控制。有了这两个前提之后&＃xff0c;后续出现问题的概率会大大降低。良好的表结构设计需要用户对HBase的实现有一个清晰的认识&＃xff0c;大多数业务用户把更多精力放在了业务逻辑上&＃xff0c;对架构实现知之甚少&＃xff0c;这就需要平台管理者去不断帮助和引导&＃xff0c;有了好的开端和成功案例后&＃xff0c;通过这些用户再去向其他的业务方推广。资源隔离控制则帮助我们有效减少集群的数量&＃xff0c;降低运维成本&＃xff0c;让平台管理者从多集群无止尽的管理工作中解放出来&＃xff0c;将更多精力投入到组件社区跟进和平台管理系统的研发工作中&＃xff0c;使业务和平台都进入一个良性循环&＃xff0c;提升用户的使用体验&＃xff0c;更好地支持公司业务的发展。

推荐阅读

int
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
int
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
int
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
int
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
int
Python 伦理黑客技术：深入探讨后门攻击（第三部分）

在《Python 伦理黑客技术：深入探讨后门攻击（第三部分）》中，作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流，难以确定消息批次的结束点，这给后门攻击的实现带来了挑战。为了解决这一问题，文章提出了一系列有效的技术方案，包括使用特定的分隔符和长度前缀，以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性，还为安全研究人员提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 16:33:02
int
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
uri
如何有效解决 PHP 处理大图片时的内存溢出问题

在处理大图片时，PHP 常常会遇到内存溢出的问题。为了避免这种情况，建议避免使用 `setImageBitmap`、`setImageResource` 或 `BitmapFactory.decodeResource` 等方法直接加载大图。这些函数在处理大图片时会消耗大量内存，导致应用崩溃。推荐采用分块处理、图像压缩和缓存机制等策略，以优化内存使用并提高处理效率。此外，可以考虑使用第三方库如 ImageMagick 或 GD 库来处理大图片，这些库提供了更高效的内存管理和图像处理功能。 ... [详细]

蜡笔小新 2024-11-03 20:31:59
function
Java 中如何将多参数方法传递给使用 List 的 Function

本文探讨了如何在 Java 中将多参数方法通过 Lambda 表达式传递给一个接受 List 的 Function。具体分析了 `OrderUtil` 类中的 `runInBatches` 方法及其使用场景。 ... [详细]

蜡笔小新 2024-11-12 22:25:23
int
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
go
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
int
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
export
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
export
Dense Matrix Inversion Results in Segmentation Fault: Causes and Solutions

Dense Matrix Inversion Results in Segmentation Fault: Causes and Solutions ... [详细]

蜡笔小新 2024-11-07 08:11:57
export
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
int
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55

政委锤炼_394_774

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章