58集团xDorisDB：满足多场景业务分析需求

作者：moTzxx | 来源：互联网 | 2023-05-17 12:34

58集团是中国互联网生活服务领域的领导者，旗下有国内最大的生活服务平台，覆盖各类业务场景，例如车业务、房产业务、本地服务、招聘业务、金融业务等等。随着业务的高速发展，越来越多的分析需求涌现，例如

58集团是中国互联网生活服务领域的领导者，旗下有国内最大的生活服务平台，覆盖各类业务场景，例如车业务、房产业务、本地服务、招聘业务、金融业务等等。

随着业务的高速发展，越来越多的分析需求涌现，例如：安全分析、商业智能分析、数仓报表等。这些场景的数据体量都较大，对数据分析平台提出了很高的要求。为了满足这些分析型业务的需求，DBA团队从2021年初就开始调研各类分析型数据库，其中包括DorisDB、TiFlash、ClickHouse等，评测他们的性能及功能。

总体评测下来，DorisDB表现全面，在单表/多表查询性能、物化视图及SQL支持等方面能力都契合集团业务需求。目前，我们已经落地了两套DorisDB集群，还有1-2套正在测试阶段，后续会进行进一步推广和落地更多应用。

一、评测信息

我们从两个方面来评测以上这些分析型数据库：一个是功能，一个是性能。每种数据库都有各自的特点。

1.功能方面

2.性能方面

2021年初，我们完整对比过3种数据库的性能，包括 TiFlash (4.0.10) 、ClickHouse (20.3.8.53)、DorisDB (1.11.0)单表及多表join的性能情况。TiDB5.0 的TiFlash已经支持MPP，此处为4.0版本，无MPP。

测试使用业界流行的Star Schema Benchmark星型模型测试集。结论如下：

● 单表/多表查询，DorisDB总体时间均最短。

● 单表查询：DorisDB最快次数最多，ClickHouse次之。

● 多表查询：DorisDB所有执行均最快。

关于TiDB/TiFlash

● TiDB/TiFlash总体时间单表/多表查询均最长。

● TiDB执行计划多数走TiKV，导致执行时间长，且数据量越多，执行时间越长。

● TiDB强制走TiFlash ，单表多数提速多，多表多数变慢，但4.0.10 版本的执行计划多数不走。

关于Clickhouse

● ClickHouse多表查询需要更改SQL，使类型一致才可以，且字段名、表名区分大小写。

● ClickHouse单机性能强悍，性价比较高。

● ClickHouse大单表查询方式效率好，多表关联效率降低明显。

关于DorisDB

● DorisDB单表和多表关联查询速度都非常快。

【单表查询结果】

【多表关联查询结果】

二、业务需求及应用

1.安全分析相关业务

每天，内部服务器上的各类操作和运行情况，是内部安全人员比较关心的。但是服务器上每天有大量的信息，如何能快速收集落地、统一实时分析，是这个数据分析场景面临的挑战。具体来说，安全分析业务需要应对以下情况：

● 写入数据量大，每天大约几亿的数据需要落地；

● 实时快速的分析支持，例如：最近15分钟，机器信息的情况是怎样的；

● 需要定期进行数据清理；

● 数据量不断累积，数据总量规模增长快。

综合评估后，我们选择了DorisDB来支持安全分析相关业务。在使用初期，我们使用了DorisDB的明细模型（即保留所有历史数据），20天左右，数据行数总量就800亿+了，磁盘空间占用8T左右，由于明细数据量庞大导致查询性能也受到影响。

后与内部研发人员讨论，业务分析并不需要详细的历史明细，数据按照指定时间粒度进行聚合汇总即可。便将数据模型改成聚合模型，设置日期、小时和15分钟三个时间维度，指标数据按照这个级别的时间维度进行聚合，聚合后每天新增的数据在10亿左右，数据量降低了 75%，查询性能也得到大幅提升。且采用kafka+routine load的方式在DorisDB中进行导入聚合，避免了引入冗余的组件，统一了技术栈。

2.DBA内部业务

MySQL中间件，我们使用的ProxySQL，ProxySQL支持展示SQL情况。但是操作较为繁琐，每次需要重置，才重新开始统计。如何分析指定时间的SQL情况，是困扰我们的另一问题。

每个ProxySQL有自己的全日志，我们可以分析全日志来获取需要的信息。第一个架构方案，我们想到了使用ES，ProxySQL全日志–>Filebeat采集–>Kafka–>Logstash–>ES。但是实际使用中，发现虽然可以查看流水，但是分析时就比较麻烦，不如写SQL的方便。

后来架构又改成了 ProxySQL全日志–>Filebeat采集–>Kafka–>DorisDB，这样就可以进行快速分析了。

另一个问题，因为线上的ProxySQL的日志量特别大，不能所有集群都开，我们设置了可以选择开启，这样有需要的集群才进行分析。降低存储的压力。

举例：分析某30分钟某集群的SQL执行情况，按照次数排序，查询很快。

除了上述两个场景之外，DorisDB还被用在了销售使用的报表系统等场景中，包含实时数据分析等业务场景，共50+张表，占用约100T存储空间，查询并发量100-500+。

三、系统运维

1.数据接入

DorisDB支持的数据导入方式很丰富，例如本地文件、HDFS、Kafka(支持csv、json格式)、外表、批量SQL等。数据接入时有以下需要注意的问题：

● HDFS导入需要提供Namenode的信息，有些不方便提供就支持不了。

● 外表模式，创建外表后，可以使用insert into select 的方式，循环导入到DorisDB的本地表，能比较方便的从MySQL、TiDB导入数据。

● 日常最常用的是Kafka的Json格式的数据，需要开发提供：

● ● 表字段、字段类型及模型( 明细模型, 聚合模型和更新模型 )。

● ● Kafka信息：kafka_broker_list，kafka_topic，client.id等。

● Kafka的方式，DBA创建表及导入任务就可以导入数据了；日常需要注意的是：最好写个小工具，查看下Kafka的数据信息，然后指明字段，这样来保证成功率。

● 查看导入任务：SHOW ROUTINE LOADG; 关注Statistic，ErrorLogUrls。

2.集群架构

目前为单套集群，3个FE，3个BE ，Broker按需建立，搭建1套监控(Prometheus+Grafana)，推荐使用kafka来接入数据。

3.运维及自动化

因为DorisDB标准版无管理组件，需要DBA自己实现：

● 标准制定，例如：运维标准、开发接入标准等；

● 自动化部署；

● 自动化扩缩容；

● 自动化升级；

● 拓扑展示、登录；

● 搭建开源监控；

● 自己实现报警，例如存活报警、性能报警；

● 相关运维报表，例如表大小、集群磁盘使用情况、流量情况、SQL情况等。

目前我们自己已经实现了部分运维规范的制定，例如集群端口、目录、拓扑架构等，并开发了拓扑工具：qdorisdb，可以查看所有集群、指定集群、登录、展示监控节点信息等。

后期我们会开发相关自动化管理工具，并整合至我们内部的CDB平台，开发相关报表、工单等，方便开发人员使用。

【查看指定集群拓扑】：

【查看所有集群】：

4.服务器

当前我们使用如下机器进行部署，后期会考虑将FE节点使用虚拟机部署。

四、发现的问题及注意事项

● 如果想混合部署，需要提前计划好端口，集群间需要有一定间隔；

● DorisDB升级比较快，如果遇到bug可以咨询官方，及时升级避开；

● 查询报错：2021-05-09 11:38:56 – WARN com.mysql.jdbc.PacketTooBigException:Packet for query is too large (1095400 > 1048576). You can change this value on the server by setting the max_allowed_packet’ variable；

● 处理：set global max_allowed_packet=102410248;

● 账号授权跟MySQL不同，需要注意；

● 标准版的周边较少，希望能不断丰富，让更多的人用起来；

● Json格式数据导入，字段没法复用，推荐官方添加上，例如：求最大最小时间，需要开发写入Kafka 两个时间字段，无法复用一个；

● 导入数据需要一定的调试经验，例如Kafka，可以自己写个工具，查看下Kafka里面的数据，再进行测试；

五、场景及定位

DorisDB是优秀的分析型数据库，可以满足多种数据分析场景的需求。但还有不少业务场景需要用其他数据库来服务，目前58DBA提供了多种数据库，方便业务方根据自身的场景进行选择。

总结

目前，我们已经落地了两套DorisDB集群，还有1-2套正在测试阶段，后续会进行进一步推广和落地更多应用。最后，十分感谢DorisDB鼎石科技团队专业的支持服务，希望我们能一起把DorisDB建设得更好。

（作者：刘春雷负责58同城MySQL、TiDB数据库、DorisDB的运维工作，主要从事数据库自动化、平台化的建设）

推荐阅读

io
深入解析MySQL并发参数优化与调整方法

本文详细探讨了MySQL并发参数的优化与调整方法，旨在帮助读者深入了解如何通过合理配置这些参数来提升数据库性能。文章不仅介绍了常见的并发参数及其作用，还提供了实际操作中的调整策略和最佳实践，适合希望提高数据库管理技能的技术人员阅读。 ... [详细]

蜡笔小新 2024-11-03 11:25:08
io
Java毕业设计项目：“传情旧物”网站（含源码与数据库）

本项目介绍了如何配置和运行“传情旧物”网站，包括所需的技术栈、环境配置以及具体的操作步骤。 ... [详细]

蜡笔小新 2024-11-15 20:52:51
io
Docker 环境下 MySQL 双主同步配置指南

本文介绍了如何在 Docker 环境中配置 MySQL 的双主同步，包括目录结构的创建、配置文件的编写、容器的创建与设置以及最终的验证步骤。 ... [详细]

蜡笔小新 2024-11-14 17:21:23
io
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
io
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
io
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
io
SQL 批量导入时管理外键约束

本文介绍如何在将数据库从服务器复制到本地时，处理因外键约束导致的数据插入失败问题。 ... [详细]

蜡笔小新 2024-11-12 19:05:11
io
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
timestamp
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
io
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
io
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
io
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37
io
SQLmap自动化注入工具命令详解（第28-29天实战演练）

SQL注入工具如SQLMap等在网络安全测试中广泛应用。SQLMap是一款开源的自动化SQL注入工具，支持12种不同的数据库，具体支持的数据库类型可在其插件目录中查看。作为当前最强大的注入工具之一，SQLMap在实际应用中具有极高的效率和准确性。 ... [详细]

蜡笔小新 2024-10-30 11:16:15

moTzxx

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章