当前位置: 开发笔记 > 编程语言 > 正文

极客星球｜Clickhouse在数据智能公司的应用与实践

作者：大眼睁睁 | 来源：互联网 | 2023-10-10 12:25

MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据

‍‍

前言：Clickhouse数据库作为OLAP领域内的一匹黑马，目前在众多大厂已经广泛的被使用。MobTech在2020年开始尝试使用Clickhouse，并且具有一定的数据规模，目前线上Clickhouse集群数据规模为100亿左右。

Clickhouse是什么？

Clickhouse(https://Clickhouse.tech/)是俄罗斯最大的搜索引擎厂商Yandex开发的一款OLAP数据库，是一款面向列式存储的近实时数据库系统。它的特点就是快，适用场景如下：

1.数据量比较大，亿级别以上；

2.数据不需要更新；

3.没有事务要求；

4.查询并发要求不高。

Clickhouse为什么这么快？主要是以下两个原因：

1.对于OLAP数据库，每次查询并不需要访问所有的列。使用列存储能够极大减少IO，提升数据查询速度。另外使用列式存储也便于进行压缩，减少数据体积；

2.Clickhouse 执行引擎使用CPU向量执行模型，能够极大提高计算速度。

Clickhouse与其他OLAP系统的优劣势对比？

目前在OLAP领域内使用比较多的系统主要有：Presto、Druid、Kylin、Doris和Clickhouse等其他。整个OLAP系统主要分为两大类型：预聚合和实时聚合，这两种类型都有各自的优缺点。

预聚合数据库特点：

1.查询速度比较快，由于已经预聚合部分数据，整体的数据集会相对减少；

2.数据经过预聚合会导致明细数据丢失，这也是一大问题；

3.数据需要预先聚合，查询灵活性比较低，也会导致维度膨胀整体数据量偏大。

实时聚合数据库特点：

1.存储所有明细数据，查询响应时间会稍微偏大；

2.不需要预聚合，查询灵活度比较高。

上述数据库Druid，Kylin属于预聚合类型，而Presto，Doris，Clickhouse属于实时聚合类型。MobTech主流使用的OLAP系统为Presto，下面介绍下Presto的特点：

Presto是一个计算和存储分离的OLAP系统，支持标准SQL查询，完全基于内存运行，动态编译执行计划。Presto查询引擎是主从架构，由一个协调节点，一个发现节点，多个工作节点组成。通常情况下，发现节点和协调节点运行在同一个进程内，协调节点负责SQL解析，生成执行计划，分发任务到工作节点，工作节点负责实际的查询任务执行。

MobTech在使用Presto过程中存在不少问题，如：

1.无法控制资源使用量，导致不同业务线之间资源抢占比较严重；

2.查询速度比较慢；

3.Presto是纯内存计算，对资源消耗比较大。

Clickhouse核心之MergeTree表引擎

MergeTree系列表引擎，是Clickhouse最核心的表引擎。存储的数据顺序按主键排序，可以使用数据分区，支持数据副本特性和数据抽样。官方提供了包括MergeTree、ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree、VersionCollapsingMergeTree、GraphiteMergeTree等7种引擎。以下为每种表引擎的简单介绍：

1. ReplacingMergeTree：该引擎会在后台数据合并时移除具有相同排序键的记录；

2. SummingMergeTree：在合并数据时，会把具有相同主键的记录合并为一条记录。并根据主键进行数据聚合；

3.AggregatingMergeTree：在合并数据时，把具有相同主键的记录根据指定的聚合函数进行聚合；

4.CollapsingMergeTree：在合并数据时，把具有相同主键的记录进行折叠。折叠规则根据设定的sign字段，该字段值为1时保留，-1时删除；

5.VersionCollapsingMergeTree: 在合并数据时，把具有相同主键的记录合并，合并规则是根据指定的version字段。

这些表引擎在处理数据聚合和合并时，都只在同一个分区内。在使用MergeTree表引擎有一点需要注意，Clickhouse的主键并不唯一，意味着数据可能重复。另外MergeTree表引擎数据分区，每个分区都是一个单独的物理文件目录。在查询时指定分区，要比不指定分区查询快数倍。

ReplicatedMergeTree表引擎可以设定数据副本存储。在线上使用时，我们是要求必须使用 ReplicatedMergeTree引擎，防止单点问题。

Clickhouse在MobTech的应用与实践

业务需求场景：

每天大数据会离线跑出一批数据，每天数据量最多达到2亿，业务需要能够实时查询这些数据明细，并进行相关数据统计，每天新导入的数据是一个新的分区。由于大数据任务会出现延迟的情况，在这样的情况下需要能够查询前一天的数据。针对这样的情况，我们在每次查询数据前会查出该表最新的分区，然后在具体查询SQL中指定最新分区进行查询。最开始我们选择了Elasticsearch作为存储系统，由于大数据任务在导入数据时会导致Elasticsearch大量磁盘读写，甚至导致Elasticsearch宕机情况出现。

在这样的情况下，我们急需要一种新的数据库来支撑业务。在了解到Clickhouse的特性和综合业务相关情况，我们最终选择了Clickhouse。经过对比各种表引擎后，选择了ReplicatedMergeTree引擎，将常用的查询字段作为主键索引。另外由于业务需要每天还会有少量的在线数据入库，使用Kafka表引擎接收在线实时数据。通过物化视图的方式，将Kafka表数据写入到目标表。Clickhouse既能够支撑离线数据的导入，也支持实时数据写入，并且具有良好的查询性能。

实践总结：

目前线上Clickhouse单表最大记录数为20亿左右，只使用了2台8核16G的机器就完成了TP99 1s内查询响应。目前线上使用的是单分片加数据副本的模式，能够充分利用Clickhouse单机强大的能力，又能保障线上数据安全。Clickhouse也有一些缺点，比如：数据更新比较麻烦，大规模集群没有较好的管理工具等问题存在。总的来说，Clickhouse能够以较低的成本完成大量数据查询和分析需求，并且保持稳定。

‍

推荐阅读

编译
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
range
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
buffer
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
buffer
POJ 1691 矩形涂色问题 (DFS/状态压缩DP)

本题通过将每个矩形视为一个节点，根据其相对位置构建拓扑图，并利用深度优先搜索（DFS）或状态压缩动态规划（DP）求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ... [详细]

蜡笔小新 2024-12-25 18:27:21
replace
DLP数据泄露检测原理浅析

最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ... [详细]

蜡笔小新 2024-12-25 18:19:32
replace
SQL中UPDATE SET FROM语句的使用方法及应用场景

本文详细介绍了SQL中UPDATE SET FROM语句的使用方法，通过具体示例展示了如何利用该语句高效地更新多表关联数据。适合数据库管理员和开发人员参考。 ... [详细]

蜡笔小新 2024-12-28 10:22:16
case
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
select
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
select
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
select
使用C#开发SQL Server存储过程的指南

本文介绍如何利用C#在SQL Server中创建存储过程，涵盖背景、步骤和应用场景，旨在帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-27 14:24:17
replace
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
replace
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
select
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
const
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22

大眼睁睁

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章