当前位置: 开发笔记 > 编程语言 > 正文

从ClickHouse到ByteHouse：实时数据分析场景下的优化实践

作者：蓝善凡_407 | 来源：互联网 | 2023-08-29 12:44

从,clickhouse,到,bytehouse,实时,数据,分析,场景

字节跳动旗下的企业级技术服务平台火山引擎正式对外发布「ByteHouse」，解决开源技术上手难 & 试错成本高的痛点，同时提供商业产品和技术支持服务。

作为国内规模最大的 ClickHouse 用户，目前字节跳动内部的 ClickHouse 节点总数超过 1.5W 个。综合来说，字节跳动广泛的业务增长分析很多都建立在 ClickHouse 为基础的查询引擎上。

在打造 ByteHouse 的路程中，我们经过了多年的探索与沉淀，本文将分享字节跳动过去使用 ClickHouse 的两个典型应用与优化案例。

广告投放实时数据

第二个典型案例关于广告的投放数据，一般是运营人员需要查看广告投放的实时效果。由于业务的特点，当天产生的数据往往会涉及到多天的数据。

这套系统原来基于 Druid 实现的，Druid 在这个场景会有一些难点：

选择了 ClickHouse 之后能解决 Druid 不足的地方，但还是有部分问题需要解决：

问题一：Buffer Engine 无法和 ReplicatedMergeTree 一起使用

社区提供了 Buffer Engine 为了解决单次写入生成过多 Parts 的问题，但是不太能配合 ReplicatedMergeTree 一起工作, 写入不同 Replica 的 Buffer 仅缓存了各自节点上新写入的数据，导致查询会出现不一致的情况。

解决方案

改进了 Buffer Engine 做了如下的调整和优化：

我们选择将 Kafka/Buffer/MergeTree 三张表结合起来，提供的接口更加易用；
把 Buffer 内置到 Kafka Engine 内部，作为 Kafka Engine 的选项可以开启/关闭，使用更方便；
Buffer table 内部类似 pipeline 模式处理多个 Block；
支持了 ReplicatedMergeTree 情况下的查询。

首先确保一对副本仅有一个节点在消费，所以一对副本的两个 Buffer 表，只有一个节点有数据。如果查询发送到了没有消费的副本，会额外构建一个特殊的查询逻辑，从另一个副本的 Buffer 表里读取数据。

增强 Buffer Engine，解决了 Buffer Engine 和 ReplicatedMergeTree 同时使用下查询一致性的问题。

问题二：出现宕机后可能会出现数据丢失后者重复消费的情况

ClickHouse 缺少事务支持。一批次写入只写入部分 Part 后出现宕机，因为没有事务保障重启后可能出现丢失或者重复消费的情况。

解决方案

参考了 Druid 的 KIS 方案自己管理 Kafka Offset，实现单批次消费/写入的原子语义：实现上选择将 Offset 和 Parts 数据绑定在一起，增强了消费的稳定性。每次消费时，会默认创建一个事务，由事务负责把 Part 数据和 Offset 一同写入磁盘中，如果出现失败，事务会一起回滚 Offset 和写入的 Part 然后重新消费。

确保了每次插入数据的原子性，增强了数据消费的稳定性。

结语

实时数据分析是 ClickHouse 的优势场景，结合字节跳动实时数据场景的特点，我们对 ClickHouse 进行了优化和改造，并将这些能力沉淀到了 ByteHouse 上。

ByteHouse 基于自研技术优势和超大规模的使用经验，为企业大数据团队带来新的选择和支持，以应对复杂多变的业务需求，高速增长的数据场景。

未来，ByteHouse 将不断以字节和外部最佳实践输出行业用户，帮助企业更好地构建交互式大数据分析平台，并更广泛地与 ClickHouse 研发者社群共享经验，共同推动 ClickHouse 社区的发展。

火山引擎 ByteHouse

统一的大数据分析平台。目前提供企业版和云数仓两种版本，企业版是基于开源 ClickHouse 的企业级分析型数据库，支持用户交互式分析 PB 级别数据，通过多种自研表引擎，灵活支持各类数据分析和应用；云数仓版作为云原生的数据分析平台，实现统一的离线和实时数据分析，并通过弹性扩展的计算层和分布式存储层，有效降低企业大数据分析 TCO。[点击申请体验]

欢迎关注字节跳动数据平台同名公众号

推荐阅读

uml
物联网语义交互模型的融合

本文探讨了一种统一的语义数据模型，旨在支持物联网、建筑及企业环境下的数据转换。该模型强调简洁性和可扩展性，以促进不同行业间的插件化和互操作性。对于智能硬件开发者而言，这一模型提供了重要的参考价值。 ... [详细]

蜡笔小新 2024-11-19 09:50:25
const
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
input
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
get
利用JavaScript处理鼠标移出浏览器窗口的事件

本文探讨了如何通过JavaScript检测鼠标是否离开了浏览器窗口，包括使用原生方法和第三方库的不同解决方案。 ... [详细]

蜡笔小新 2024-11-24 10:51:47
python
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
default
基于角色的权限管理在AspNetForums中的应用

本文探讨了在AspNetForums平台中实施基于角色的权限控制系统的方法，旨在为不同级别的用户提供合适的访问权限，确保系统的安全性和可用性。 ... [详细]

蜡笔小新 2024-11-23 18:42:29
python
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
const
SSE图像算法优化系列三：超高速导向滤波实现过程纪要（欢迎挑战）

自从何凯明提出导向滤波后，因为其算法的简单性和有效性，该算法得到了广泛的应用，以至于新版的matlab都将其作为标准自带的函数之一了&#x ... [详细]

蜡笔小新 2024-11-23 10:46:33
python
诚邀资深后端开发工程师加盟，共谋家乡发展

一家位于长沙的知名网络安全企业，现面向全国诚聘高级后端开发工程师，特别欢迎具有一线城市经验的技术精英回归故乡，共创辉煌。 ... [详细]

蜡笔小新 2024-11-22 19:22:15
python
春季职场跃迁指南：如何高效利用金三银四跳槽季

随着每年的‘金三银四’跳槽高峰期的到来，许多职场人士都开始考虑是否应该寻找新的职业机会。本文将探讨如何制定有效的职业规划、撰写吸引人的简历以及掌握面试技巧，助您在这关键时期成功实现职场跃迁。 ... [详细]

蜡笔小新 2024-11-22 19:18:22
bit
Uniswap 携手 MoonPay 扩展法币入口，探讨其安全性和易用性

Uniswap 与 MoonPay 合作，引入法币交易功能。本文探讨这一合作对用户进入加密货币领域的安全性及便利性的影响。 ... [详细]

蜡笔小新 2024-11-21 19:31:06
main
洛谷 P4009 汽车加油行驶问题解析

探讨了经典算法题目——汽车加油行驶问题，通过网络流和费用流的视角，深入解析了该问题的解决方案。本文将详细阐述如何利用最短路径算法解决这一问题，并提供详细的代码实现。 ... [详细]

蜡笔小新 2024-11-21 14:21:38
main
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
python
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
python
对象存储与块存储、文件存储等对比

看到一篇文档，讲对象存储，好奇，搜索文章，摘抄,学习记录！背景：传统存储在面对海量非结构化数据时，在存储、分享与容灾上面临很大的挑战，主要表现在以下几个方面：传统存储并非为非结 ... [详细]

蜡笔小新 2024-11-17 18:21:23