流计算技术实战超大维表问题

作者：手机用户2502938311 | 来源：互联网 | 2023-06-24 18:28

维度表，作为数据仓库里面的概念，是维度属性的集合，比如时间维、地点维;但这里要讨论流计算中的维度表问题，流计算中维表问题和数

维度表&＃xff0c;作为数据仓库里面的概念&＃xff0c;是维度属性的集合&＃xff0c;比如时间维、地点维;

但这里要讨论流计算中的维度表问题&＃xff0c;

流计算中维表问题和数据仓库中有所不同&＃xff0c;往往是因为通过agent采集到的数据比较有限&＃xff0c;在做数据业务的时候&＃xff0c;需要先实时的把这些维度信息给补全&＃xff1b;

这个问题其实就是&＃xff0c;主数据流和多个静态表或半静态表之间的join问题。

在flink中称为side input问题&＃xff0c;https://cwiki.apache.org/confluence/display/FLINK/FLIP-17&＃43;Side&＃43;Inputs&＃43;for&＃43;DataStream&＃43;API

解决维表问题考虑到点&＃xff0c;

a. 对元数据库的读压力&＃xff1b;如果分析程序有1000并发&＃xff0c;是否需要读1000次

b. 读维表数据不能拖慢主数据流的throughput&＃xff0c;每秒千万条数据量

c. 动态维表更新问题和一致性问题&＃xff1b;元数据是不断变化的&＃xff0c;如何把更新同步到各个并发上

d. 冷启动问题&＃xff0c;如何保证主数据流流过的时候&＃xff0c;维表数据已经ready&＃xff0c;否则会出现数据无法处理

e. 超大维表数据会导致流量抖动和频繁gc&＃xff0c;比如几十万条的实例数据&＃xff0c;可能上百兆

下面谈谈我们解决这个问题的思路&＃xff0c;

1. 最简单的版本&＃xff0c;每个进程都会独立的去从元数据里面读取元数据&＃xff1b;

这样的优点是简单&＃xff0c;c&＃xff0c;d问题天然解决&＃xff1b;但只能适用于数据量较小的场景&＃xff0c;否则并发太大&＃xff0c;a&＃xff0c;肯定就无法满足

2. 随着业务量的扩大&＃xff0c;处理程序的并发越来越大&＃xff0c;1&＃xff0c;很快会达到瓶颈

我们就采用新的方案&＃xff0c;这个方案是在Jstorm环境实现的&＃xff0c;用一个spout读&＃xff0c;然后广播给所有的处理进程

这个方案主要解决a&＃xff0c;c的问题&＃xff0c;
但是也引入了d&＃xff0c;e的问题&＃xff0c;

解决d&＃xff0c;Jstorm支持让某个spout在job启动后等待一段时间&＃xff0c;所以可以让主数据流spout等待几分钟再开始读数据&＃xff0c;这样保证数据到的时候&＃xff0c;维表数据已经ready&＃xff1b;这个解法每次重启job都要等好几分钟&＃xff0c;体验挺差的&＃xff0c;但是勉强可以work

e问题&＃xff0c;一个spout广播超大维表到几百并发的线程&＃xff0c;首先就是会队列满&＃xff0c;因为jstorm发一份数据到所有并发的时候&＃xff0c;是需要产生几百份真实数据在队列中的&＃xff1b;然后GC也会很严重&＃xff0c;因为大量的临时对象会产生释放&＃xff0c;在传输和进程cache过程中&＃xff0c;会导致业务抖动

这个问题只能增加内存和worker数来解决&＃xff0c;否则job有可能会完全hang死

我们也用Chronicle Map(https://github.com/OpenHFT/Chronicle-Map)来尝试解决内存使用和gc的问题

BTW&＃xff0c;有同学问&＃xff0c;如果让数据和维表数据都 shuffle by key&＃xff0c;是不是可以缓解这个问题
如果数据量比较小&＃xff0c;可以考虑&＃xff0c;但是对于我们的主数据流的数据量&＃xff0c;是没法shuffle的&＃xff0c;所以需要在每个并发上保留全量的维表信息

2.1 用Flink带替换Jstorm

Flink虽然在window&＃xff0c;乱序&＃xff0c;一致性等方面做了很大的改进&＃xff0c;但是在这个问题上仍然没有很好的解&＃xff0c;上面提到的side input也没有实现出来&＃xff1b;

并且Flink随着更多的高层的封装&＃xff0c;程序员的开发自由度是降低的&＃xff0c;和JStorm比&＃xff0c;所以如果用Flink解决上面的问题&＃xff0c;没有本质变化&＃xff0c;可能JStorm更麻烦&＃xff1b;

需要用ConnectedStreams去joine数据流和side input流&＃xff0c;
对于d问题&＃xff0c;没法直接解决
对于e问题&＃xff0c;因为flink对内存管理做的比较好&＃xff0c;gc问题有所缓解&＃xff0c;但是job抖动的问题还是会存在

因为广播这么大的数据&＃xff0c;会中断主数据流的数据处理&＃xff0c;也会大大增加checkpoint的时间&＃xff0c;如下图&＃xff0c;可以看到30分钟一次的同步

BTW&＃xff0c;Flink保障一致性&＃xff0c;提供checkpoint机制&＃xff0c;但也增加复杂性&＃xff0c;这个地方处理不好会有很多问题
比如&＃xff0c;如果在source中同步读数据库数据&＃xff0c;如果读库的时间比较长&＃xff0c;就会hang住主数据流&＃xff0c;因为其他operator都会等它完成checkpoint&＃xff0c;写JStorm的程序员需要注意这点&＃xff0c;Flink需要更精细的控制&＃xff0c;任何operator&＃xff0c;任何并发的hang都会导致整个任务hang

我个人尝试使用flink本身的机制&＃xff0c;statebackend&＃xff0c;rocksdb等来更优雅的解决这个问题&＃xff0c;但是没有发现比较好的方法&＃xff0c;或者实现过于复杂

3. Redis版本

这其实是把1&＃xff0c;2方法做了综合

使用redis来做cache&＃xff0c;只用一个job&＃xff0c;负责从元数据库同步数据到redis&＃xff0c;这样就解决a&＃xff0c;c

然后所有的并发都从redis直接查询需要的元数据&＃xff0c;这样就解决d

对于b&＃xff0c;在并发上做local cache&＃xff0c;只有第一次需要真正查询redis&＃xff0c;后续定期异步更新就好&＃xff0c;不会影响到主数据流

对于e&＃xff0c;因为现在不需要一下全量的读取维表数据到内存&＃xff0c;用到的时候才去读&＃xff0c;分摊了负载&＃xff0c;也可以得到缓解

该方案当前线上跑着&＃xff0c;还算比较稳定

这个方案最大的缺点是增加依赖&＃xff0c;对于需要全球多region大规模部署的应用&＃xff0c;增加依赖是成本极高的
同时要额外保障redis和同步job的稳定性

BTW&＃xff0c;这里不建议local cache用LRU&＃xff0c;因为要考虑到当redis挂掉或同步job挂掉的时候&＃xff0c;不能影响主数据流&＃xff0c;所以我只会异步的更新local cache&＃xff0c;但不去做过期&＃xff0c;这样就算redis挂了&＃xff0c;也只是影响更新的实例&＃xff0c;大大降低故障发生概率

总结&＃xff0c;

分享一下自己的一些实战经验&＃xff0c;希望可以抛砖引玉&＃xff0c;找到更合理&＃xff0c;优雅的方案

推荐阅读

post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
java
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
jsp
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
version
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
version
深入理解 async/await：优雅的异步编程

async/await 是现代 JavaScript 中非常强大的异步编程工具，可以极大地简化异步代码的编写。本文将详细介绍 async 和 await 的用法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-12 19:18:34
jsp
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
version
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
text
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
process
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
version
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
java
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
ip
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
jsp
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
jsp
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28

手机用户2502938311

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章