篇首语:本文由编程笔记#小编为大家整理,主要介绍了Flink从入门到精通100篇(二十一)-Flink 状态(State)管理在推荐场景中的应用相关的知识,希望对你有一定的参考价值。
前言
Flink作为纯流式大数据实时计算引擎,较于Spark Streaming的微批处理引擎,不管是内存管理,多流合并,还是时间窗口,迭代处理上,Flink在实时计算场景更较适合。而Flink的State状态管理,更是让Flink在实时计算领域,更胜一筹。通过对Flink State状态的灵活妙用,可以完美实现大数据下的实时数仓,实时画像和实时数据监控等功能。
场景
最近在做推荐数据平台,其中有一个场景需求是要实时统计最近1分钟的UV、点击量、真实曝光量和下发量等热点数据,并可以在不同地域维度下做多维度查询。通过对数据的实时跟踪监控,可以精准迅速地获悉推荐算法在不同地域投放后所产生的流量变化,从而优化对不同地域下用户的精准推荐。
问题&选型
我们在做场景分析的时候,发现有两个问题需要解决。
首先是我们的数据来自于用户对App的操作行为日志,在这些埋点数据里,有个字段localId(13位数字组成),该字段记录了该用户所在的位置编号,可以精