当前位置: 开发笔记 > 编程语言 > 正文

秒级风控spark优化

作者：mobiledu2502876597 | 来源：互联网 | 2023-07-06 10:54

背景：在aws和qq同时存在时，两边分开计算，数据量不大，任务不会出现延迟，全迁移到qq之后，所以数据全在一个集群中处理，延时非常严重，没办法做到实时风控拦截调优后配置如下:1.控

背景：在aws和qq同时存在时，两边分开计算，数据量不大，任务不会出现延迟，全迁移到qq之后，所以数据全在一个集群中处理，延时非常严重，没办法做到实时风控拦截

调优后配置如下:

《秒级风控spark优化》

1.控制sparkstreaming 消费能力，防止任务计算不完发生堆积或内存溢出

机制1：

背压机制，sparkstreaming 支持根据响应时间动态控制接入消息数，配置如下

spark.streaming.backpressure.enabled=true（开启背压）

spark.streaming.backpressure.pid.minRate=400（最少接入消息数）

机制2:

spark.streaming.kafka.maxRatePerPartition（控制batch类最多消费多少条消息，分区个数*spark.streaming.kafka.maxRatePerPartition就是接入的总消息数）

背压效果如下：

《秒级风控spark优化》

背压机制较机制2更灵活，且能很好结合资源动态伸缩

2.广播机制

敏感接口列表，用广播机制替代实时查询redis（这里要注意广播出去的变量都必须是支持序列化的，redis类库返回的set是不支持序列化的，运行过程会报空指针）

《秒级风控spark优化》

3.高性能算子和缓存机制

用mapPartitionsToPair替代mapToPair,前者直接作用于一个Partition来计算，后者基于Partition中的每个元素一个个运算

《秒级风控spark优化》

将经常用maprdd缓存起来，避免job重复计算

《秒级风控spark优化》

4.资源动态伸缩

spark.dynamicAllocation.enabled=true \

spark.shuffle.service.enabled=true \

spark.dynamicAllocation.executorIdleTimeout=60
\

spark.dynamicAllocation.cachedExecutorIdleTimeout=60
\

spark.dynamicAllocation.initialExecutors=2
\

spark.dynamicAllocation.maxExecutors=7 \

spark.dynamicAllocation.minExecutors=2 \

yarn-site文件配置shuffle服务，添加如下配置

《秒级风控spark优化》

另外需要将spark下的

《秒级风控spark优化》

jar包拷贝到/usr/local/service/hadoop/share/hadoop/yarn下，保障nm能找到对应的类。

PS：实测过程，伸缩回来之后，executor无法回收回去，即使计算时间很快

Executor回收机制：

只要有一个task结束，就会判定有哪些Executor已经没有任务了。然后会被加入待移除列表。在放到removeTimes的时候，会把当前时间now
+ executorIdleTimeoutS * 1000 作为时间戳存储起来。当调度进程扫描这个到Executor时，会判定时间是不是到了，到了的话就执行实际的remove动作。在这个期间，一旦有task再启动，并且正好运行在这个Executor上，则又会从removeTimes列表中被移除。
那么这个Executor就不会被真实的删除了。因为实际运行过程中，有12个kafka 分区，会导致一直有task在Executor中运行，无法触发Executor删除操作，源码可见org.apache.spark.
ExecutorAllocationManager

5.分离regionserver和 nm进程，regionserver进程在compact时，会很耗资源，导致跑在这些机器上任务执行时间很长

6.将写hbase操作，做成异步写，并可以动态关闭写hbase 接口明细操作

《秒级风控spark优化》

7.合理设置shuffle的数量，例如groupByKey操作，通过spark.default.parallelism参数控制，默认是2（这样可以有效控制foreachRdd操作时每个任务的耗时时间）实际操作过程中，最好是和excutor core个数相等，配置成6会产生6个task

《秒级风控spark优化》

8.sparkstreaming 任务延时监控,在任务延迟时，能第一时间知道通过注册MaliciousDetectStreamingListener到JavaStreamingContext中，来监控任务延时情况，并告警 @See https://www.jianshu.com/p/5506cd264f4d

《秒级风控spark优化》

推荐阅读

sum
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
int
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
require
Redis的默认端口、数据库使用和多端口配置

本文介绍了Redis的默认端口、数据库使用和多端口配置的方法。通过选择不同的数据库和使用flushdb命令可以实现对不同数据库的访问和清除数据。同时，本文还介绍了在同一台机器上启用多个Redis实例的方法，并讨论了配置认证密码的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-09 08:27:30
go
SpringBoot与缓存使用及原理(上)

SpringBoot与缓存使用及原理(上),Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-09-26 13:55:53
match
retrofit2+Executors+DiskLruCache 2秒加载100张图片从此告别OOM的困扰

人生的旅途，前途很远，也很暗。然而不要怕，不怕的人的面前才有路。——鲁迅自从上一篇博客发布后，已经有很长时间没有更新博客了，一直忙着支付通的事情，在此给大家道个歉。先贴个图：你不要惊讶 ... [详细]

蜡笔小新 2024-09-26 12:32:22
match
实战分析SpringBoot整合JSON，面试题附答案

前言作为同时具备高性能、高可靠和高可扩 ... [详细]

蜡笔小新 2024-09-25 13:56:27
match
4种分布式Session的实现方式！老大直呼666...

前言公司有一个Web管理系统，使用Tomcat进行部署。由于是后台管理系统，所有的网页都需要登录授权之后才能进行相应的操作。起初这个系统的用的人也不多& ... [详细]

蜡笔小新 2024-09-24 18:39:58
select
2021最新总结网易/腾讯/CVTE/字节面经分享（附答案解析）

本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题，包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记，并附带答案解析。 ... [详细]

蜡笔小新 2023-12-09 19:11:31
jsp
Redis API

安装启动最简启动命令行输入验证动态参数启动配置文件启动常用配置通用命令keysbdsize计算key的总数exists判断是否存在delkeyvalue删除指定的keyvalue成 ... [详细]

蜡笔小新 2023-12-09 18:01:55
int
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
int
旁路|发生_Day749.旁路缓存：Redis是如何工作的Redis 核心技术与实战

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Day749.旁路缓存：Redis是如何工作的-Redis核心技术与实战相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-09 04:28:29
sum
kafka 0.9+消费者配置参数说明

ConsumerConfiguration在kafka0.9使用JavaConsumer替代了老版本的scalaConsumer。新版的配置如下：bootstrap. ... [详细]

蜡笔小新 2023-10-16 10:44:59
go
2019我的金三银四

先讲一下自己的情况吧，二本学生，17年毕业，目前在一家跨境电商从事Java技术开发工作（不是阿里，没那么厉害），技术栈目前偏向于容器云、持续集成持续交付这一块，也就是SpringBoot、Kuber ... [详细]

蜡笔小新 2023-10-16 10:41:46
go
druid接入kafka indexing service整个流程

先介绍下我们的druid集群配置Overload1台Coordinator1台Middlemanager3台Broker3台Historical一共12台，其中cold6台，hot ... [详细]

蜡笔小新 2023-10-15 19:51:21

mobiledu2502876597

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章