基于ScheduledSQL对VPCFlowLog实现细粒度时间窗口分析

作者：56修行者场_872 | 来源：互联网 | 2024-09-24 17:27

背景阿里云专有网络（VPC）提供流日志功能，支持VPC网络中弹性网卡流量、VPC流量及交换机流量的记录与存储。对流日志分析可以监控访问控

背景

阿里云专有网络&＃xff08;VPC&＃xff09;提供流日志功能&＃xff0c;支持VPC网络中弹性网卡流量、VPC流量及交换机流量的记录与存储。对流日志分析可以监控访问控制规则、监控网络流量和排查网络故障。

流日志功能捕获的流量信息以日志方式写入SLS&＃xff08;阿里云日志服务&＃xff09;中。每条日志会捕获特定捕获窗口中的特定五元组网络流&＃xff0c;捕获窗口大约为10分钟&＃xff0c;该段时间内流日志功能先聚合数据&＃xff0c;再发布日志。

在 SLS 上可以通过关键词搜索对指定目标地址被拒绝的请求&＃xff1a;

也可以通过 SLS 的 SQL 进行统计分析&＃xff0c;但这里涉及一个捕获窗口的问题&＃xff0c;例如下面两条流日志&＃xff08;字段做了简化&＃xff09;&＃xff1a;

Log#1 start: 2021-05-31 00:00:00 end: 2021-05-31 00:08:30 bytes: 9000 packets: 18Log#2 start: 2021-05-31 00:02:30 end: 2021-05-31 00:03:15 bytes: 5000 packets: 10

采集窗口内产生的 bytes&＃xff0c;落到 start 时间点上去或是平均落到整个采集窗口&＃xff0c;对于流量分析结果会产生明显的差异&＃xff1a;

根据不同的业务背景&＃xff0c;可以有不同的选择&＃xff1a;

一种方法是按采集窗口开始时间计算&＃xff0c;方法简单&＃xff0c;select from_unixtime(start - start % 60) as dt, sum(bytes) as total_bytes group by dt order by dt asc limit 1000。

另一种较为复杂&＃xff0c;拆分采集窗口后计算&＃xff0c;本文介绍基于 SLS SQL 拆分日志后重新聚合的分析实践。

方案

如下是一条 start 与 end 相差501的日志&＃xff0c;表示采集窗口横跨了 502 个秒级时间段&＃xff08;start、end 是左闭右闭区间&＃xff09;&＃xff1a;

利用数据函数 sequence 可以生成一个时间序列到 ta 字段&＃xff1a;

接着将 ta 序列做 unest 展开&＃xff0c;得到 502 条日志&＃xff1a;

到这里&＃xff0c;基本思路就有了。但一定请注意&＃xff1a;

packets、bytes 字段是在一个捕获窗口中获得的&＃xff0c;所以展开后的每条日志&＃xff0c;应该将指标值均分到每个拆分后的时间段。
窗口数据展开后&＃xff0c;意味着日志量会膨胀&＃xff0c;可能产生很大的计算压力与存储成本&＃xff0c;建议减少聚合指标分组数目。

为了减少日志条数&＃xff0c;我们将拆分后的秒级日志再按照10秒级粒度重新聚合&＃xff0c;502 条秒级日志变为 51 条十秒级日志&＃xff1a;

Scheduled SQL 实践

将以上方案常驻执行&＃xff0c;就可以实现对于新日志的增量处理&＃xff0c;如果将预处理结果保存到 Logstore&＃xff0c;我们就可以在新的 Logstore 上做分析&＃xff0c;可以做到更低的延迟。

Scheduled SQL 是一项由 SLS 全托管的功能&＃xff0c;主要的场景包括&＃xff1a;

定时分析数据&＃xff1a;根据业务需求设置 SQL 语句或查询分析语句&＃xff0c;定时执行数据分析&＃xff0c;并将分析结果存储到目标库中。
全局聚合&＃xff1a;对全量、细粒度的数据进行聚合存储&＃xff0c;汇总为存储大小、精度适合的数据&＃xff0c;相当于一定程度的有损压缩数据。

执行如下 SQL 预览并确认结果符合预期&＃xff08;如果希望预处理后的数据量更少一些&＃xff0c;可以按照分钟粒度做聚合&＃xff0c;将 10 替换为 60&＃xff09;&＃xff0c;SQL 代码&＃xff1a;

* | select (t.time - t.time % 10) as __time__, srcaddr, srcport, dstaddr, dstport, action, protocol,sum(bytes * 1.0 / ("end"-start &＃43; 1)) as bytes, sum(packets * 1.0 / ("end"-start &＃43; 1)) as packetsfrom (select start, "end", srcaddr, srcport, dstaddr, dstport, action, protocol, bytes, packets,sequence(start, "end", 1) as ta from log), unnest(ta) as t(time)group by time, srcaddr, srcport, dstaddr, dstport, action, protocol order by __time__ asc limit 1000000

紧接着创建 Scheduled SQL 作业&＃xff1a;

保存作业&＃xff0c;选择”增强型资源池“&＃xff08;收费、但资源可扩展&＃xff0c;适用于有 SLA 要求的业务场景&＃xff09;&＃xff0c;设置存储预处理结果到目标 Logstore aligned_vpc_flowlog。

接下来&＃xff0c;设置 SQL 作业从 5/28 日的数据开始处理&＃xff0c;在存量数据追上进度后&＃xff0c;新数据每 5 分钟执行一次&＃xff0c;每次查询 5 分钟的数据做处理。

注意延迟执行参数&＃xff0c;如果上游 Logstore 的数据到来可能延迟&＃xff0c;建议设置大一些的值来保证计算数据的完整性。

Scheduled SQL 作业每 5 分钟一次的实例&＃xff0c;可以在控制台上查看到。对于 SQL 执行失败&＃xff08;权限、SQL 语法等原因&＃xff09;或者数据迟到导致空跑情况&＃xff0c;可以对指定实例做重试运行。

效果

在 SLS 上制作一个仪表盘对比两种计算方式的流量特征。

10秒聚合-原始窗口

* | select from_unixtime(start - start % 10) as dt, sum(packets) as packets, round(sum(bytes)/1024.0/1024.0, 3) as MB group by dt order by dt asc limit 10000

10秒聚合-拆分窗口数据

* | select from_unixtime(__time__ - __time__ % 10) as dt, sum(packets) as packetes, round(sum(bytes)/1024.0/1024.0, 3) as MB group by dt order by dt asc limit 10000

通过对比可以看到&＃xff0c;拆分窗口后的数据统计更加均匀。

原文链接

本文为阿里云原创内容&＃xff0c;未经允许不得转载。

推荐阅读

压缩
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
byte
Java编程实践：深入理解方法重载

本文介绍了Java中方法重载的概念及其应用。通过多个示例，详细讲解了如何在同一类中定义具有相同名称但不同参数列表的方法，以实现更灵活的功能调用。 ... [详细]

蜡笔小新 2024-12-25 19:37:41
range
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
substring
MySQL DateTime 类型数据处理及.0 尾数去除方法

本文介绍如何在 MySQL 中处理 DateTime 类型的数据，并解决获取数据时出现的.0尾数问题。同时，探讨了不同场景下的解决方案，确保数据格式的一致性和准确性。 ... [详细]

蜡笔小新 2024-12-24 19:25:10
byte
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
string
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
buffer
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
range
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
buffer
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
byte
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
byte
JavaScript 基础语法指南

本文详细介绍了 JavaScript 的基础语法，包括变量、数据类型、运算符、语句和函数等内容，旨在为初学者提供全面的入门指导。 ... [详细]

蜡笔小新 2024-12-23 10:54:44
uri
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
buffer
优化DB2数据库性能的关键策略

本文详细介绍了优化DB2数据库性能的多种方法，涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段，可以显著提升数据库的运行效率和响应速度。 ... [详细]

蜡笔小新 2024-12-22 16:20:33
range
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新 2024-12-22 14:46:52

56修行者场_872

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章