大数据案例互联网日志实时收集和实时计算的简单方案

作者：锋丽恋歌521 | 来源：互联网 | 2023-09-10 15:27

作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，

作为互联网公司&＃xff0c;网站监测日志当然是数据的最大来源。我们目前的规模也不大&＃xff0c;每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成&＃xff0c;之前&＃xff0c;业务中对实时的要求并不高&＃xff0c;最多也就是准实时&＃xff08;延迟半小时以上&＃xff09;&＃xff0c;因此&＃xff0c;我们使用Flume将数据收集到HDFS&＃xff0c;然后进行清洗和分析。

后来&＃xff0c;根据业务需要&＃xff0c;我们有了两个Hadoop集群&＃xff0c;并且部署在不同的地方&＃xff08;北京和西安&＃xff09;&＃xff0c;而所有的日志收集服务器在北京&＃xff0c;因此需要将日志数据通过外网传输到西安&＃xff0c;于是有了这样的部署&＃xff1a;

很快&＃xff0c;通过Flume流到西安Hadoop集群的数据就遇到了问题&＃xff0c;比原始数据多或者少一些&＃xff0c;造成这个问题的主要原因是在网络不稳定的情况下&＃xff0c;北京Flume Agent发送到西安Flume Collector的过程中&＃xff0c;会发送失败&＃xff0c;或者响应失败。另外&＃xff0c;之前的数据准实时也不能满足业务的需求。

为了解决数据实时跨外网传输以及实时业务的问题&＃xff0c;于是有了现在的架构&＃xff1a;

引入Kafka&＃xff0c;并且和日志收集服务器部署在北京同机房&＃xff1b;
每台日志收集服务器上的Flume Agent&＃xff0c;通过内网将数据发送至Kafka&＃xff1b;
Kafka的第一个消费者&＃xff0c;北京网关机上的Flume&＃xff0c;负责从Kafka中消费数据&＃xff0c;然后流到北京Hadoop集群&＃xff1b;
Kafka的第二个消费者&＃xff0c;西安网关机上的Flume&＃xff0c;负责从Kafka中消费数据&＃xff0c;然后流到西安Hadoop集群&＃xff1b;这里是西安的Flume通过外网连接北京Kafka&＃xff0c;主动拉取数据&＃xff0c;如果网络不稳定&＃xff0c;那么当前批次拉取失败&＃xff0c;最多重新拉一次&＃xff0c;数据不会进Flume channel&＃xff0c;更不会流到HDFS上&＃xff0c;因此&＃xff0c;这种方式在网络不稳定的情况下&＃xff0c;不会造成数据缺失或重复&＃xff1b;
Kafka的第三个消费者&＃xff0c;北京网关机上的实时计算模块&＃xff0c;后面再说&＃xff1b;
Kafka的第N个消费者&＃xff0c;其他&＃xff1b;

Kafka中的数据分区及副本

这种架构下&＃xff0c;Kafka成为了统一的日志数据提供者&＃xff0c;至关重要。我们目前有4台Broker节点&＃xff0c;每个Topic在创建时候都指定了4个分区&＃xff0c;副本数为2&＃xff1b;

数据在进入Kafka分区的时候&＃xff0c;使用了Flume的拦截器&＃xff0c;从日志中提取用户ID&＃xff0c;然后通过HASH取模&＃xff0c;将数据流到Kafka相应的分区中。这种方式&＃xff0c;一方面&＃xff0c;完成了简单的负载均衡&＃xff0c;另一方面&＃xff0c;确保相同的用户数据都处于同一个分区中&＃xff0c;为后面实时计算模块的统计提供了极大的便利。

Flume拦截器的使用

在整个流程中&＃xff0c;有两个地方用到了同一个Flume拦截器&＃xff08;Regex Extractor Interceptor&＃xff09;&＃xff0c;就是在Flume Source中从消息中提取数据&＃xff0c;并加入到Header&＃xff0c;供Sink使用&＃xff1b;

1. 一处是在LogServer上部署的Flume Source&＃xff0c;它从原始日志中提取出用户ID&＃xff0c;然后加入到Header中&＃xff0c;Flume Sink&＃xff08;Kafka Sink&＃xff09;再入Kafka之前&＃xff0c;从Header中拿出该用户ID&＃xff0c;然后通过应用分区规则&＃xff0c;将该条消息写入Kafka对应的分区中&＃xff1b;

2. 另外一处是部署在西安的Flume Source&＃xff0c;它从Kafka中读取消息之后&＃xff0c;从消息中抽取出时间字段&＃xff0c;并加入到Header中&＃xff0c;后面的Flume Sink&＃xff08;HDFS Sink&＃xff09;通过读取Header中时间&＃xff0c;根据消息中的时间&＃xff0c;将数据写入HDFS相应的目录和文件中。

如果在HDFS Sink中仅仅使用当前时间来确定HDFS目录和文件名称&＃xff0c;这样会造成一小部分数据没有写入到正确的目录和文件中&＃xff0c;比如&＃xff1a;日志中8点59分59秒的数据可能会被写进HDFS上9点的目录和文件中&＃xff0c;因为原始数据经过Kafka&＃xff0c;通过外网传输到西安的Flume&＃xff0c;有个几秒的延时&＃xff0c;那是很正常的。

Flume消费者的负载均衡和容错

在北京部署的Flume&＃xff0c;使用Kafka Source从Kafka中读取数据流向北京Hadoop集群&＃xff0c;西安的也一样&＃xff0c;在消费同一Topic的消息时候&＃xff0c;我们都是在两台机器上启动了两个Flume Agent&＃xff0c;并且设置的统一消费组&＃xff08;group.id&＃xff09;&＃xff0c;根据Kafka相同的Topic&＃xff0c;一条消息只能被同一消费组内的一个消费者消费&＃xff0c;因此&＃xff0c;Kafka中的一条消息&＃xff0c;只会被这两个Flume Agent其中的一个消费掉&＃xff0c;如果一个Flume Agent挂掉&＃xff0c;那么另外一个将会消费所有消息&＃xff1b;想系统学习大数据的话&＃xff0c;可以加入大数据技术学习扣扣君羊&＃xff1a;522189307

这种方式&＃xff0c;也是在流向HDFS的消费者端做了负载均衡和容错。

实时计算模块

目前我们实时计算的业务比较简单&＃xff0c;就是类似于根据不同维度统计PV和UV。比如&＃xff1a;实时统计一个网站当天的累计PV、UV、IP数等&＃xff0c;目前我们直接开发的JAVA程序&＃xff0c;使用streamlib统计这些指标&＃xff0c;UV和IP数这种需要去重的指标有2%以内的误差&＃xff0c;业务可以接受。

实时计算模块使用Kafka low-level API&＃xff0c;针对每一个Topic&＃xff0c;都使用和分区数相等的线程去处理&＃xff0c;每个线程消费一个分区的数据&＃xff0c;由于数据在进入Kafka分区的时候&＃xff0c;都是经过相应规则的分区&＃xff0c;因此相同用户的数据会在同一个分区中&＃xff1b;

另外&＃xff0c;每个线程会在Redis中维护自己当前的Offsets&＃xff0c;比如&＃xff1a;在实时计算当天累计指标的业务场景中&＃xff0c;每天0天在Redis中记录当前的Offsets&＃xff0c;这样&＃xff0c;如果实时计算程序挂掉&＃xff0c;下次启动时候&＃xff0c;从Redis中读取当天的Offsets&＃xff0c;重新读取和计算当天的所有消息。

由于我们的需求是实时统计当天累计的指标&＃xff0c;而且能接受一定的误差&＃xff0c;因此采用这种方式。如果需要精确统计累计去重指标&＃xff0c;那么可能需要采用其它方式&＃xff0c;比如&＃xff1a;精确统计当天实时累计用户数&＃xff0c;一种简单的办法是在HBase中使用计数器来配合完成。

其它实时数据消费者

如果需要实时统计一小段时间&＃xff08;比如十分钟、一小时&＃xff09;之内的PV、UV等指标&＃xff0c;那么可以使用SparkStreaming来完成&＃xff0c;比较简单。如果单独使用Spark Streaming来完成一天内海量数据的累计去重统计&＃xff0c;我还不太清楚有什么好的解决办法。

另外&＃xff0c;实时OLAP也可能作为Kafka的实时消费者应用&＃xff0c;比如:Druid。

推荐阅读

get
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
get
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
get
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
io
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
io
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
get
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
io
修复一个 Bug 竟耗时两天？真的有那么复杂吗？

修复一个 Bug 竟然耗费了两天时间？这背后究竟隐藏着怎样的复杂性？本文将深入探讨这个看似简单的 Bug 为何会如此棘手，从代码层面剖析问题根源，并分享解决过程中遇到的技术挑战和心得。 ... [详细]

蜡笔小新 2024-10-30 13:58:14
io
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
get
玩转Koa koarouter道理剖析

一、媒介 Koa为了坚持本身的简约，并没有绑缚中间件。然则在现实的开辟中，我们须要和五花八门的中间件打交道，本文将要剖析的是常常用到的路由中间件—koa-router。假如你 ... [详细]

蜡笔小新 2024-10-21 18:53:32
get
分布式一致性算法：Paxos 的企业级实战

一、简介首先我们这个平台是ES专题技术的分享平台，众所周知，ES是一个典型的分布式系统。在工作和学习中，我们可能都已经接触和学习过多种不同的分布式系统了，各 ... [详细]

蜡笔小新 2024-10-21 16:29:21
io
gejjson丶java教程网（geojson规范）

本文目录一览：1、哪有免费的JAVA教程?2、 ... [详细]

蜡笔小新 2024-10-19 19:27:25
io
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
char
提升 Kubernetes 集群管理效率的七大专业工具

Kubernetes 在云原生环境中的应用日益广泛，然而集群管理的复杂性也随之增加。为了提高管理效率，本文推荐了七款专业工具，这些工具不仅能够简化日常操作，还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查，这些工具覆盖了集群管理的各个方面，帮助管理员更好地应对挑战。 ... [详细]

蜡笔小新 2024-11-07 17:01:31
io
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01

锋丽恋歌521

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章