热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

海量日志处理_方案

实时数据处理方案FlumeKafka日志收集SparkStreaming实时处理将数据写入到kafka持久化存储;SparkStreaming消费kafka数据,业务级别分析;将分析结果写

实时数据处理
方案
Flume
Kafka 日志收集
Spark Streaming 实时处理

将数据写入到kafka持久化存储;Spark Streaming消费kafka数据,业务级别分析;将分析结果写入HBase或者HDFS。

业界
《百度海量日志分析架构及处理》
对于互联网企业来说,最有价值的数据,往往蕴藏在网站日志之中。
从日志中,我们不仅可以了解应用的使用量、活跃用户数、服务质量,还可以了解到用户的地域来源、使用偏好等许多关键信息,从而改善服务质量,更好地满足用户需求。
但在实践中,随着网站用户规模增大和数据量的爆炸性增长,日志的管理、分析、挖掘变得越来越具有挑战性。百度在实战中积累了大量对海量日志数据处理的经验,并演化出一套平台化、可定制、高性能、高吞吐、高可用的技术架构。本次演讲将介绍百度日志处理平台LSP和海量数据处理语言DISQL的演化历程与架构思路,以及百度在日志分析中积累的一些经验。希望对大家有所启发。
如何让这些数据高效地运转起来体现实用价值,而不仅仅是拿到很多数据存储起来。
夯实基础:其次要选择一种或者几种适合自己企业当前状态的实时计算框架。实时分析并不等于实时计算,在分析过程中除了需要数据计算能力之外,还需要数据挖掘能力、实时采集能力。

《阿里云日志服务》
日志收集与实施消费(LogHub:日志中枢通道)
打通日志与数据仓库(LogShipper:日志投递)
提供海量日志查询与分析(LogSearch,日志检索)
文章
《Spark Streaming 1.3对Kafka整合的提升详解》http://dataunion.org/12102.html
《Spark Streaming 读取 Kafka 数据的两种方式》http://group.jobbole.com/15559/
《Spark streaming+kafka实战教程》
http://qifuguang.me/2015/12/24/Spark-streaming-kafka%E5%AE%9E%E6%88%98%E6%95%99%E7%A8%8B/

 

Kafka + Spark Streaming
Spark Streaming提供与Kafka整合的内置支持。
Flume版本: apache-flume-1.5.0-cdh5.4.9 ,该版本已经较好地集成了对kafka的支持。
《Kafka + Spark Streaming构建实时数据处理系统》
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/
使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时数据处理系统。
股市走向分析, 气象数据测控,网站用户行为分析。

Kafka应用场景
流计算系统的数据源。
数据流分发给 Kafka 消息主题,流数据计算系统 (Storm/Spark Streaming) 实时消费并计算数据。
日志聚集:Kafka 可以作为日志收集系统的替代解决方案,将系统日志数据按类别汇集到不同的 Kafka 消息主题。

Spark Streaming应用场景
以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。

 


Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume-ng最明显的改动就是取消了集中管理配置的 Master 和 Zookeeper,变为一个纯粹的传输工具。Flume-ng另一个主要的不同点是读入数据和写出数据现在由不同的工作线程处理(称为 Runner)。
日志采集层:主要可以使用Flume, Kafka两种技术。Cloudera 建议如果数据被多个系统消费的话,使用kafka;如果数据被设计给Hadoop使用,使用Flume。

 


推荐阅读
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • RocketMQ在秒杀时的应用
    目录一、RocketMQ是什么二、broker和nameserver2.1Broker2.2NameServer三、MQ在秒杀场景下的应用3.1利用MQ进行异步操作3. ... [详细]
  • 零拷贝技术是提高I/O性能的重要手段,常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 投融资周报 | Circle 达成 4 亿美元融资协议,唯一艺术平台 A 轮融资超千万美元 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • 阿里巴巴终面技术挑战:如何利用 UDP 实现 TCP 功能?
    在阿里巴巴的技术面试中,技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想,因此事后进行了详细总结。通过与总监的进一步交流,了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解,以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]
  • 在第二课中,我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先,通过详细的实战案例,全面解析Scala中的类和对象。作为一门纯面向对象的语言,Scala的类设计和对象使用是理解其面向对象特性的关键。此外,我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能,还能为后续的高级应用开发打下坚实的基础。 ... [详细]
  • Gear 月度进展报告:2023年7月最新动态与技术升级
    Gear 月度进展报告:2023年7月最新动态与技术升级 ... [详细]
  • 在Windows环境中优化提交Spark任务的方法与实践
    在Windows环境中优化提交Spark任务的方法与实践 ... [详细]
  • 在Mesos上运行Spark时,常见的问题是Slave节点可能会因应用程序资源消耗过大而耗尽资源。本文分析了这一问题的成因,并提供了多种有效的解决方案,包括资源调度优化、任务分配策略调整以及系统配置改进等,帮助用户提升集群的稳定性和性能。 ... [详细]
  • ProgressReportNov7-Nov 15 ... [详细]
  • 本文整理了Java中org.jboss.netty.buffer.ChannelBuffer.readUnsignedInt()方法的一些代码示例,展示了C ... [详细]
  • R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的RossIhaka和RobertGentleman开发(也因此称为R),现在由R开 ... [详细]
author-avatar
老男孩标兄_164
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有