热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

使用ApacheHadoop处理日志

日志形态千差万别,但随着应用程序和基础架构的发展,结果产生了大量对用户有用的分布式数据。从Web和邮件服务器到内核和引导日志,许多现代的服务器拥有丰富的信息集。大量的分布式数据是ApacheHadoop的完美应用,就像日志文件(按时间排序的结构化文本

日志形态千差万别,但随着应用程序和基础架构的发展,结果产生了大量对用户有用的分布式数据。从 Web 和邮件服务器到内核和引导日志,许多现代的服务器拥有丰富的信息集。大量的分布式数据是 Apache Hadoop 的完美应用,就像日志文件(按时间排序的结构化文本数据)一样。

您可以使用日志处理来提取各种信息。其中最常用的一种用法是提取错误,或是对某个系统中的一些事件(比如登录失败)的发生次数进行计数。您还可以提取某些类型的性能数据,比如每秒连接数或每秒处理的事务数。其他有用的信息包括 Web 日志中的站点访问量(减少)的提取(映射)和构造。这一分析除了支持检测文件访问统计之外,还支持对惟一用户访问的检测。

概述

这些练习将为您提供以下几方面的实践:

建立一个简单的 Hadoop 环境并运行它

与 Hadoop 文件系统 (HDFS) 进行交互

编写一个简单的 MapReduce 应用程序

编写一个过滤的 Apache Pig 查询

编写一个累计的 Pig 查询

先决条件

要从这些练习中获得最大的益处,您应当掌握 Linux 的基本应用知识。对虚拟设备有一些了解也有助于建立一个简单的环境。

练习 1. 建立一个简单的 Hadoop 环境并运行它

要建立 Hadoop 环境并运行它,有两种方法。第一种是安装 Hadoop 软件,然后针对您的环境(最简单的情况是一个单节点实例,其中所有的守护程序都在单个节点上运行)对其进行配置。参见 用 Hadoop 进行分布式数据处理,第 1 部分:入门 以了解有关的详细信息。

第二种(也是较为简单的一种)方法是通过使用 Cloudera 的 Hadoop Demo VM(包含一个 Linux 映像和一个预配置的 Hadoop 实例)。Cloudera 虚拟机 (VM) 运行于 VMware、基于 Kernel 的虚拟机或 Virtualbox 之上。

选择一种方法,并完成安装。然后,完成以下任务:

通过发出一个 HDFS ls 命令来验证 Hadoop 是否正在运行。

练习 2. 与 HDFS 进行交互

HDFS 是一种专用的文件系统,用来管理一个 Hadoop 集群内的数据和副本,并将它们分配给各个计算节点,以便高效处理它们。尽管 HDFS 是一种专用的文件系统,但它仍然可以实现许多典型的文件系统命令。要检索 Hadoop 的帮助信息,可发出 hadoop dfs 命令。请执行以下任务:

在 HDFS 内创建一个测试子目录。

使用 copyFromLocal 将一个文件从本地文件系统移动到 HDFS 子目录中。

对于额外的练习,请使用 hadoop dfs 命令查看 HDFS 内的文件。

练习 3. 编写一个简单的 MapReduce 应用程序

按照 用 Hadoop 进行分布式数据处理,第 3 部分:应用程序开发 中的演示,编写一个单词数映射和缩减应用程序非常简单。使用本文中演示的 Ruby 示例,开发一个 Python 映射和缩减应用程序,并在样例数据集上运行它们。回想一下,Hadoop 对映射的输出进行了排序,所以词语很可能是连续的,这为缩减程序 (reducer) 提供了一种有用的优化。

练习 4. 编写一个简单的 Pig 查询

正如您在 使用 Apache Pig 处理数据 中所看到的,Pig 允许您构建一个简单的、可转换成 MapReduce 应用程序的脚本。在本练习中,您提取了所有的日志条目(来自 /var/log/messages),这些日志条目中包含单词 kernel: 和单词 terminating。

创建一个根据预定义的标准提取所有日志行的脚本。

练习 5. 编写一个聚合 Pig 查询

日志消息由 Linux 内核(比如 kernel 或 dhclient)中的各种来源生成。在本例中,您需要找出生成日志消息的各种来源,以及每个来源生成的日志消息数量。

创建一个对每个日志来源生成的日志消息数进行计数的脚本。

练习解决方案

具体的输出取决于特定的 Hadoop 安装和配置。

练习 1 的解决方案:建立一个简单的 Hadoop 环境并运行它

在 练习 1 中,您在 HDFS 上执行了一个 ls 命令。清单 1 展示了恰当的解决方案。

清单 1. 在 HDFS 上执行一个 ls 操作
hadoop dfs -ls /
drwxrwxrwx    - hue       supergroup           0 2011-12-10 06:56 /tmp
drwxr-xr-x    - hue       supergroup           0 2011-12-08 05:20 /user
drwxr-xr-x    - mapred    supergroup           0 2011-12-08 10:06 /var
$

所显示文件的多少取决于具体的使用。

练习 2 的解决方案:与 HDFS 进行交互

在 练习 2 中,您在 HDFS 内创建了一个子目录,并将一个文件复制到这个子目录中。请注意,您是通过将内核消息缓冲器移动到某个文件中来创建测试数据的。对于额外的练习,请使用 cat 命令(参见 清单 2)查看 HDFS 内的文件。

清单 2. 操作 HDFS
dmesg > kerndata
hadoop dfs -mkdir /test
hadoop dfs -ls /test
hadoop dfs -copyFromLocal kerndata /test/mydata
hadoop dfs -cat /test/mydata
Linux version 2.6.18-274-7.1.el5 (mockbuild@builder10.centos.org)...
...
e1000: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
$
练习 3 的解决方案:编写一个简单的 MapReduce 应用程序

在 练习 3 中,您用 Python 语言创建了一个简单的单词计数 MapReduce 应用程序。Python 实际上是实现单词计数示例的一种极好的语言。您可以在 Writing a Hadoop MapReduce Program in Python(由 Michael G. Noll 编著)中发现一个关于 Python MapReduce 的有用的整理文章。

本示例假设您执行了练习 2 的步骤(将数据摄入 HDFS)。清单 3 提供了映射应用程序。

清单 3. 用 Python 编写的映射应用程序
#!/usr/bin/env python
import sys
for line in sys.stdin:
    line = line.strip()
    words = line.split()
    for word in words:
        print '%s\t1' % word

清单 4 提供了缩减应用程序。

清单 4. 用 Python 编写的缩减应用程序
#!/usr/bin/env python
from operator import itemgetter
import sys
last_word = None
last_count = 0
cur_word = None
for line in sys.stdin:
    line = line.strip()
    cur_word, count = line.split('\t', 1)
    count = int(count)
    if last_word == cur_word:
        last_count += count
    else:
        if last_word:
           print '%s\t%s' % (last_word, last_count)
           last_count = count
        last_word = cur_word
if last_word == cur_word:
    print '%s\t%s' % (last_word, last_count)

清单 5 说明了在 Hadoop 中调用 Python MapReduce 示例的流程。

清单 5. 使用 Hadoop 测试 Python MapReduce
hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
  -file pymap.py -mapper pymap.py -file pyreduce.py -reducer pyreduce.py \
  -input /test/mydata -output /test/output

...
hadoop dfs -cat /test/output/part-00000
...
write   3
write-combining 2
wrong.  1
your    2
zone:   2
zonelists.      1
$
练习 4 的解决方案:编写一个简单的 Pig 查询

在 练习 4 中,您提取了 /var/log/messages 日志条目,该条目同时包含了单词 kernel: 和单词 terminating。在这种情况下,您可以在本地模式下使用 Pig 查询本地文件(参见 清单 6)。将文件加载到一个 Pig 关系(日志)中,过滤其内容,直到只剩下内核消息,然后过滤结果关系,以便获得终止消息。

清单 6. 提取所有的内核日志消息 + 终止日志消息
pig -x local
grunt> log = LOAD '/var/log/messages';
grunt> logkern = FILTER log BY $0 MATCHES '.*kernel:.*';
grunt> logkernterm = FILTER logkern BY $0 MATCHES '.*terminating.*';
grunt> dump logkernterm
...
(Dec  8 11:08:48 localhost kernel: Kernel log daemon terminating.)
grunt>
练习 5 的解决方案:编写一个聚合 Pig 查询

在 练习 5 中,提取日志来源和根据 /var/log/messages 获得的日志消息计数。在这种情况下,需要为查询创建一个脚本,并在 Pig 的本地模式下执行它。在 清单 7 中,您加载了文件,并使用空格作为分隔符对输入进行解析。随后将已划分界限的字符串字段分配给指定的元素。使用 GROUP 运算符根据消息来源对消息进行分组,然后使用 FOREACH 运算符和 COUNT 来聚合您的数据。

清单 7. /var/log/messages 的日志来源和计数脚本
log = LOAD '/var/log/messages' USING PigStorage(' ') AS (month:chararray, \
  day:int, time:chararray, host:chararray, source:chararray);
sources = GROUP log BY source;
counts = FOREACH sources GENERATE group, COUNT(log);
dump counts;

执行结果如 清单 8 所示。

清单 8. 执行您的日志来源脚本
pig -x local logsources.pig
...
(init:,1)
(gconfd,12)
(kernel:,505)
(syslogd,2)
(dhclient:,91)
(localhost,1168)
(gpm[2139]:,2)
[gpm[2168]:,2)
(NetworkManager:,292)
(avahi-daemon[3345]:,37)
(avahi-daemon[3362]:,44)
(nm-system-settings:,8)
$

推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 精选10款Python框架助力并行与分布式机器学习
    随着神经网络模型的不断深化和复杂化,训练这些模型变得愈发具有挑战性,不仅需要处理大量的权重,还必须克服内存限制等问题。本文将介绍10款优秀的Python框架,帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • HBase 数据复制与灾备同步策略
    本文探讨了HBase在企业级应用中的数据复制与灾备同步解决方案,包括存量数据迁移及增量数据实时同步的方法。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文详细介绍了 Java 网站开发的相关资源和步骤,包括常用网站、开发环境和框架选择。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持,本文详细介绍了如何重新编译Hadoop源代码,并优化其Native编译过程。通过这一优化,可以显著提升数据处理的效率和性能。此外,还探讨了编译过程中可能遇到的问题及其解决方案,为用户提供了一套完整的操作指南。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
author-avatar
staback郭_122
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有