当前位置: 开发笔记 > 数据库 > 正文

大数据分析:结合Hadoop或ElasticMapReduce使用Hunk

作者：姿婷慧仲威廷 | 来源：互联网 | 2018-06-08 03:16

作者JonathanAllen，译者张晓鹏Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的ElasticMapReduce。结合Hadoop使用HunkHadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可

作者 Jonathan Allen ，译者张晓鹏 Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的Elastic MapReduce。结合Hadoop使用Hunk Hadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可

作者 Jonathan Allen ，译者张晓鹏

Hunk是Splunk公司一款比较新的产品，用来对Hadoop和其它NoSQL数据存储进行探测和可视化，它的新版本将会支持亚马逊的Elastic MapReduce。

结合Hadoop使用Hunk

Hadoop由两个单元组成，首先是被称为HDFS的存储单元，HDFS可以分布在成千上万个复制的节点上。接下来是MapReduce单元，它负责跟踪和管理被命名为map-reduce jobs的作业。

之前，开发者会用到Splunk Hadoop Connect (SHC)连接器。SHC通过常用的推模型（push model）来输出数据到Hadoop中，这块处理相当地好，但相反方向的处理却可能会有问题。当通过Splunk来探测数据时，原始的数据会被吸收到Splunk Server来检索和处理。就像人们猜想的那样，这个过程并没有发挥出Hadoop计算能力的优势。

Hunk通过提供与Hadoop MapReduce节点协同工作的适配器来解决这个问题。Splunk的查询被转化成Hadoop MapReduce的作业，这些作业在Hadoop集群中处理，最终只有结果被取回到Splunk 服务器中进行分析和可视化。

通过这种方式，Hunk提供了抽象层，以便用户和开发者不需要关心怎么去写Hadoop MapReduce的作业。Hunk还能在MapReduce作业启动前就提供结果预览，以减少无用搜索的数量。

结合Elastic MapReduce使用Hunk

亚马逊的Elastic MapReduce可以看做是对Hadoop的补充，同时也是Hadoop的竞争者。EMR既可以运行在Hadoop HDFS集群上，也可以直接运行在AWS S3上。亚马逊宣称使用AWS S3的优势在于比HDFS集群更易于管理。

当运行Elastic MapReduce时，Hunk提供了相同的抽象层和预览功能，就像它在Hadoop上做的一样。所以从用户的观点来看，在Hadoop和EMR之间切换不会造成什么变化。

云上的Hunk

在云上托管Hunk的传统方法是买一个标准版的许可证，然后部署到虚拟机中，这和你现场安装一样简单。接下来是对Hunk的运行实例进行手动配置以让它对应到正确的Hadoop或AWS集群上。

这个月的新版本里，Hunk的运行实例可以在AWS上进行自动化配置，这包括自动发现EMR数据源，这样Hunk实例可以在几分钟内上线使用。为了充分利用这个优势，Hunk运行实例是按小时来计费。

虚索引（Virtual Indexes）

Hunk中的有个关键概念是“虚索引（Virtual Indexes）”。这些索引已不同原本的意义，变成只是由Hunk来体现Hadoop和EMR集群处理的一种方式。从Splunk的用户界面上看，它们像是真正的索引，即使其数据处理是在map-reduce作业中完成的。并且，由于看起来像索引，你可以在它们之上创建持久的二级索引（persistent secondary indexes）。当你要处理部分数据，然后进一步检查或在多个方面可视化时，这个持久的二级索引会非常有用。

查看英文原文：Big Data Analytics: Using Hunk with Hadoop and Elastic MapReduce

推荐阅读

join
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
hbase
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
mysql
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47
数据库
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
数据库
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41
数据库
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
数据库
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
数据库
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
nosql
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
nosql
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
数据库
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
redis
程序员必备：深入解析分布式文件系统

本文深入探讨了分布式文件系统的核心概念及其在现代数据存储解决方案中的应用，特别是针对大规模数据处理的需求。文章不仅介绍了多种流行的分布式文件系统和NoSQL数据库，还提供了选择合适系统的指导原则。 ... [详细]

蜡笔小新 2024-11-27 09:49:40
redis
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
redis
深入解析：存储技术的演变与发展

本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程，详细解释了各种存储模型及其特点。 ... [详细]

蜡笔小新 2024-11-19 11:25:40
redis
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59

姿婷慧仲威廷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章