十八款Hadoop工具帮你驯服大数据【转】

作者：徐成奕_98743 | 来源：互联网 | 2023-07-17 17:14

Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如

Hadoop已经通过自身的蓬勃发展证明，它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不，这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实，目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。

Hadoop业界正在迅速发展，从业企业拿出的解决方案也多种多样，其中包括提供技术支持、在托管集群中提供按时租用服务、为这套开源核心开发先进的功能强化或者将自有工具添加到方案组合当中。

在今天的文章中，我们将一同了解当下Hadoop生态系统当中那些最为突出的杰作。总体而言，这是一套由众多工具及代码构成的坚实基础、共同聚集在"Hadoop"这面象征着希望的大旗之下。

Hadoop

十八款Hadoop工具帮你驯服大数据【转】

虽然很多人会把映射与规约工具广义化称为Hadoop，但从客观角度讲、其实只有一小部分核心代码算是真正的Hadoop。多个工作节点负责对保存在本地的数据进行功能执行，而基于Java的代码则对其加以同步。这些工作节点得到的结果随后经过汇总并整理为报告。第一个步骤被称为"映射（即map）"，而第二步骤则被称为"规约（reduce）"。

Hadoop为本地数据存储与同步系统提供一套简化抽象机制，从而保证程序员能够将注意力集中在编写代码以实现数据分析工作上，其它工作交给Hadoop处理即可。Hadoop会将任务加以拆分并设计执行规程。错误或者故障在意料之中，Hadoop的设计初衷就在于适应由单独设备所引发的错误。

项目代码遵循Apache许可机制。

官方网站：hadoop.apache.org

Ambari

十八款Hadoop工具帮你驯服大数据【转】

Hadoop集群的建立需要涉及大量重复性工作。Ambari提供一套基于Web的图形用户界面并配备引导脚本，能够利用大部分标准化组件实现集群设置。在大家采纳Ambari并将其付诸运行之后，它将帮助各位完成配置、管理以及监管等重要的Hadoop集群相关任务。上图显示的就是集群启动后Ambari所显示的信息屏幕。

Ambari属于Apache旗下的衍生项目，并由Hortonworks公司负责提供支持。

下载地址：http://incubator.apache.org/ambari/

HDFS (即Hadoop分布式文件系统)

十八款Hadoop工具帮你驯服大数据【转】

Hadoop分布式文件系统提供一套基础框架，专门用于拆分收集自不同节点之间的数据，并利用复制手段在节点故障时实现数据恢复。大型文件会被拆分成数据块，而多个节点能够保留来自同一个文件的所有数据块。上图来自Apache公布的说明文档，旨在展示数据块如何分布至各个节点当中。

这套文件系统的设计目的在于同时实现高容错性与高数据吞吐能力的结合。加载数据块能够保持稳定的信息流通，而低频率缓存处理则将延迟降至最小。默认模式假设的是需要处理大量本地存储数据的长时间作业，这也吻合该项目所提出的"计算能力迁移比数据迁移成本更低"的座右铭。

HDFS同样遵循Apache许可。

官方网站：hadoop.apache.org

HBase

十八款Hadoop工具帮你驯服大数据【转】

当数据被汇总成一套规模庞大的列表时，HBase将负责对其进行保存、搜索并自动在不同节点之间共享该列表，从而保证MapReduce作业能够以本地方式运行。即使列表中容纳的数据行数量高达数十亿，该作业的本地版本仍然能够对其进行查询。

该代码并不能提供其它全功能数据库所遵循的ACID保证，但它仍然为我们带来一部分关于本地变更的承诺。所有衍生版本的命运也都维系在一起--要么共同成功、要么一起失败。

这套系统通常被与谷歌的BigTable相提并论，上图所示为来自HareDB（一套专为HBase打造的图形用户界面客户端）的截图。

官方网站：hbase.apache.org

Hive

十八款Hadoop工具帮你驯服大数据【转】

将数据导入集群还只是大数据分析的第一步。接下来我们需要提取HBase中来自文件的所有数据内容，而Hive的设计初衷在于规范这一提取流程。它提供一套SQL类语言，用于深入发掘文件内容并提取出代码所需要的数据片段。这样一来，所有结果数据就将具备标准化格式，而Hive则将其转化为可直接用于查询的存储内容。

上图所示为Hive代码，这部分代码的作用在于创建一套列表、向其中添加数据并选择信息。

Hive由Apache项目负责发行。

官方网站：hive.apache.org

Sqoop

十八款Hadoop工具帮你驯服大数据【转】

要将蕴藏在SQL数据库中的数据宝库发掘出来并交给Hadoop打理需要进行一系列调整与操作。Sqoop负责将饱含信息的大型列表从传统数据库中移动到Hive或者HBase等工具的控制之下。

Sqoop是一款命令行工具，能够控制列表与数据存储层之间的映射关系，并将列表转化为可为HDFS、HBase或者Hive所接纳的可配置组合。上图所示为Apache文档材料中的内容，可以看到Sqoop位于传统库与节点上的Hadoop结构之间。

Sqoop的最新稳定版本为1.4.4，但目前其2.0版本同样进展顺利。两个版本目前都可供下载，且遵循Apache许可。

官方网站：sqoop.apache.org

Pig

十八款Hadoop工具帮你驯服大数据【转】

一旦数据以Hadoop能够识别的方式被保存在节点当中，有趣的分析工作将由此展开。Apache的Pig会用自己的小"猪拱"梳理数据，运行利用自有语言（名为Pig Latin）所编写的代码，并添加处理数据所需要的各种抽象机制。这样的结构会一步步指引用户走向那些易于以并行方式运行在整个集群当中的算法。

Pig还拥有一系列针对常见任务的标准化功能，能够轻松处理诸如数据平均值计算、日期处理或者字符串差异比较等工作。如果这些还不够用--实际上一般都不够用--大家还可以动手编写属于自己的功能。上图所示为Apache说明文档中的一项实例，解释了用户如何将自己的代码与Pig代码结合起来、从而实现数据发掘。

目前Pig的最新版本为0.12.0。

官方网站：pig.apache.org

ZooKeeper

十八款Hadoop工具帮你驯服大数据【转】

一旦Hadoop需要在大量设备之上，集群运作的顺序就显得非常重要，特别是在其中某些设备开始签出的情况下。

ZooKeeper在集群中强制执行一套文件系统式的层级结构，并为设备保存所有元数据，这样我们就可以在不同设备之间进行作业同步。（上图所示为一套简单的二层式集群。）说明文档展示了如何在数据处理流程中实施多种标准化技术，例如生产方-消费方队列，从而保证数据能够以正确的顺序进行拆分、清理、筛选以及分类。当上述过程结束后，使用ZooKeeper的节点会彼此通信、并以最终生成的数据为起点开始分析工作。

如果大家希望了解更多信息、说明文档以及最新版本，请访问ZooKeeper的官方网站。

官方网站：zookeeper.apache.org

NoSQL

十八款Hadoop工具帮你驯服大数据【转】

并不是所有Hadoop集群都会使用HBase或者HDFS。某些集成了NoSQL的数据存储体系会采取自己的独特机制实现跨集群各节点的数据存储任务。在这种情况下，此类体系能够利用NoSQL数据库的全部功能对数据进行存储与检索，而后利用Hadoop规划同一集群当中的数据分析作业。

此类方案中最为常见的当数Cassandra、Riak或者MongoDB，而用户则在积极探索将这两种技术加以结合的最佳方式。作为MongoDB的主要支持厂商之一，10Gen公司建议用户利用Hadoop进行离线分析，而MongoDB同时仍然能够以实时方式统计来自Web的数据。上图所示为连接器如何实现两套体系之间的数据迁移。

Mahout

十八款Hadoop工具帮你驯服大数据【转】

目前能够帮助我们进行数据分析、分类以及筛选的算法多种多样，而Mahout项目的设计目的正是为了将这些算法引入Hadoop集群当中。大多数标准化算法，例如K-Means、Dirichelet、并行模式以及贝叶斯分类等，都能够让我们的数据同Hadoop类型的映射与规约机制进行协作。

上图所示为一套篷聚类集群化算法，它选择点与半径来构成圆圈、从而覆盖整个点集合中的对应部分。这只是众多Hadoop内置数据分析工具之一。

Mahout从属于Apache项目并遵循Apache许可。

官方网站：mahout.apache.org

Lucene/Solr

十八款Hadoop工具帮你驯服大数据【转】

这是目前惟一的一款用于检索非结构化文本大型块的工具，它同时也是Hadoop的天生合作伙伴。由于利用Java编写，Lucene能够轻松与Hadoop展开协作，共同创建出一套用于分布式文本管理的大型工具。Lucene负责处理检查任务、Hadoop则负责将查询分布到整个集群当中。

新的Lucene-Hadoop功能正迅速发展成为全新项目。以Katta为例，作为Lucene的衍生版本，它能自动对整个集群进行解析。Solr则提供集成度更高的动态集群化解决方案，能够解析XML等标准化文件格式。上图所示为Luke，一款用于Lucene浏览的图形用户界面。它现在还提供插件、用于对Hadoop集群进行浏览检索。

Lucene及其多个衍生版本都属于Apache项目的组成部分。

官方网站：www.apache.org

Avro

十八款Hadoop工具帮你驯服大数据【转】

当Hadoop作业需要进行数据共享时，我们完全可以使用任何一种数据库加以实现。但Avro是一套序列化系统，能够利用一定模式将数据整理起来并加以理解。每一个数据包都附带一种JSON数据结构，用于解释数据的具体解析方式。这种数据头会指定数据结构，从而避免我们在数据中编写额外的标签来对字段进行标记。如此一来，当共享数据较为规律时，其体积将比传统格式（例如XML或者JSON）更为紧凑。

上图所示为针对某个文件的Avro处理模式，其中分为三种不同字段：姓名、最喜欢的数字与最喜欢的颜色。

Avro同样属于Apache项目的组成部分，其代码拥有Java、C++以及Python等多个语言版本。

官方网站：avro.apache.org

Oozie

十八款Hadoop工具帮你驯服大数据【转】

将一项作业拆分成多个步骤能够让工作变得更为简单。如果大家将自己的项目拆分成数个Hadoop作业，那么Oozie能够以正确的顺序将其组合起来并加以执行。大家不需要插手堆栈调整，等待一个堆栈执行结束后再启动另一个。Oozie能够按照DAG（即有向无环图）的规范对工作流加以管理。（环图相当于无限循环，对于计算机来说就像一种陷阱。）只需将DAG交给Oozie，我们就可以放心出去吃饭了。

上图所示为来自Oozie说明文档的一幅流程图。Oozie代码受到Apache许可的保护。

官方网站：oozie.apache.org

GIS工具

十八款Hadoop工具帮你驯服大数据【转】

咱们生活的世界相当广阔，因此让运行Hadoop的集群与地理地图协作也是项难度很高的任务。针对Hadoop项目的GIS（即地理信息系统）工具采用多种基于Java的最佳工具，能够透彻理解地理信息并使其与Hadoop共同运行。我们的数据库将通过坐标而非字符串来处理地理查询，我们的代码则通过部署GIS工具来计算三维空间。有了GIS工具的帮助，大家面临的最大难题只剩下正确解读"map"这个词--它到底代表的是象征整个世界的平面图形，还是Hadoop作业当中的第一步、也就是"映射"？

上图所示为说明文档中关于这些工具的不同层级。目前这些工具可在GitHub上进行下载。

下载地址：http://esri.github.io/gis-tools-for-hadoop/

Flume

十八款Hadoop工具帮你驯服大数据【转】

数据收集这项任务绝对不比数据存储或者数据分析更轻松。作为又一个Apache项目，Flume能够通过分派"代理"以收集信息并将结果保存在HDFS当中。每一个代理可以收集日志文件、调用Twitter API或者提取网站数据。这些代理由事件触发，而且可以被链接在一起。由此获得的数据随后即可供分析使用。

Flume项目的代码受Apache许可保护。

官方网站：flume.apache.org

Hadoop上的SQL

十八款Hadoop工具帮你驯服大数据【转】

如果大家希望在自己的大型集群当中对全部数据来一次快速的临时性查询，正常来说需要编写一个新的Hadoop作业，这自然要花上一些时间。过去程序员们多次掉进过这同一个坑里，于是大家开始怀念老式SQL数据库--利用相对简单的SQL语言，我们就能为问题找到答案。从这一思路出发，众多公司开发出一系列新兴工具，这些方案全部指向更为快捷的应答途径。

其中最引人注目的方案包括：HAWQ、Impalla、Drill、Stinger以及Tajo。此类方案数量众多，足够另开一个全新专题。

云计算

十八款Hadoop工具帮你驯服大数据【转】

很多云平台都在努力吸引Hadoop作业，这是因为其按分钟计算租金的灵活业务模式非常适合Hadoop的实际需求。企业可以在短时间内动用数千台设备进行大数据处理，而不必再像过去那样永久性购入机架、再花上几天或者几周时间执行同样的计算任务。某些企业，例如Amazon，正在通过将JAR文件引入软件规程添加新的抽象层。一切其它设置与调度工作都可由云平台自行完成。

上图所示为Martin Abegglen在Flickr上发表的几台刀片计算机。

Spark

十八款Hadoop工具帮你驯服大数据【转】

未来已然到来。对于某些算法，Hadoop的处理速度可能慢得令人抓狂--这是因为它通常依赖于存储在磁盘上的数据。对于日志文件这种只需读取一次的处理任务来说，速度慢些似乎还可以忍受；但一旦把范围扩大到所有负载，那些需要一次又一次访问数据的人工智能类程序可能因为速度过慢而根本不具备实用价值。

Spark代表着下一代解决思路。它与Hadoop的工作原理相似，但面向的却是保存在内存缓存中的数据。上图来自Apache说明文档，其中演示的是Spark在理想状态下与Hadoop之间的处理速度对比。

Spark项目正处于Apache开发当中。

推荐阅读

hdfs
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
hdfs
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
hdfs
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
hdfs
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
config
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
config
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
config
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
config
解析与应用：org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens() 方法

本文详细介绍了 `org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens()` 方法的用途和实际应用场景，并提供了多个代码示例以帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-18 17:59:10
config
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59
import
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
controller
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
config
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
version
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
version
【漫画解析】数据已删，存储空间为何未减？揭秘背后真相

在数据迁移过程中，即使删除了原有数据，存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说，使用 `mysqldump` 命令进行数据导出时，该工具作为 MySQL 的逻辑备份工具，通过连接数据库并查询所需数据，将其转换为 SQL 语句。然而，这种操作并不会立即释放存储空间，因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理，以确保数据删除后能够有效回收存储空间。 ... [详细]

蜡笔小新 2024-11-04 17:11:49

徐成奕_98743

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章