OpenStack私有云平台与HadoopMapReduce环境的部署

作者：ya的sky | 来源：互联网 | 2014-05-27 20:14

随着企业开始同时利用云计算和大数据技术，现在应当考虑如何将这些工具结合使用。在这种情况下，企业将实现最佳的分析处理能力，同时利用私有云的快速弹性(rapidelasticity)和单一租赁的特性。本文将帮助您了解云计算和大数据技术的组成部分，了

随着企业开始同时利用云计算和大数据技术，现在应当考虑如何将这些工具结合使用。在这种情况下，企业将实现最佳的分析处理能力，同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。本文将帮助您了解云计算和大数据技术的组成部分，了解私有云是什么，Apache Hadoop 是什么，它们的协同效用，如何进行部署它们，以及它们带来的挑战有哪些。

私有云计算简介

私有云 指企业内部的云计算部署，在私有云中，企业利用了数据中心内的各种云计算技术的细微差别。这些差别包括快速弹性、资源池、按需配给和自动化管理。为了在内部将这些属性整合在一起，大多数企业采用了开源的云版本，比如 OpenStack 或 CloudStack。

OpenStack 是最流行的开源云版本，它包括控制器、计算 (Nova)、存储 (Swift)、消息队列 (RabbitMQ) 和网络 (Quantum) 组件。图 1 提供了这些组件的一个图示（不包含 Quantum 网络组件）。

图 1. OpenStack 的组件

这些组件共同提供了一个允许动态配给计算和存储资源的环境。从硬件角度看，这些服务可扩展到许多虚拟的和物理的服务器上。例如，大多数组织部署一个物理服务器作为控制器节点，部署另一个物理服务器作为计算节点。许多组织还选择将其存储环境分离到一个专用的物理服务器上，对于 OpenStack 部署而言，这意味着对 Swift 存储环境使用单独的服务器。

回页首

大数据简介

Oracle 将 大数据 定义为三个数据源的数据汇集：传统数据（结构化数据）、感知数据（日志数据和元数据）和社交（社交媒体）数据。大数据通常采用新的技术模式进行存储，比如非关系分布式数据库 NoSQL。共有四种非关系数据库管理此系统 (NRDBMS)：基于列、关键值、图表和基于文档。这些 NRDBMS 将源数据聚集在一起，同时用 MapReduce 之类的分析程序对汇总的信息进行分析。

传统的大数据环境包括一个分析程序、一个数据存储、一个可扩展文件系统、一个工作流管理器、一个分布式排序和散列解决方案以及一个数据流编程框架。常用于商业应用程序的数据流编程框架是 Structured Query Language (SQL)，对于开源应用程序，通常会使用 SQL 的替代方案，如 Apache Pig for Hadoop。在商用方面，Cloudera 提供了最稳定、最全面的解决方案之一，而 Apache Hadoop 是最流行的开源 Hadoop 版本。

Apache Hadoop 的应用比较常见，因为您可以使用多种组件，包括 Hadoop Distributed File System（即 HDFS，是一种可扩展的文件系统），HBase（数据库/数据存储）、Pig、Hadoop（分析方法）和 MapReduce（分布式排序和散列）。如图 2 所示，Hadoop 任务被分解为几个节点，而 MapReduce 任务则被分解为跟踪器 (tracker)。

图 2. HDFS/MapReduce 层的组成部分

图 3 显示了 MapReduce 如何执行任务，它将获取输入并执行一系列分组、排序和合并操作，然后呈现经过排序和散列的输出。

图 3. 高级 MapReduce 图

图 4 演示了一个更复杂的 MapReduce 任务及其组成部分。

图 4. MapReduce 数据流图解

尽管 Hadoop MapReduce 要比传统的分析环境（如 IBM Cognos 和 Satori proCube 在线分析处理）更复杂一些，但它的部署仍然具有可扩展能力和高成本效益。

全盘考虑

大数据技术和私有云环境都很有用；不过，如果将两者结合在一起，企业会获得巨大的利润。尽管结合两者会让环境变得更复杂，企业仍然可以看到将 OpenStack 私有云和 Apache Hadoop 环境结合在一起产生的显著的协同效应。下一小节将介绍企业如何将私有云和大数据技术结合在一起。

Swift、Apache Hadoop 和 MapReduce

在私有云环境中，常见的大数据部署模型之一是：将 OpenStack 的 Swift 存储技术部署到 Apache Hadoop MapReduce 集群，从而实现处理功能。使用这种架构的优势是，企业将获得一个可扩展的存储节点，可以用该节点来处理其不断累积的数据。根据 IDC 的调查，数据年增长率已经达到 60%，该解决方案将满足不断增长的数据需求，同时允许组织同时启动一个试点项目来部署私有云。

该部署模型的最佳使用场景是企业希望通过存储池尝试使用私有云技术，同时在内部使用大数据技术。最佳实践表明您应当先将大数据技术部署到您的生产数据仓库环境中，然后构建并配置您的私有云存储解决方案。如果将 Apache Hadoop MapReduce 技术成功融合到数据仓库环境中，并且已经正确构建并运行您的私有云存储池，那么您就可以将私有云存储数据与预调度的 Hadoop MapReduce 环境集成在一起。

Swift 和 Cloudera 的 Apache Hadoop 发行版

对于那些不愿意从头开始使用大数据的企业，可以使用 Cloudera 等解决方案供应商提供的大数据设备。Cloudera 的发行版包括 Apache Hadoop (CDH) 解决方案，它允许企业不必针对 Hadoop 的每个细微差别来招募或培训员工，因此可以在大数据方面实现更高的投资回报 (ROI)。对于那些不具备大数据或私有云技能集，希望以缓慢、渐进的方式将该技术集成到其产品组合的企业，这一点尤其吸引人。

大数据和云计算属于相对较新的技术，许多企业希望通过它们实现成本节省；不过，许多企业对于是否完全采用这些技术犹豫不决。通过利用供应商支持的大数据软件版本，企业在这方面将会更加从容，同时还可以了解如何使用这些技术来发挥自身的优势。此外，如果使用大数据软件分析大型数据集，而且可以通过私有云存储节点来管理这些数据集，那么这些企业还可以实现更高的利用率。为了最好地将这一策略集成到企业中，首先需要安装、配置和管理 CDH，以便分析企业的数据仓库环境，然后将 Swift 中存储的数据添加到需要的地方。

Swift、Nova 和 Apache Hadoop MapReduce

对于希望在大数据环境中实现更高程度的灵活性、可扩展性和自治性的企业，可以利用 Apache 和 OpenStack 提供的开源产品的与生俱来的能力。为此，企业需要最大限度地利用这两种技术栈，这就要求采用与前面所述的解决方案不同的思维方式来设计环境。

要获得完全可伸缩的、灵活的大数据环境，必须在一个同时提供存储和计算节点的私有云环境中运行它。为此，企业必须先构建私有云，然后添加大数据。因此，在这种情况下，必然会用到 Swift、Nova 和 RabbitMQ，并控制器节点来管理和维护环境。但是，问题在于企业是否需要针对不同的系统和业务部门将环境分为若干个部分（例如，非大数据虚拟机或客户机实例）。如果企业准备完全使用私有云，那么应当添加 Quantum，从网络的角度对不同的环境进行划分（参见图 5）。

图 5. OpenStack 架构

在设置并测试了私有云环境后，可以将 Apache Hadoop 组件合并到其中。此时，Nova 实例可用于存放 NoSQL 或 SQL 数据存储（没错，它们可以共存）以及 Pig 和 MapReduce 实例；Hadoop 可以位于一个独立的非 Nova 机器上，以便提供处理功能。在不久的将来，Hadoop 有望在 Nova 实例上运行，使私有云自包含到所有 Nova 实例中。

GFS、Nova、Pig 和 MapReduce

从架构的角度看，除了使用 OpenStack 的 Swift 实现可扩展存储外，可能还有其他选择。本例使用了 Google File System (GFS)、Nova 组件和 Apache Hadoop 组件，具体来讲，使用了 Pig 和 MapReduce。该示例允许企业集中精力开发一个仅用于计算处理的私有云计算节点，同时利用 Google 的公共存储云作为数据存储。通过使用这种混合云，企业可以专注于计算处理功能的核心能力，由第三方负责实现存储。该模型可以利用其他供应商的存储解决方案，如 Amazon Simple Storage Service；但是，在使用任何外部存储之前，企业应当在内部使用可扩展的文件系统 (XFS) 来构建该解决方案，并进行相应的测试，然后再将其扩展到公共云中。此外，根据数据的敏感性，企业可能需要使用数据保护机制，比如模糊处理 (obfuscation)、解除匿名化、加密或散列。

技巧和提示

在将云计算和大数据技术并入企业环境时，一定要为这两个技术平台构建员工的技能集。当您的员工理解这些技术后，就可以组建一个实验室来测试这两个平台合并后的效果。由于包含许多不同的组件，因此在实现过程中，请务必遵循前面提到的经过验证的路径。此外，企业在尝试合并这两种模式时可能会遇到一些挫折，应当在进行若干次尝试后改用其他方法。这些方法包括设备和混合云。

障碍和陷阱

由于这些都是比较新的技术，所以大多数企业需要利用现有资源进行测试，之后再进行大量的资本支出 (CapEx)。然而，如果没有对这些技术在企业中的应用进行合理的预算和人员培训，那么试点和测试工作将会以失败告终。同样，如果缺少完整的私有云部署，企业应当首先在其中实现大数据技术，然后再实现私有云。

最后，企业需要为私有云和大数据计划制定一个战略路线图。要获得成功的部署，则需要进行更多的分析 “工作”，这有可能会拖延处理过程。为了消除这种风险，应当采用一种迭代式的项目管理方法，以分阶段的方式部署到业务部门中，通过这种方法将这些技术部署到企业中。

结束语

云计算和大数据正步入我们的生活，因此我们的企业需要确定这些技术如何使公司受益，比如 CapEx 方面的成本节省或增强的处理功能。您的企业应当分别对这些系统进行测试，然后以迭代的方式将它们整合到企业中。这样，企业就可以实现出色的投资回报，为未来发展做好准备。

推荐阅读

main
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
split
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
split
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
main
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
tree
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
split
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
split
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
split
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
spring
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
spring
Java时代的淘宝技术演进

本文探讨了2012年4月期间，淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型，以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]

蜡笔小新 2024-12-24 12:12:13
spring
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
spring
深入理解 org.apache.hadoop.ha.HAServiceTarget 的 checkFencingConfigured 方法

本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法，包括其功能、应用场景及代码示例。通过实际代码片段，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-22 18:28:35
spring
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
split
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
split
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13

ya的sky

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章