热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

对象存储与Hadoop、OpenStack的整合

对象存储初创公司Scality将其存储添加到Hadoop,使用户可避免通过Hadoop自己的文件系统加载数据。他们还推出了一款针对Cinder——在OpenStack项目里面的块存储层的插件。RING是基于一组X86服务器节点的对象存储基础架构,存储对象而不是文件或块,而且可以

对象存储初创公司Scality将其存储添加到Hadoop,使用户可避免通过Hadoop自己的文件系统加载数据。他们还推出了一款针对Cinder——在OpenStack项目里面的块存储层的插件。

RING是基于一组X86服务器节点的对象存储基础架构,存储对象而不是文件或块,而且可以并行操作。

Scality提供的一个被称为“生产级Hadoop存储实施”使用了CDMI——由SNIA开发和推广的面向云计算数据管理的云存储标准。CDMI开始缓慢被供应商支持但处于回升的步伐。

Scality已经使用自己的元数据架构替换了Hadoop命名节点(Name Node)服务器,从而消除了Hadoop架构中的单点故障。该公司表示,其Hadoop实现可以在存储节点自身上面适当的处理、计算,并通过与作业跟踪共享数据位置显著地降低了数据传输的需求。

Scality表示,其RING的擦除编码意味着省去了由于复制产生的任何Hadoop硬件开销。另外“用户可以通过一个标准的文件系统写入和读取文件,并在相同的时间用Hadoop处理过程,而不需要通过HDFS(Hadoop分布式文件系统)加载文件”。

Scality公司首席执行官Jerome Lecat说:“我们已经贡献我们的Hadoop解决方案到CDMI社区,确保它可以与任何的CDMI兼容存储一起使用。...我们的CDMI框架(framework)可以直接从我们的向外扩展(scale-out)文件系统读取数据,没有必要在执行一个MapReduce作业之前做HDFS获取。“

Scality的产品兼容、并且已经与Hortonworks HDP 1.0和Cloudera CDH4测试过——没有显现出Scality正在寻求替代或者与现有的Hadoop发行版竞争。通过添加一个RING后端,在某种程度上,Scality 表示它提供了一个更具成本效益、更容易使用、更有弹性和更高性能的Hadoop基??础设施,同时用户从Scality的SOFS(Scale-Out文件系统)中受益。

Lecat表示:“我们的角度是,我们认为人们想要做到在“普通”的数据上进行Hadoop工作,不只是他们特别为Hadoop准备的(数据)。在我的印象中,这对于Hadoop是非常有价值的,但它被事实扼杀了,人们需要在任何MapReduce作业之前做一个HDFS摄取。由于我们不再需要这样了。”

Lecat说:“试想一下,如果你现在使用MapReduce你可以做什么——这是工作在存储节点上的——去做数据转换,如新的编码,作为一个新的版本得出结果,这节省了大量的处理时间。它在以前需要将数据从存储移动到服务器,进行转换然后写回存储。”

OpenStack对象存储

OpenStack是一个云或基础设施即服务(IaaS),基于免费的、开放源码的软件来控制在数据中心里的计算,存储和网络资源池,用户通过一个门户自助分配,而管理人员通过仪表盘(dashboard)管理整个群。Rackspace和许多其他供应商都积极和大声支持OpenStack。现在Scality也来凑热闹。

Cinder是对在OpenStack中的一个块存储层的代码名称,它使虚拟机(VM)发现和使用持久的块级卷,而Scality针对它提供了一个RING插件。 Lecat表示:“这个贡献使OpenStack的采用者追赶上了亚马逊针对虚拟机的EBS持久卷。随着Grizzly(版本)释放,OpenStack 计算将有一个存储伙伴,部署在有高需求的云计算环境,这将提高OpenStack在市场上的采用率。”

Scality并不孤单。Coraid公司也提供了ATA-over-以太网(AOE)和Coraid EtherCloud的驱动程序到OpenStack的Cinder块存储开源项目,所以OpenStackers可以使用其存储阵列作为块存储。全闪存 “云”存储阵列初创厂商SolidFire做了同样的事情,它现在已经参与了Cinder项目好几年。Coraid声称,传统的存储供应商如 NetApp、EMC、惠普和戴尔等在他们的OpenStack驱动程序中只完成了部分功能,而他们已经作为一个企业赞助商加入OpenStack社区。

针对OpenStack的RING通过向外扩展文件系统(SOFS)封装提供了一个POSIX文件接口。Scality叙述道:

Cinder整合是建立在Scality的嵌入在SOFS中分布式的稀疏文件技术。每个Cinder卷实际上是在Scality Scale-Out存储里面的一个文件。这确保了简便的管理、无缝的可扩展性,并提供了像在计算节点硬件故障的情况下,实时迁移虚拟机和即时故障转移这样的先进虚拟化功能。

Scality的产品战略总监Philippe Nicolas表示:“这个块存储接口完成了我们的统一存储战略。Scality是实际交付承诺的真实和完整的统一存储访问,包括对象、文件和块的第一批厂商之一。”


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • 精选10款Python框架助力并行与分布式机器学习
    随着神经网络模型的不断深化和复杂化,训练这些模型变得愈发具有挑战性,不仅需要处理大量的权重,还必须克服内存限制等问题。本文将介绍10款优秀的Python框架,帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
author-avatar
我是王健值得信赖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有