热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

干货|ApacheOzone和密集型数据节点

ApacheOzone是CDP中引入的主要创新之一,该CDP为大数据应用程序提供了下一代存储体系结构,在该体系结构中,数据块在存储容器中进行组织以实现更大

点击“Cloudera中国” 即可订阅!

本文转载自大数据杂货铺

该帖子也是由两名思科员工共同撰写的:Karthik Krishna,Silesh Bijjahalli

当今的企业数据分析团队不断寻求从平台中获得最大收益。存储在数据平台策略中扮演着最重要的角色,存储为在其之上构建所有计算引擎和应用程序提供了基础。企业还希望转向可提供密集存储以及可靠性、可扩展性和性能的横向扩展存储模型。Cloudera和Cisco已在密集型存储节点上一起进行了测试,以实现这一目标。 

Cloudera已与Cisco合作,帮助构建适用于Apache Ozone的Cisco验证设计(CVD)。此CVD使用Cisco UCS S3260 M5机架服务器上的Cloudera Data Platform Private Cloud Base 7.1.5构建,Apache Ozone作为CDP的分布式文件系统。

Apache Ozone密集型的部署配置

Apache Ozone是CDP中引入的主要创新之一,该CDP为大数据应用程序提供了下一代存储体系结构,在该体系结构中,数据块在存储容器中进行组织以实现更大的规模并处理小对象。这是Apache Ozone如何在数据湖中大规模管理数据的主要体系结构增强。  

Apache Ozone结合了HDFS和对象存储的优点:

  • 克服HDFS的限制

    • 与HDFS相比,它可以支持数十亿个文件(已测试多达100亿个文件),而HDFS的可扩展性阈值为4亿个文件

    • 目前可以支持400 TB 节点,并有可能在以后的某个时间点支持1 PB 节点,而HDFS最多只能支持100 TB 节点。

    • 支持与HDFS不同的16TB驱动器,HDFS仅支持多达8 TB的驱动器

    • EB级数据规模

  • 克服对象存储限制

    • 与其他对象存储不同,Apache Ozone可以支持线性性能的大文件。像HDFS一样,Apache Ozone将文件分成较小的块(其他对象存储无法做到这一点,并且由于大文件是通过大多数对象存储中的单个节点提供服务的,因此线性处理大型文件不会降低性能),而这些较小的块从所有不同的Apache Ozone节点读取,从而实现线性性能,而文件大小不会造成任何性能问题,从而解决了对象存储中经常遇到的大文件问题。

  • 将控制平面和数据平面分开,以实现高性能。支持从多个副本中快速读取

  • 使用distcp等熟悉的工具,可以轻松地将HDFS中的数据迁移到Apache Ozone。Apache Ozone可处理大型文件和小型文件。 

  • Ozone使用recon提供了易于使用的监视和管理控制台

  • 从组件收集和聚合元数据并显示当前集群状态。

  • 集群中的元数据在组件之间是不相交的

  • 没有一个组件可以计算集群的整体状态。

  • 作为Ozone的用户/支持工程师,我可能要: 

    • 查看卷/存储桶/键/容器/管道/数据节点的详细信息。

    • 给定一个文件,找出它属于什么节点/管道。

    • 找出跨数据节点以及在数据节点的磁盘内的数据分布是否良好。

    • 找出我的文件块是否丢失(或复制不足)


  • 支持计算和存储分离

测试方法

大规模数据生成

编写了一个数据生成器工具来为Ozone创建虚假数据。它的工作原理是将合成文件系统条目直接写入Ozone的OM、SCM和DataNode RocksDB,然后在DataNode上写入伪造的数据块文件。这比使用应用程序或其他客户端写入实际数据快得多。通过在集群中的所有存储节点上并行运行此工具,我们可以在不到一天的时间内填满集群中的所有400TB节点。

使用此工具,我们能够生成大量数据并在密集存储硬件上对Ozone进行认证。我们对产品进行了几项增强,以改进、扩展规模和提高性能,以处理每个节点的高密度。

标准基准

我们在此测试设置上对Impala TPC-DS性能进行了基准测试。使用的查询模板和样本查询符合TPC-DS基准规范所制定的标准,并且仅包含规范的4.2.3节所规定的较小的查询修改(MQM)。所有这些脚本都可以在impala-tpcds-kit中找到。运行此基准测试时,Impala本地缓存已打开。该测试的结果表明,与使用HDFS作为文件系统运行的相同查询相比,有70%的查询的性能相匹配或有所提高。

故障处理

一个或多个密集节点的丢失会触发大量的复制流量。为了提高数据的持久性和可用性,重要的是应从硬件故障中快速恢复文件系统。Ozone包括优化以从密集节点的丢失中有效恢复,包括使用Apache Ozone的multi-RAFT功能来获得更好的数据分配,并避免复制在较少的节点上成为瓶颈。

Cloudera将发布带有性能基准测试结果的单独博客文章。

思科数据智能平台

思科数据智能平台(CDIP)是一种私有云体系结构,可满足未来数据湖的下一代混合云体系结构的需要,它将大数据、AI /计算场和存储层结合在一起,可以作为一个整体工作同时还能够独立扩展以解决现代数据中心中的IT问题。该体系结构允许:

  • 极快的数据提取,并在数据湖上完成数据工程

  • AI计算场允许不同类型的AI框架和计算类型(CPU、GPU、FPGA)处理此数据以进行进一步分析

  • 存储层,允许在$ / TB较低的存储密集型系统上将数据扩展到EB级,从而提供更好的TCO

  • 使用Cisco Application Centric基础架构(ACI)通过一个玻璃管理面板无缝地将体系结构扩展到数千个节点

该架构是三个最大的开源计划与Hadoop,Kubernetes和AI / ML融合的开始,很大程度上是由Cloudera Data Platform Private Cloud基础和Cloudera Data Platform Private Cloud经验引入的令人印象深刻的软件框架和技术驱动的处理大数据。 

思科UCS C240 M5机架服务器提供高密度,成本优化的本地存储,并为对象存储,Hadoop和大数据分析解决方案提供了广泛的基础架构灵活性。

该CVD为客户提供了进一步整合其数据湖的能力,每个数据节点的存储量更大。通过存储合并,Apache Ozone可带来以下成本节省和收益:

  • 降低基础设施成本

  • 降低软件许可和支持成本

  • 减少实验室的占地面积

  • 支持HDFS和S3的新的附加用例以及数十亿个对象以相似的方式支持大文件和小文件。

总结

具有Cloudera数据平台的CDIP私有云体验使客户能够独立扩展存储和计算资源,同时保持类似于上一代HDFS的数据本地性。它提供了具有低总体拥有成本(TCO)的EB级架构,以及采用Cloudera提供的最新一代技术的,面向未来的架构。

除此之外,CDIP还可以通过Cisco Intersight为整个基础架构提供一个单一的透明管理面板。

您可以在此处找到发布的Cisco验证设计文档。

原文作者:Karthik Krishnamoorthy& Ali Bajwa &Arpit Agarwal &Wei Chu &Marton Elek

原文链接:https://blog.cloudera.com/apache-ozone-and-dense-data-nodes/


Cloudera中国

更多资讯,点击阅读原文

长按扫码关注我们




推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍了如何在 Android 中使用值动画(ValueAnimator)来动态调整 ImageView 的高度,并探讨了相关的关键属性和方法,包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • PostgreSQL 最新动态 —— 2022年4月6日
    了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]
  • Spring Cloud学习指南:深入理解微服务架构
    本文介绍了微服务架构的基本概念及其在Spring Cloud中的实现。讨论了微服务架构的主要优势,如简化开发和维护、快速启动、灵活的技术栈选择以及按需扩展的能力。同时,也探讨了微服务架构面临的挑战,包括较高的运维要求、分布式系统的复杂性、接口调整的成本等问题。最后,文章提出了实施微服务时应遵循的设计原则。 ... [详细]
  • 热璞数据库与云宏达成兼容性互认证,共筑数据安全屏障
    热璞数据库与云宏信息技术有限公司近期宣布完成产品兼容性互认证,旨在提升数据安全性与稳定性,支持企业数字化转型。 ... [详细]
  • 收割机|篇幅_国内最牛逼的笔记,不接受反驳!!
    收割机|篇幅_国内最牛逼的笔记,不接受反驳!! ... [详细]
  • 利用GitHub热门资源,成功斩获阿里、京东、腾讯三巨头Offer
    Spring框架作为Java生态系统中的重要组成部分,因其强大的功能和灵活的扩展性,被广泛应用于各种规模的企业级应用开发中。本文将通过一份在GitHub上获得极高评价的Spring全家桶文档,探讨如何掌握Spring框架及其相关技术,助力职业发展。 ... [详细]
  • 在CentOS上构建Ntopng实时网络流量监控平台
    本文详细介绍了如何在CentOS操作系统上安装和配置Ntopng,一个强大的网络流量监控工具。Ntopng能够提供实时的网络流量分析,并通过Web界面展示详细的流量报告。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • docker镜像重启_docker怎么启动镜像dock ... [详细]
  • Spring Cloud Config 使用 Vault 作为配置存储
    本文探讨了如何在Spring Cloud Config中集成HashiCorp Vault作为配置存储解决方案,基于Spring Cloud Hoxton.RELEASE及Spring Boot 2.2.1.RELEASE版本。文章还提供了详细的配置示例和实践建议。 ... [详细]
author-avatar
我就是人家
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有