热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

阿里云云原生数据湖体系全解读——数据湖存储JindoDistCp数据导入

数据湖就像是一个“大水池”,是一种把各类异构数据进行集中存储的架构。数据湖是一种存储架构,在阿里云上可以利用OSS对象存储


数据湖就像是一个“ 大水池” , 是一种把各类异构数据进行集中存储的架构。 数据湖是一种存储架构, 在阿里云上可以利用 OSS 对象存储, 来当数据湖的地基。 企业基于阿里云服务, 可以快速挖出一个适合自己的"湖", 而且这个"湖"根据需求, 可大可小, 按"注水量"付费。 在挖好这个"湖"后, 重要的步骤就是如何把各种异构数据注入到湖里。 在传统的大数据领域用户经常使用 HDFS 作为异构数据的底层存储来储存大量的数据, 其中大部分可通过离线数据迁移来注入到以 OSS 作为底层存储的数据湖中。 在进行数据迁移、 数据拷贝的场景中, 大家选择最常用的离线数据迁移工具是 Hadoop 自带的 DistCp 工具, 但是它不能很好利用对象存储系统如 OSS 的特性, 导致效率低下并且不能最终保证一致性, 提供的功能选项也比较简单, 不能很好的满足用户的需求。 此时一个高效、 功能丰富的离线数据迁移工具成为影响离线数据入湖效率的重要因素。
随着阿里云 JindoFS SDK 的全面放开使用, 基于 JindoFS SDK 的数据湖离线数据迁移利器 JindoDistCp 现在也全面面向用户开放使用。 JindoDistCp 是阿里云E-MapReduce 团队开发的大规模集群内部和集群之间分布式文件拷贝的工具。 它使用MapReduce 实现文件分发, 错误处理和恢复, 把文件和目录的列表作为 map/reduce 任务的输入, 每个任务会完成源列表中部分文件的拷贝。 目前全面支持 HDFS/S3/OSS 之间的数据拷贝场景, 提供多种个性化拷贝参数和多种拷贝策略。 重点优化从 HDFS 和 S3 到数据湖底座 OSS 的数据拷贝场景, 通过定制化 CopyCommitter, 实现 No-Rename 拷贝, 并保证数据拷贝落地的一致性。 功能覆盖 S3DistCp 和 HadoopDistCp 的功能, 性能较 HadoopDistCp 有较大提升, 目标提供高效、 稳定、 安全的数据湖离线数据迁移工具。
本文主要介绍如何使用 JindoDistCp 来进行基本离线数据迁移, 以及如何在不同场景下提高离线数据迁移性能。 值得一提的是, 此前 JindoDistCp 仅限于 E-MapReduce 产品内部使用, 此次全方位面向整个阿里云 OSS/HDFS 用户放开, 并提供官方维护和支持技术,欢迎广大用户集成和使用。
在这里插入图片描述


HadoopDistCP

HadoopDistCp 是 Hadoop 集成的分布式数据迁移工具, 提供了基本文件拷贝、 覆盖拷贝、 指定 map 并行度、 log 输出路径等功能。 在 Hadoop2x 上对 DistCp 进行了部分优化例如拷贝策略的选择, 默认使用 uniformsize( 每个 map 会平衡文件大小) 如果指定dynamic, 则会使用 DynamicInputFormat。 这些功能优化了普通 hdfs 间数据拷贝, 但是对于对象存储系统如 OSS 缺少数据写入方面的优化。


S3DistCp

S3DistCp 是 AWS 为 S3 上存储提供的 distcp 工具, S3DistCp 是 HadoopDistCp的扩展, 它进行了优化使得其可以和 S3 结合使用, 并新增了一些实用功能。 新增功能如增量复制文件、 复制文件时指定压缩方式、 根据模式进行数据聚合、 按照文件清单进行拷贝等。


JindoDistCp

JindoDistCp 是一个简单易用的分布式文件拷贝工具, 目前主要用在 E-Mapreduce集群内, 主要提供 HDFS 和 S3 到 OSS 的数据迁移服务, 相比于 HadoopDistCp 和S3DistCp, JindoDistCp 做了很多优化以及新增了许多个性化功能, 并且深度结合 OSS对象存储的特性, 定制化 CopyCommitter, 实现 No-Rename 拷贝, 大大缩短离线数据入湖迁移时间消耗。


本文地址:https://blog.csdn.net/asmartkiller/article/details/108877516



推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)的特点,帮助读者理解不同存储方式的优势与局限性。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 本文详细记录了 MIT 6.824 课程中 MapReduce 实验的开发过程,包括环境搭建、实验步骤和具体实现方法。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件,并详细解释了 SequenceFile 的结构和用途。 ... [详细]
author-avatar
pigwangrq
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有