热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

阿里云云原生数据湖体系全解读——数据湖存储JindoDistCp数据导入

数据湖就像是一个“大水池”,是一种把各类异构数据进行集中存储的架构。数据湖是一种存储架构,在阿里云上可以利用OSS对象存储,来当数据湖的地基。企业基于阿里云服务,可以快速挖出一个适

数据湖就像是一个“ 大水池” , 是一种把各类异构数据进行集中存储的架构。 数据湖是一种存储架构, 在阿里云上可以利用 OSS 对象存储, 来当数据湖的地基。 企业基于阿里云服务, 可以快速挖出一个适合自己的"湖", 而且这个"湖"根据需求, 可大可小, 按"注水量"付费。 在挖好这个"湖"后, 重要的步骤就是如何把各种异构数据注入到湖里。 在传统的大数据领域用户经常使用 HDFS 作为异构数据的底层存储来储存大量的数据, 其中大部分可通过离线数据迁移来注入到以 OSS 作为底层存储的数据湖中。 在进行数据迁移、 数据拷贝的场景中, 大家选择最常用的离线数据迁移工具是 Hadoop 自带的 DistCp 工具, 但是它不能很好利用对象存储系统如 OSS 的特性, 导致效率低下并且不能最终保证一致性, 提供的功能选项也比较简单, 不能很好的满足用户的需求。 此时一个高效、 功能丰富的离线数据迁移工具成为影响离线数据入湖效率的重要因素。
随着阿里云 JindoFS SDK 的全面放开使用, 基于 JindoFS SDK 的数据湖离线数据迁移利器 JindoDistCp 现在也全面面向用户开放使用。 JindoDistCp 是阿里云E-MapReduce 团队开发的大规模集群内部和集群之间分布式文件拷贝的工具。 它使用MapReduce 实现文件分发, 错误处理和恢复, 把文件和目录的列表作为 map/reduce 任务的输入, 每个任务会完成源列表中部分文件的拷贝。 目前全面支持 HDFS/S3/OSS 之间的数据拷贝场景, 提供多种个性化拷贝参数和多种拷贝策略。 重点优化从 HDFS 和 S3 到数据湖底座 OSS 的数据拷贝场景, 通过定制化 CopyCommitter, 实现 No-Rename 拷贝, 并保证数据拷贝落地的一致性。 功能覆盖 S3DistCp 和 HadoopDistCp 的功能, 性能较 HadoopDistCp 有较大提升, 目标提供高效、 稳定、 安全的数据湖离线数据迁移工具。
本文主要介绍如何使用 JindoDistCp 来进行基本离线数据迁移, 以及如何在不同场景下提高离线数据迁移性能。 值得一提的是, 此前 JindoDistCp 仅限于 E-MapReduce 产品内部使用, 此次全方位面向整个阿里云 OSS/HDFS 用户放开, 并提供官方维护和支持技术,欢迎广大用户集成和使用。
阿里云云原生数据湖体系全解读——数据湖存储JindoDistCp 数据导入

HadoopDistCP

HadoopDistCp 是 Hadoop 集成的分布式数据迁移工具, 提供了基本文件拷贝、 覆盖拷贝、 指定 map 并行度、 log 输出路径等功能。 在 Hadoop2x 上对 DistCp 进行了部分优化例如拷贝策略的选择, 默认使用 uniformsize( 每个 map 会平衡文件大小) 如果指定dynamic, 则会使用 DynamicInputFormat。 这些功能优化了普通 hdfs 间数据拷贝, 但是对于对象存储系统如 OSS 缺少数据写入方面的优化。

S3DistCp

S3DistCp 是 AWS 为 S3 上存储提供的 distcp 工具, S3DistCp 是 HadoopDistCp的扩展, 它进行了优化使得其可以和 S3 结合使用, 并新增了一些实用功能。 新增功能如增量复制文件、 复制文件时指定压缩方式、 根据模式进行数据聚合、 按照文件清单进行拷贝等。

JindoDistCp

JindoDistCp 是一个简单易用的分布式文件拷贝工具, 目前主要用在 E-Mapreduce集群内, 主要提供 HDFS 和 S3 到 OSS 的数据迁移服务, 相比于 HadoopDistCp 和S3DistCp, JindoDistCp 做了很多优化以及新增了许多个性化功能, 并且深度结合 OSS对象存储的特性, 定制化 CopyCommitter, 实现 No-Rename 拷贝, 大大缩短离线数据入湖迁移时间消耗。


推荐阅读
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量,或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频,只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量,只有使用JAVA编写Android客户端才能实现压缩。此外,作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因,并提供了解决方法。最后,作者还介绍了一个用于处理图片的类,可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了OkHttp3的基本使用和特性,包括支持HTTP/2、连接池、GZIP压缩、缓存等功能。同时还提到了OkHttp3的适用平台和源码阅读计划。文章还介绍了OkHttp3的请求/响应API的设计和使用方式,包括阻塞式的同步请求和带回调的异步请求。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • [翻译]微服务设计模式5. 服务发现服务端服务发现
    服务之间需要互相调用,在单体架构中,服务之间的互相调用直接通过编程语言层面的方法调用就搞定了。在传统的分布式应用的部署中,服务地 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文详细说明了在JavaScript中解决alert弹出窗口文本换行问题的方法。通过给alert弹出的文本添加换行符,可以实现在弹窗中显示多行文本的效果。同时,提供了相关代码示例和注意事项,帮助读者更好地理解和应用这一解决方法。 ... [详细]
author-avatar
手机用户2502920645
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有