DataX和kettle初步认识

作者：阿里根本_436 | 来源：互联网 | 2023-08-26 20:42

文章目录DataX和kettle初步了解DataXDataX特点DataX结构模式（框架插件）Kettlekettle的优点：DataX和

文章目录

DataX和kettle初步了解
- DataX
- - DataX特点
  - DataX结构模式&＃xff08;框架&＃43;插件&＃xff09;
- Kettle
- - kettle的优点&＃xff1a;
DataX和kettle对比
- 参考

DataX和kettle初步了解

DataX

DataX 是一个异构数据源离线同步工具&＃xff0c;致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。&＃xff08;摘自百科&＃xff09;

DataX是淘宝开源的数据导入导出的工具&＃xff0c;支持HDFS集群与各种关系型数据库之间的数据交换。

我们希望在一个很短的时间窗口内&＃xff0c;将一份数据从一个数据库同时导出到多个不同类型的数据库。 DataX正是为了解决这些问题而生。

DataX特点

在异构的数据库/文件系统之间高速交换数据
采用Framework &＃43; plugin架构构建&＃xff0c;Framework处理了缓冲&＃xff0c;流控&＃xff0c;并发&＃xff0c;上下文加载等高速数据交换的大部分技术问题&＃xff0c;提供了简单的接口与插件交互&＃xff0c;插件仅需实现对数据处理系统的访问
运行模式&＃xff1a;stand-alone
数据传输过程在单进程内完成&＃xff0c;全内存操作&＃xff0c;不读写磁盘&＃xff0c;也没有IPC
开放式的框架&＃xff0c;开发者可以在极短的时间开发一个新插件以快速支持新的数据库/文件系统。&＃xff08;具体参见《DataX插件开发指南》&＃xff09;

DataX结构模式&＃xff08;框架&＃43;插件&＃xff09;

Job: 一道数据同步作业
Splitter: 作业切分模块&＃xff0c;将一个大任务与分解成多个可以并发的小任务.
Sub-job&＃xff1a; 数据同步作业切分后的小任务
Reader(Loader): 数据读入模块&＃xff0c;负责运行切分后的小任务&＃xff0c;将数据从源头装载入DataX
Storage: Reader和Writer通过Storage交换数据
Writer(Dumper): 数据写出模块&＃xff0c;负责将数据从DataX导入至目的数据地

DataX框架内部通过双缓冲队列、线程池封装等技术&＃xff0c;集中处理了高速数据交换遇到的问题&＃xff0c;提供简单的接口与插件交互&＃xff0c;插件分为Reader和Writer两类&＃xff0c;基于框架提供的插件接口&＃xff0c;可以十分便捷的开发出需要的插件。比如想要从oracle导出数据到mysql&＃xff0c;那么需要做的就是开发出OracleReader和MysqlWriter插件&＃xff0c;装配到框架上即可。并且这样的插件一般情况下在其他数据交换场合是可以通用的。

Kettle

Kettle是一款国外开源的ETL工具&＃xff0c;纯java编写&＃xff0c;可以在Window、Linux、Unix上运行&＃xff0c;数据抽取高效稳定。&＃xff08;摘自百科&＃xff09;

Kettle 中文名称叫水壶&＃xff0c;该项目的主程序员MATT 希望把各种数据放到一个壶里&＃xff0c;然后以一种指定的格式流出。
Kettle这个ETL工具集&＃xff0c;它允许你管理来自不同数据库的数据&＃xff0c;通过提供一个图形化的用户环境来描述你想做什么&＃xff0c;而不是你想怎么做。
Kettle中有两种脚本文件&＃xff0c;transformation和job&＃xff0c;transformation完成针对数据的基础转换&＃xff0c;job则完成整个工作流的控制。

kettle的优点&＃xff1a;

1.可视化界面。一个可视化界面足以成为选择kettle的首要原因。毕竟&＃xff0c;可视化意味着更方便人的使用。
2.元数据库。元数据库用来保存kettle任务的元信息&＃xff0c;方便管理任务&＃xff0c;通常叫做资源库&＃xff08; repository &＃xff09;。
3.自带工作流并且支持增量抽取。
4.可以配置成一套逻辑。例如&＃xff1a;抽取数据时&＃xff0c;目标表不存在则插入&＃xff0c;存在则更新&＃xff0c;而目标表中存在并且数据源中不存在的&＃xff0c;可以删除

kettle的job中可以嵌套job&＃xff0c;job中嵌套t ransformation&＃xff0c; t ransformation中嵌套job等&＃xff0c;可以满足非常复杂的任务场景。

DataX和kettle对比

1&＃xff09;Kettle拥有自己的管理控制台&＃xff0c;可以直接在客户端进行etl任务制定&＃xff0c;不过是CS架构&＃xff0c;而不支持BS浏览器模式。DataX并没有界面&＃xff0c;界面完全需要自己开发&＃xff0c;增加了很大工作量。
2&＃xff09;Kettle可以与我们自己的工程进行集成&＃xff0c;通过JAVA代码集成即可&＃xff0c;可以在java中调用kettle的转换、执行、结束等动作&＃xff0c;这个还是有意义的&＃xff0c;而DataX是不支持的&＃xff0c;DataX是以执行脚本的方式运行任务的&＃xff0c;当然完全吃透源码的情况下&＃xff0c;应该也是可以调用的。
3&＃xff09;支持的数据库&＃xff0c;都支持的比较齐全&＃xff0c;kettle支持的应该更多&＃xff0c;DataX是阿里开发&＃xff0c;可以更好地支持阿里自身的数据库系列&＃xff0c;如ODPS、ADS等
4&＃xff09;Kettle已经加入BI组织Pentaho&＃xff0c;加入后kettle的开发粒度和被关注度更进一步提升
5&＃xff09;DataX开源的支持粒度不高&＃xff0c;关注度远没有kettle高&＃xff0c;代码提交次数更是少的很。
6&＃xff09; 根据网上参考信息&＃xff0c;网友测试 kettle全量抽取较大数据量时&＃xff0c;抽取时间长&＃xff0c;对比测试 datax比kettle快。
7) Datax的工作流需要依托于调度工具的流&＃xff0c;本身并不具备工作流特性。

参考

阿里出品的ETL工具dataX初体验
参考URL: https://blog.csdn.net/shudaqi2010/article/details/79247468
淘宝DataX 数据交换机制学习总结
参考URL: https://blog.csdn.net/w83304911/article/details/50066641
离线数据同步神器&＃xff1a;DataX&＃xff0c;支持几乎所有异构数据源的离线同步到MaxCompute
https://yq.aliyun.com/articles/664118
datax源码分析&＃xff08;一&＃xff09;
参考URL: https://blog.csdn.net/chenqu108/article/details/79803718
Datax源码学习
参考URL: https://blog.csdn.net/shuitawuhen/article/details/41944289
[推荐]DataX二次开发小记
参考URL: https://cloud.tencent.com/developer/news/328376
ETL 之初识 Datax
参考URL: https://www.codercto.com/a/45069.html

推荐阅读

并发
2015年1月MySQL内核报告：深入解析性能优化与Group Commit改进

在2015年1月的MySQL内核报告中，我们详细探讨了性能优化和Group Commit机制的改进。尽管网上已有大量关于Group Commit的资料，本文将简要回顾其发展，并重点分析MySQL 5.6及之前版本中引入的二进制日志（Binlog）对性能的影响。此外，我们还将深入讨论最新的优化措施，如何通过改进Group Commit机制显著提升系统的整体性能和稳定性。 ... [详细]

蜡笔小新 2024-11-07 21:02:51
java
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
int
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
int
Oracle 数据库自动备份及安装步骤详解

本文详细介绍了 Oracle 数据库的自动备份机制及其安装步骤。通过具体示例，解释了系统变更号（SCN）和块结构在备份过程中的作用，以及热备份恢复的具体步骤。 ... [详细]

蜡笔小新 2024-11-14 15:15:15
int
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
python
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
byte
性能测试中的关键监控指标与深入分析

在软件性能测试中，关键监控指标的选取至关重要。主要目的包括：1. 评估系统的当前性能，确保其符合预期的性能标准；2. 发现软件性能瓶颈，定位潜在问题；3. 优化系统性能，提高用户体验。通过综合分析这些指标，可以全面了解系统的运行状态，为后续的性能改进提供科学依据。 ... [详细]

蜡笔小新 2024-11-11 01:42:16
web
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
python
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
int
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
python
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
header
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
java
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30

阿里根本_436

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章