ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。最近在弄ETL方向的研究,到时也和大家分享一下成果。
ETL实现方案有很多,可以通过编码开发方式,也可以通过成熟可视化框架。如果没有编程基础,定制化要求不高,可考虑用一些成熟产品框架。如:
-
Kettle
-
DataPipeline
-
Talend
-
Informatica
-
Datax
当然,我们也可以通过编码来实现,如java、python、go、scala等开发语言,再配合一些技术框架,如flink、flume、kafka、hadoop、spark等等。
这次我自己主要做技术研究为主,所以两个方向都有去研究。发现坑还是挺多的,特别是一些环境安装与部署。这次我主要安装flink和kettle的环境,发现有些安装包还是没有那么容易找到,所以分享给大家,大家有需要的话,可以拿去参考。
这次给大家分享一下相应的工具包,如下:
1 | kettle spoon 8.2 | 2020082106 |
2 | flink-1.9.1-bin-scala_2.12 | 2020082107 |
3 | kettle spoon data-integration | 2020082108 |
4 | flink-1.9.1-bin-scala_2.11 | 2020082109 |
5 | kettle pdi-ce-9.0.0.0-423 | 2020082110 |
可关注本人公众号,回复相应关键编号进行获取,如回复“2020082106”,获取kettle spoon 8.2的下载链接。
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
CSDN博客地址:https://blog.csdn.net/ispeasant