作者:gigi-dd | 来源:互联网 | 2023-08-29 09:40
数据采集ETL工具Elasticsearch-datatranv6.3.6发布,本版本提供大家期待已久的记录切割功能和ftp文件下载采集功能。Elasticsearch-datatran由bboss开源的数据采集同步ETL工具,提供数据采集、数据处理清洗
Linux基金会开源软件学园人才激励计划来了,免费培训+考试机会等你报名!>>>>>
数据采集ETL工具 Elasticsearch-datatran v6.3.6 发布,本版本提供大家期待已久的记录切割功能和ftp文件下载采集功能。
Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据处理清洗和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、 Mongodb 、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据同步;支持本地/ftp日志文件实时增量采集到kafka/elasticsearch/database。
Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,+)之间相互数据迁移
v6.3.6 变更记录
- 数据同步改进:增加记录切割功能,可以将指定的字段拆分为多条新记录,新产生的记录会自动继承原记录其他字段数据,亦可以指定覆盖原记录字段值
-
数据同步功能:扩展filelog插件,增加对ftp日志文件下载采集支持,支持实时监听下载ftp目录下生成的日志文件,将ftp文件中的数据采集写入elasticsearch、数据库、推送kafka、写入新的日志文件,参考案例: FtpLog2ESETLScheduleDemo.java FtpLog2ESDemo
-
数据同步功能:支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件
-
数据同步功能:提供自定义处理采集数据功能,可以自行将采集的数据按照自己的要求进行处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,有自己实现CustomOutPut接口处理即可
FileLog2DummyExportBuilder importBuilder = new FileLog2DummyExportBuilder();
//自己处理数据
importBuilder.setCustomOutPut(new CustomOutPut() {
@Override
public void handleData(TaskContext taskContext, List<CommonRecord> datas) {
//You can do any thing here for datas
for(CommonRecord record:datas){
Map<String,Object> data = record.getDatas();
logger.info(SimpleStringUtil.object2json(data));
}
}
});
自定义处理采集数据功能典型的应用场景就是对接大数据流处理,直接将采集的数据交给一些流处理框架,譬如与我们内部自己开发的大数据流处理框架对接,效果简直不要不要的,哈哈。
采集日志文件自定义处理案例
bboss数据采集ETL案例大全
https://esdoc.bbossgroups.com/#/bboss-datasyn-demo
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 我们