热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据采集ETL工具Elasticsearch-datatranv6.3.6发布

数据采集ETL工具Elasticsearch-datatranv6.3.6发布,本版本提供大家期待已久的记录切割功能和ftp文件下载采集功能。Elasticsearch-datatran由bboss开源的数据采集同步ETL工具,提供数据采集、数据处理清洗
Linux基金会开源软件学园人才激励计划来了,免费培训+考试机会等你报名!>>>>> 数据采集 ETL 工具 Elasticsearch-datatran v6.3.6 发布

数据采集ETL工具 Elasticsearch-datatran v6.3.6 发布,本版本提供大家期待已久的记录切割功能ftp文件下载采集功能

Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据处理清洗和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、 Mongodb 、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据同步;支持本地/ftp日志文件实时增量采集到kafka/elasticsearch/database

Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,+)之间相互数据迁移

数据采集 ETL 工具 Elasticsearch-datatran v6.3.6 发布

v6.3.6 变更记录

  1. 数据同步改进:增加记录切割功能,可以将指定的字段拆分为多条新记录,新产生的记录会自动继承原记录其他字段数据,亦可以指定覆盖原记录字段值
  2. 数据同步功能:扩展filelog插件,增加对ftp日志文件下载采集支持,支持实时监听下载ftp目录下生成的日志文件,将ftp文件中的数据采集写入elasticsearch、数据库、推送kafka、写入新的日志文件,参考案例: FtpLog2ESETLScheduleDemo.java FtpLog2ESDemo

数据采集 ETL 工具 Elasticsearch-datatran v6.3.6 发布

  1. 数据同步功能:支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件

  2. 数据同步功能:提供自定义处理采集数据功能,可以自行将采集的数据按照自己的要求进行处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,有自己实现CustomOutPut接口处理即可

FileLog2DummyExportBuilder importBuilder = new FileLog2DummyExportBuilder();
//自己处理数据
importBuilder.setCustomOutPut(new CustomOutPut() {
   @Override
   public void handleData(TaskContext taskContext, List<CommonRecord> datas) {

      //You can do any thing here for datas
      for(CommonRecord record:datas){
         Map<String,Object> data = record.getDatas();
         logger.info(SimpleStringUtil.object2json(data));
      }
   }
});

自定义处理采集数据功能典型的应用场景就是对接大数据流处理,直接将采集的数据交给一些流处理框架,譬如与我们内部自己开发的大数据流处理框架对接,效果简直不要不要的,哈哈。

采集日志文件自定义处理案例

bboss数据采集ETL案例大全

https://esdoc.bbossgroups.com/#/bboss-datasyn-demo


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 我们


推荐阅读
  • Hadoop——Hive简介和环境配置
    一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • Oracle10g备份导入的方法及注意事项
    本文介绍了使用Oracle10g进行备份导入的方法及相关注意事项,同时还介绍了2019年独角兽企业重金招聘Python工程师的标准。内容包括导出exp命令、删用户、创建数据库、授权等操作,以及导入imp命令的使用。详细介绍了导入时的参数设置,如full、ignore、buffer、commit、feedback等。转载来源于https://my.oschina.net/u/1767754/blog/377593。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 我们有(据我所知)星型模式SQL数据库中的数据文件。该数据库有5个不同的文件,扩展名为 ... [详细]
  • 本文介绍了一个误删Oracle数据文件导致数据库无法打开的问题,并提供了解决方式。解决方式包括切换到mount状态、离线删除报错的数据文件等。 ... [详细]
  • 在Oracle11g以前版本中的的DataGuard物理备用数据库,可以以只读的方式打开数据库,但此时MediaRecovery利用日志进行数据同步的过 ... [详细]
  • RMAN中的不完整恢复是指通过还原所有数据文件将整个数据库回退,然后执行不完全恢复的操作。不完整恢复的场景包括完整恢复不可行或故意要丢失数据。完整恢复需要备份后生成的所有归档日志和联机重做日志,而如果这些日志缺失或损坏,恢复将在该点停止。决定故意丢失数据是在用户错误发生后采取的行动,例如忘了where条件导致整个表受影响。对于已提交的事务来说,这样的更改是不可逆的。 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • 黄东旭: 关于基础软件产品价值的思考
    黄东旭:关于基础软件产品价值的思考-好久没写东西了,正好趁着春节的节后综合症发作写写文章热身一下,记得前几年偶尔会写一些关于TiDB产品功能解读的文章,TiDB5.0发了那么长时间 ... [详细]
author-avatar
gigi-dd
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有