热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DataXFtpWriter

DataXFtpWriter说明1快速介绍FtpWriter提供了向远程FTP文件写入CSV格式的一个或者多个文件,在底层实现上,FtpWriter将

DataX FtpWriter 说明




1 快速介绍

FtpWriter提供了向远程FTP文件写入CSV格式的一个或者多个文件,在底层实现上,FtpWriter将DataX传输协议下的数据转换为csv格式,并使用FTP相关的网络协议写出到远程FTP服务器。

写入FTP文件内容存放的是一张逻辑意义上的二维表,例如CSV格式的文本信息。


2 功能与限制

FtpWriter实现了从DataX协议转为FTP文件功能,FTP文件本身是无结构化数据存储,FtpWriter如下几个方面约定:


  1. 支持且仅支持写入文本类型(不支持BLOB如视频数据)的文件,且要求文本中shema为一张二维表。

  2. 支持类CSV格式文件,自定义分隔符。

  3. 写出时不支持文本压缩。

  4. 支持多线程写入,每个线程写入不同子文件。

我们不能做到:


  1. 单个文件不能支持并发写入。

3 功能说明


3.1 配置样例

{"setting": {},"job": {"setting": {"speed": {"channel": 2}},"content": [{"reader": {},"writer": {"name": "ftpwriter","parameter": {"protocol": "sftp","host": "***","port": 22,"username": "xxx","password": "xxx","timeout": "60000","connectPattern": "PASV","path": "/tmp/data/","fileName": "yixiao","writeMode": "truncate|append|nonConflict","fieldDelimiter": ",","encoding": "UTF-8","nullFormat": "null","dateFormat": "yyyy-MM-dd","fileFormat": "csv","header": []}}}]}
}

3.2 参数说明


  • protocol

    • 描述:ftp服务器协议,目前支持传输协议有ftp和sftp。

    • 必选:是

    • 默认值:无

  • host

    • 描述:ftp服务器地址。

    • 必选:是

    • 默认值:无

  • port

    • 描述:ftp服务器端口。

    • 必选:否

    • 默认值:若传输协议是sftp协议,默认值是22;若传输协议是标准ftp协议,默认值是21

  • timeout

    • 描述:连接ftp服务器连接超时时间,单位毫秒。

    • 必选:否

    • 默认值:60000(1分钟)

  • username

    • 描述:ftp服务器访问用户名。

    • 必选:是

    • 默认值:无

  • password

    • 描述:ftp服务器访问密码。

    • 必选:是

    • 默认值:无

  • path

    • 描述:FTP文件系统的路径信息,FtpWriter会写入Path目录下属多个文件。

    • 必选:是

    • 默认值:无

  • fileName

    • 描述:FtpWriter写入的文件名,该文件名会添加随机的后缀作为每个线程写入实际文件名。

    • 必选:是

    • 默认值:无

  • writeMode

    • 描述:FtpWriter写入前数据清理处理模式:

      • truncate,写入前清理目录下一fileName前缀的所有文件。
      • append,写入前不做任何处理,DataX FtpWriter直接使用filename写入,并保证文件名不冲突。
      • nonConflict,如果目录下有fileName前缀的文件,直接报错。
    • 必选:是

    • 默认值:无

  • fieldDelimiter

    • 描述:读取的字段分隔符

    • 必选:否

    • 默认值:,

  • compress

    • 描述:文本压缩类型,暂时不支持。

    • 必选:否

    • 默认值:无压缩

  • encoding

    • 描述:读取文件的编码配置。

    • 必选:否

    • 默认值:utf-8

  • nullFormat

    • 描述:文本文件中无法使用标准字符串定义null(空指针),DataX提供nullFormat定义哪些字符串可以表示为null。

      例如如果用户配置: nullFormat="\N",那么如果源头数据是"\N",DataX视作null字段。

    • 必选:否

    • 默认值:\N

  • dateFormat

    • 描述:日期类型的数据序列化到文件中时的格式,例如 “dateFormat”: “yyyy-MM-dd”。

    • 必选:否

    • 默认值:无

  • fileFormat

    • 描述:文件写出的格式,包括csv (http://zh.wikipedia.org/wiki/逗号分隔值) 和text两种,csv是严格的csv格式,如果待写数据包括列分隔符,则会按照csv的转义语法转义,转义符号为双引号";text格式是用列分隔符简单分割待写数据,对于待写数据包括列分隔符情况下不做转义。

    • 必选:否

    • 默认值:text

  • header

    • 描述:txt写出时的表头,示例[‘id’, ‘name’, ‘age’]。

    • 必选:否

    • 默认值:无


3.3 类型转换

FTP文件本身不提供数据类型,该类型是DataX FtpWriter定义:


DataX 内部类型FTP文件 数据类型
LongLong -> 字符串序列化表示
DoubleDouble -> 字符串序列化表示
StringString -> 字符串序列化表示
BooleanBoolean -> 字符串序列化表示
DateDate -> 字符串序列化表示

其中:


  • FTP文件 Long是指FTP文件文本中使用整形的字符串表示形式,例如"19901219"。
  • FTP文件 Double是指FTP文件文本中使用Double的字符串表示形式,例如"3.1415"。
  • FTP文件 Boolean是指FTP文件文本中使用Boolean的字符串表示形式,例如"true"、“false”。不区分大小写。
  • FTP文件 Date是指FTP文件文本中使用Date的字符串表示形式,例如"2014-12-31",Date可以指定format格式。

4 性能报告


5 约束限制


6 FAQ


推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 本文详细介绍了解决全栈跨域问题的方法及步骤,包括添加权限、设置Access-Control-Allow-Origin、白名单等。通过这些操作,可以实现在不同服务器上的数据访问,并解决后台报错问题。同时,还提供了解决second页面访问数据的方法。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 本文介绍了在mac环境下使用nginx配置nodejs代理服务器的步骤,包括安装nginx、创建目录和文件、配置代理的域名和日志记录等。 ... [详细]
  • Android开发实现的计时器功能示例
    本文分享了Android开发实现的计时器功能示例,包括效果图、布局和按钮的使用。通过使用Chronometer控件,可以实现计时器功能。该示例适用于Android平台,供开发者参考。 ... [详细]
  • 前端性能优化无损压缩webp格式的图片
    一、什么是webpWebP格式,谷歌开发的一种旨在加快图片加载速度的图片格式。图片压缩体积大约只有JPEG的23,并能节省大量的服务器宽带资源和数据空 ... [详细]
  • WebSocket与Socket.io的理解
    WebSocketprotocol是HTML5一种新的协议。它的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话,属于服务器推送 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
author-avatar
KING逊咖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有