热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据集成工具——DataXDataXWeb

文章目录DataX的安装及使用1、Hive通过外部表与HBase表关联1)、hive建表语句:2)、hbase表3)、直接执

文章目录

  • DataX的安装及使用
    • 1、Hive通过外部表与HBase表关联
      • 1)、hive建表语句:
      • 2)、hbase表
      • 3)、直接执行查询语句:
    • 2、DataX的安装
    • 3、DataX的使用
      • 1)、stream2stream
        • ①、编写配置文件stream2stream.json
        • ②、执行同步任务
        • ③、执行结果
      • 2)、mysql2mysql
        • ①、编写配置文件mysql2mysql.json
        • ②、执行同步任务
      • 3)、mysql2hdfs
        • ①、编写配置文件mysql2hdfs.json
      • 4)、hbase2mysql
      • 5)、mysql2hbase
    • 4、DataX-web的安装(Java 8、支持Python3(默认Python2.7)、Mysql5.7)
      • ★★★注意★★★:一定要先配好java、python环境变量
      • 1)、使用idea同步源代码
      • 2)、在mysql5.1中新建dataxweb数据库
      • 3)、执行数据库初始化脚本
      • 4)、修改admin配置文件
      • 5)、启动DataX-Web-Admin
      • 6)、修改datax-web-executor配置文件
      • 7)、启动datax-web-executor
    • 5、DataX-Web的使用
      • 1)、新建数据源
      • 2)新建项目test1
      • 3)、新建任务模板
      • 4)、构建任务
      • 5)、添加hbase 数据源会报错,需要修改两个pom.xml文件(hbase1.4.6)


DataX的安装及使用

1、Hive通过外部表与HBase表关联


1)、hive建表语句:

// 第一个字段通常命名为key
CREATE EXTERNAL TABLE hivehbasetable(key INT,name STRING,age INT,gender STRING,clazz STRING,last_mod STRING
) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:name,cf1:age,cf1:gender,cf1:clazz,cf1:last_mod") TBLPROPERTIES("hbase.table.name" = "student");

2)、hbase表

create 'student','cf1'

image-20210126091858197.png

3)、直接执行查询语句:

select key,name from hivehbasetable limit 10;

image-20210126091923753.png

hbase外部表 不能使用sqoop直接导入数据,必须通过例如:insert into这样的形式导入

因为sqoop导入数据,使用的原理是load data,load data只能在表的存储格式为textfile时,才能真正将数据加载到表中


2、DataX的安装


DataX不需要依赖其他服务,直接上传、解压、安装、配置环境变量即可

也可以直接在windows上解压


3、DataX的使用


1)、stream2stream


①、编写配置文件stream2stream.json

# stream2stream.json
{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
}

②、执行同步任务

datax.py stream2stream.json

③、执行结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YukbL4UP-1611729176897)(https://i.loli.net/2021/01/26/3exW8mAlJ5jX4z7.png)]

2)、mysql2mysql


需要新建student2数据库,并创建student表


①、编写配置文件mysql2mysql.json

{"job": {"content": [{"reader": {"name": "mysqlreader","parameter": {"username": "root","password": "123456","column": ["id","name","age","gender","clazz","last_mod"],"splitPk": "age","connection": [{"table": ["student"],"jdbcUrl": ["jdbc:mysql://master:3306/student"]}]}},"writer": {"name": "mysqlwriter","parameter": {"writeMode": "insert","username": "root","password": "123456","column": ["id","name","age","gender","clazz","last_mod"],"preSql": ["truncate student2"], "connection": [{"jdbcUrl": "jdbc:mysql://master:3306/student2?useUnicode=true&characterEncoding=utf8","table": ["student2"]}]}}}],"setting": {"speed": {"channel": 6}}}
}

②、执行同步任务

datax.py mysql2mysql.json

3)、mysql2hdfs


写hive跟hdfs时一样的


①、编写配置文件mysql2hdfs.json

{"job": {"content": [{"reader": {"name": "mysqlreader","parameter": {"username": "root","password": "123456","column": ["id","name","age","gender","clazz","last_mod"],"splitPk": "age","connection": [{"table": ["student"],"jdbcUrl": ["jdbc:mysql://master:3306/student"]}]}},"writer": {"name": "hdfswriter","parameter": {"defaultFS": "hdfs://master:9000","fileType": "text","path": "/user/hive/warehouse/datax.db/students","fileName": "student","column": [{"name": "id","type": "bigint"},{"name": "name","type": "string"},{"name": "age","type": "INT"},{"name": "gender","type": "string"},{"name": "clazz","type": "string"},{"name": "last_mod","type": "string"}],"writeMode": "append","fieldDelimiter": ","}}}],"setting": {"speed": {"channel": 6}}}
}

4)、hbase2mysql

{"job": {"content": [{"reader": {"name": "hbase11xreader","parameter": {"hbaseConfig": {"hbase.zookeeper.quorum": "master:2181"},"table": "student","encoding": "utf-8","mode": "normal","column": [{"name": "rowkey","type": "string"},{"name": "cf1:name","type": "string"},{"name": "cf1:age","type": "string"},{"name": "cf1:gender","type": "string"},{"name": "cf1:clazz","type": "string"}],"range": {"startRowkey": "","endRowkey": "","isBinaryRowkey": false}}},"writer": {"name": "mysqlwriter","parameter": {"writeMode": "insert","username": "root","password": "123456","column": ["id","name","age","gender","clazz"],"preSql": ["truncate student2"], "connection": [{"jdbcUrl": "jdbc:mysql://master:3306/student2?useUnicode=true&characterEncoding=utf8","table": ["student2"]}]}}}],"setting": {"speed": {"channel": 6}}}
}

5)、mysql2hbase


mysql中的score表需将cource_id改为course_id,并将student_id、course_id设为主键,并将所有字段的类型改为int

hbase需先创建score表:create ‘score’,‘cf1’

{"job": {"content": [{"reader": {"name": "mysqlreader","parameter": {"username": "root","password": "123456","column": ["student_id","course_id","score"],"splitPk": "course_id","connection": [{"table": ["score"],"jdbcUrl": ["jdbc:mysql://master:3306/student"]}]}},"writer": {"name": "hbase11xwriter","parameter": {"hbaseConfig": {"hbase.zookeeper.quorum": "master:2181"},"table": "score","mode": "normal","rowkeyColumn": [{"index":0,"type":"string"},{"index":-1,"type":"string","value":"_"},{"index":1,"type":"string"}],"column": [{"index":2,"name": "cf1:score","type": "int"}],"encoding": "utf-8"}}}],"setting": {"speed": {"channel": 6}}}
}

4、DataX-web的安装(Java 8、支持Python3(默认Python2.7)、Mysql5.7)


★★★注意★★★:一定要先配好java、python环境变量


1)、使用idea同步源代码


2)、在mysql5.1中新建dataxweb数据库


image-20210126151233347.png

3)、执行数据库初始化脚本


image-20210126151351144.png

4)、修改admin配置文件


  • bootstrap.properties

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yKdmtT8M-1611729176899)(https://i.loli.net/2021/01/26/QtwGqXzximsH84C.png)]

#Database
DB_HOST=master
DB_PORT=3306
DB_USERNAME=root
DB_PASSWORD=123456
DB_DATABASE=dataxweb

  • application.yml

server:#port: 8080port: 8080
spring:#数据源datasource:# username: root#password: root#url: jdbc:mysql://localhost:3306/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8password: ${DB_PASSWORD:password}username: ${DB_USERNAME:username}url: jdbc:mysql://${DB_HOST:127.0.0.1}:${DB_PORT:3306}/${DB_DATABASE:dataxweb}?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8driver-class-name: com.mysql.jdbc.Driverhikari:## 最小空闲连接数量minimum-idle: 5## 空闲连接存活最大时间,默认600000(10分钟)idle-timeout: 180000## 连接池最大连接数,默认是10maximum-pool-size: 10## 数据库连接超时时间,默认30秒,即30000connection-timeout: 30000connection-test-query: SELECT 1##此属性控制池中连接的最长生命周期,值0表示无限生命周期,默认1800000即30分钟max-lifetime: 1800000# datax-web emailmail:host: smtp.qq.comport: 25#username: xxx@qq.com#password: xxxusername: rootpassword: rootproperties:mail:smtp:auth: truestarttls:enable: truerequired: truesocketFactory:class: javax.net.ssl.SSLSocketFactorymanagement:health:mail:enabled: falseserver:servlet:context-path: /actuatormybatis-plus:# mapper.xml文件扫描mapper-locations: classpath*:/mybatis-mapper/*Mapper.xml# 实体扫描,多个package用逗号或者分号分隔#typeAliasesPackage: com.yibo.essyncclient.*.entityglobal-config:# 数据库相关配置db-config:# 主键类型 AUTO:"数据库ID自增", INPUT:"用户输入ID", ID_WORKER:"全局唯一ID (数字类型唯一ID)", UUID:"全局唯一ID UUID";id-type: AUTO# 字段策略 IGNORED:"忽略判断",NOT_NULL:"非 NULL 判断"),NOT_EMPTY:"非空判断"field-strategy: NOT_NULL# 驼峰下划线转换column-underline: true# 逻辑删除logic-delete-value: 0logic-not-delete-value: 1# 数据库类型db-type: mysqlbanner: false# mybatis原生配置configuration:map-underscore-to-camel-case: truecache-enabled: falsecall-setters-on-nulls: truejdbc-type-for-null: 'null'type-handlers-package: com.wugui.datax.admin.core.handler# 配置mybatis-plus打印sql日志
logging:#level:# com.wugui.datax.admin.mapper: info
#path: ./data/applogs/adminlevel:com.wugui.datax.admin.mapper: errorpath: ./applogs/admin#datax-job, access token
datax:job:accessToken:#i18n (default empty as chinese, "en" as english)i18n:## triggerpool max sizetriggerpool:fast:max: 200slow:max: 100### log retention dayslogretentiondays: 30datasource:aes:key: AD42F6697B035B75

5)、启动DataX-Web-Admin

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vVgHDtu6-1611729176900)(https://i.loli.net/2021/01/26/NcUTt8AekyHWdoi.png)]

  • 访问: http://127.0.0.1:8080/index.html,用户名:admin,密码:123456

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vi4qvOOr-1611729176901)(https://i.loli.net/2021/01/26/jhnmH2AQ43SVsoB.png)]

6)、修改datax-web-executor配置文件


  • application.yml

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DvATDwdW-1611729176902)(https://i.loli.net/2021/01/26/PGTN8zMR6FiSo7O.png)]

# web port
server:port: 8081#port: 8081# log config
logging:config: classpath:logback.xmlpath: ./applogs/executor/jobhandler#path: ./data/applogs/executor/jobhandlerdatax:job:admin:### datax admin address list, such as "http://address" or "http://address01,http://address02"#addresses: http://127.0.0.1:8080addresses: http://127.0.0.1:8080executor:appname: datax-executorip:#port: 9999port: 9999### job log path#logpath: ./data/applogs/executor/jobhandlerlogpath: ./applogs/executor/jobhandler### job log retention dayslogretentiondays: 30### job, access tokenaccessToken:executor:#jsonpath: D:\\temp\\executor\\json\\jsonpath: ./json#pypath: F:\tools\datax\bin\datax.pypypath: C:\Users\zzk10\Documents\MacOS\DataIntegrate\datax\datax\bin\datax.py

注意pypath:这个路径需要解压datax.tar.gz到自己的路径,不要使用中文路径

解压后使用datax-web中的python3脚本替换掉 datax/bin/

7)、启动datax-web-executor

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gJevYQSe-1611729176902)(C:/Users/xiaoyoupei/AppData/Roaming/Typora/typora-user-images/image-20210127142754626.png)]

只要进程没有自己停止,一直在后台运行即可


5、DataX-Web的使用


1)、新建数据源


  • mysql

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C6CZzG3h-1611729176903)(https://i.loli.net/2021/01/26/nI7Kb82M35TyqjV.png)]

  • hive

    需要先启动hiveserver2服务

    下面这条命令需要在linux shell中执行

    hive --service hiveserver2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BIUOPnPq-1611729176904)(https://i.loli.net/2021/01/26/htrUaYOlkx9Qd2u.png)]

2)新建项目test1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1apg91D-1611729176904)(https://i.loli.net/2021/01/26/nlYF5ka7Zudh3vL.png)]

3)、新建任务模板

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XkrR5aCL-1611729176904)(https://i.loli.net/2021/01/26/3avSFbRHXUY74Tl.png)]

4)、构建任务


  • 创建reader

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DDaB8vew-1611729176905)(https://i.loli.net/2021/01/26/9R5yMjA7pmvbkPh.png)]

  • 创建writer

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e3K6EQZ4-1611729176905)(https://i.loli.net/2021/01/26/VA9HL2mGQTaU5kw.png)]

  • 字段映射

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RijJ9g1D-1611729176906)(https://i.loli.net/2021/01/26/luENhq4scbCeZRY.png)]

  • 构建任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hL09H3wO-1611729176906)(https://i.loli.net/2021/01/26/Lwtf7eJGgYbDK3B.png)]

  • 执行任务

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bK3NzCOY-1611729176906)(https://i.loli.net/2021/01/26/OJ8kSN5ZDLm9VaE.png)]

  • 查看日志

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rsov3hID-1611729176907)(https://i.loli.net/2021/01/26/2WbKpafwg5iLPmx.png)]

5)、添加hbase 数据源会报错,需要修改两个pom.xml文件(hbase1.4.6)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TSj0LVkT-1611729176907)(https://i.loli.net/2021/01/26/BYowyH76MRbzJDl.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xX3iJFTA-1611729176908)(https://i.loli.net/2021/01/26/V7hOUAXDckv6aIz.png)]

改完pom文件,记得重新reimport,才会生效

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-39GE7YXN-1611729176908)(https://i.loli.net/2021/01/26/HFqoZVM1UL4ewOu.png)]

  • 重新测试hbase连通性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9IapSTrZ-1611729176909)(https://i.loli.net/2021/01/26/NfkYvGTtdwXx35y.png)]


推荐阅读
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 如果应用程序经常播放密集、急促而又短暂的音效(如游戏音效)那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点:1)延时时间较长,且资源占用率高 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils
    createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]
  • 字节流(InputStream和OutputStream),字节流读写文件,字节流的缓冲区,字节缓冲流
    字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream,所有的输出流都继承子OutputStreamInput ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 深入探索HTTP协议的学习与实践
    在初次访问某个网站时,由于本地没有缓存,服务器会返回一个200状态码的响应,并在响应头中设置Etag和Last-Modified等缓存控制字段。这些字段用于后续请求时验证资源是否已更新,从而提高页面加载速度和减少带宽消耗。本文将深入探讨HTTP缓存机制及其在实际应用中的优化策略,帮助读者更好地理解和运用HTTP协议。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]
author-avatar
lk神密勇士
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有