etl全量增量抽取方式

作者：pea101 | 来源：互联网 | 2023-07-29 18:20

我们在大数据进行数据抽取（入湖）中离不开从源系统的数据库同步数据到大数据平台（hive）中。我的平台（带有调度

我们在大数据进行数据抽取&＃xff08;入湖&＃xff09;中离不开从源系统的数据库同步数据到大数据平台&＃xff08;hive&＃xff09;中。我的平台&＃xff08;带有调度工具&＃xff09;&＃xff1a;联想大数据平&＃xff08;LeapHD&＃xff09;。

同步的方式有两种&＃xff1a;

1.增量抽取&＃xff1a;即每次抽取表的全部数据然后覆盖表的全部数据。频率一般每天抽取或者每周每月抽取&＃xff0c;具体看业务需求。

1.1在hive中建一张结构与源表的相同表
eg:
源表&＃xff08;mysql&＃xff09;的结构&＃xff1a;
表名&＃xff1a;user 字段为&＃xff1a;user_id int,user_name varchar,create_time datetime,phone varchar ;
hive建表&＃xff1a;

create table ods.user_id ( etl_date string COMMENT &＃39;入湖时间&＃39;, user_id string COMMENT &＃39;客户id&＃39;, user_name string COMMENT &＃39;客户姓名&＃39;, create_time string COMMENT &＃39;创建时间&＃39;, phone string COMMENT &＃39;电话&＃39; )comment &＃39;客户信息表&＃39; row format delimited fields terminated by &＃39;\001&＃39; --换行方式

1.2 同步用sqoop 或者用kettle工具同步。我用的是联想平台的自带的etl工具。

抽取全量的源表&＃xff0c;进行任务调度的设置&＃xff0c;是每天或者每周每月&＃xff08;看业务需求&＃xff09;。

select &＃39;${now}&＃39; etl_time, user_id , user_name , create_time , phone from dd.user

导入到创建的hive表

ods.user_id

2.增量导入

增量方式的话我处理的方法是创建分区表&＃xff0c;按照同步方式建立相应的分区。比如在单表数据量较大&＃xff08;比如&＃xff1a;100万以上&＃xff09;的我会按照日分区&＃xff0c;数据量较小的按照月分区。

2.1日分区

2.1.1 创建日分区表

create table ods.user_id ( etl_date string COMMENT &＃39;入湖时间&＃39;, user_id string COMMENT &＃39;客户id&＃39;, user_name string COMMENT &＃39;客户姓名&＃39;, create_time string COMMENT &＃39;创建时间&＃39;, phone string COMMENT &＃39;电话&＃39; )comment &＃39;客户信息表&＃39; partitioned by (day_id string comment &＃39;日分区&＃39;) row format delimited fields terminated by &＃39;\001&＃39; --换行方式

2.1.2 进行表的初始化数据&＃xff08;跟全量的操作差不多&＃xff0c;多了分区&＃xff09;

全量抽取

select &＃39;${now}&＃39; etl_time, user_id , user_name , create_time , phone from dd.user

导入到创建的hive表指定临时分区

ods.user_id[day_id&＃61;&＃39;1&＃39;]

2.1.3 将临时分区导入到动态分区

insert overwrite table ods.user_id partition(day_id) select etl_time , user_id , user_name , create_time , phone , substr(create_time,1,10) as day_id --日期格式为 YYYY-MM-DD from ods.user_id partition where day_id&＃61;&＃39;1&＃39;

2.1.4 删除表的临时分区

alter table ods.user_id drop partition (day_id&＃61;&＃39;1&＃39;);

2.1.5 完成初始化后就是增量导入增量数据

设置把昨天的日期设置成变量&＃xff1a;{last_day} &＃61; {now} - 1

抽取昨天的数据

select &＃39;${now}&＃39; etl_time , user_id , user_name , create_time , phone from dd.user where substr(create_time,1,10)&＃61;&＃39;{last_day}&＃39;

同理&＃xff0c;抽数放到临时分区

ods.user_id[day_id&＃61;&＃39;000&＃39;]

2.1.6 将临时分区换成动态分区

2.1.7 删除临时分区

alter table ods.user_id drop partition (day_id&＃61;&＃39;000&＃39;);

这样就完成每天的抽数定时任务。

推荐阅读

post
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
version
【MySQL】frm文件解析

官网说明：http:dev.mysql.comdocinternalsenfrm-file-format.htmlfrm是MySQL表结构定义文件，通常frm文件是不会损坏的，但是如果 ... [详细]

蜡笔小新 2024-11-23 10:29:06
php
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38
email
mysql数据库json类型数据,sql server json数据类型

mysql数据库json类型数据,sql server json数据类型 ... [详细]

蜡笔小新 2024-11-19 11:05:28
post
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
config
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
version
必须为元素类型 mapper 声明属性 namespace解决

在使用mybatis进行mapper.xml测试的时候发生必须为元素类型“mapper”声明属性“namespace”的错误项目目录结构UserMapper和UserMappe ... [详细]

蜡笔小新 2024-11-23 20:06:58
post
Excel技巧：单元格中显示公式而非结果的解决方法

本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题，包括使用快捷键和调整单元格格式两种方法。 ... [详细]

蜡笔小新 2024-11-23 18:06:16
post
MySQL InnoDB事务日志详解：Redo Log与Undo Log

本文详细介绍了MySQL InnoDB存储引擎中的Redo Log和Undo Log，探讨了它们的工作原理、存储方式及其在事务处理中的关键作用。 ... [详细]

蜡笔小新 2024-11-23 15:34:23
object
.NET 中使用 ADOX 创建 Access 数据库并定义表结构

在开发过程中，有时需要提供用户创建数据库的功能。本文介绍了如何利用 .NET 和 ADOX 在应用程序中实现创建 Access 数据库，并详细说明了创建数据库及表的具体步骤。 ... [详细]

蜡笔小新 2024-11-22 20:13:52
php
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03
tree
innodb 索引设计小结

一关于t1表和testtb的索引设计二把主键放到二级索引的后面，会否占据更多的物理空间？三InnoDB的主键该如何选择，业务ID和自增 ... [详细]

蜡笔小新 2024-11-16 15:11:20
ip
Python多进程高效读取超大文件的技巧

本文详细介绍了如何使用Python的多进程技术来高效地分块读取超大文件，并将其输出为多个文件。通过这种方式，可以显著提高读取速度和处理效率。 ... [详细]

蜡笔小新 2024-11-14 10:59:08
ip
MySQL学习之路(二)——数据类型和操作数据表

数据类型和操作数据表2.1MySQL类型之整型2.2MySQL数据类型之浮点型2.3日期时间型DATE1支持时间：1000年1月1日~9999年12月31日DATETIME ... [详细]

蜡笔小新 2024-11-12 10:11:09
php
C/C++ 应用程序的安装与卸载解决方案

本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序，包括自动检测并安装所需的运行库，确保应用能够顺利安装和卸载。 ... [详细]

蜡笔小新 2024-11-23 13:44:53

pea101

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章