sqoop增量导入且表无主键

作者：嘟嘟酱 | 来源：互联网 | 2023-05-18 13:30

之前写过一个sqoop增量导入的文章http:blog.csdn.netqq_20641565articledetails52763663，自己控制增量导入，但是那个架构需要表有主键值

之前写过一个sqoop增量导入的文章http://blog.csdn.net/qq_20641565/article/details/52763663，自己控制增量导入，但是那个架构需要表有主键值，但是一般在实际中有的表却没有主键只有增量字段而且数据量特别大，这样的情况就不能使用之前那篇文章写的方式自己控制增量同步数据了，可以用如下的方法解决。

1.使用sqoop的增量导入；
这里就不介绍了，网上有很多例子。

2.根据上一篇文章的架构，根据增量字段导入

其实这种方式和直接使用sqoop自带的增量导入效果一样，但是为了规范化流程（因为都是通过公共shell脚本，从前台取参数执行），所以使用以下方式增量导入

中间表和最终表结构如下：

create table test_temp (
    name string,
    addr string，
    update_time string
) comment '临时表'
partitioned by (y string,m string,d string)
row format delimited fields terminated by ','
stored as textfile

create table test (
    name string,
    addr string，
    update_time string
) comment '最终表'
row format delimited fields terminated by ','
stored as orcfile

将之前那片文章中的 “6.合并” 步骤改为如下代码(如果是增量更新10月09的数据)：

#其中
startdate="20161009"
enddate="20161010"

insert overwrite table test
select 
 a.name,a.addr,a.update_time 
from 
 test
where
 a.update_time >= ${enddate} or a.update_time <${startdate}


--把中间表的数据 into 到test表中
insert into table test select name,addr,update_time from test_temp where y='2016' and m='10' and d='09';

但是这样有个弊端：

如果前面数据有修改，这样不能去重！和sqoop自带的同步一样，如果想修改历史数据后还能去重，就参照上一篇文章http://blog.csdn.net/qq_20641565/article/details/52763663；

之后又有一个需求，需要流式导入数据，意思就是hive里面的数据只有当天前30天的增量更新（比如7月1号的时候，test表只有6月1号到6月30号的数据，到7月2号的时候，test表只有6月2号到7月1号的数据，以此内推）可以按照如下方式解决：

#先定义一个dateMonth
dateMOnth==$(date -d "30 days ago" +%Y%m%d)
#这里先写死，正常流程是从控制台传入参数
startdate="20161009"
enddate="20161010"
#
insert overwrite table test
select 
    a.name,a.addr,a.update_time 
from 
    test
where
    a.update_time >= ${enddate} or a.update_time <${startdate}
    and a.update_time >= ${dateMonth}

#把中间表的数据 into 到test表中
insert into table test select name,addr,update_time from test_temp where y='2016' and m='10' and d='09';

按照如上方式就能按照天增量导入数据，并保持数据为最新的30天的数据。

标记下：
一个表92个字段 2千万数据大概20G
一个表26个字段 1亿条数据大概20G；2亿4千万大概53G

推荐阅读

list
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
callback
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
text
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
timezone
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
list
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
callback
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
list
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
list
SQL Server 存储过程开发与优化指南

本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧，旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]

蜡笔小新 2024-11-12 13:13:21
text
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
text
优化后的标题：Apache Cassandra数据写入操作详解

本文详细解析了 Apache Cassandra 中的数据写入操作，重点介绍了 INSERT 命令的使用方法。该命令主要用于将数据插入到指定表的列中，其基本语法为 `INSERT INTO 表名 (列1, 列2, ...) VALUES (值1, 值2, ...)`。通过具体的示例和应用场景，文章深入探讨了如何高效地执行数据写入操作，以提升系统的性能和可靠性。 ... [详细]

蜡笔小新 2024-11-11 20:05:30
list
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
version
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
text
Cacti 数据库错误：SQL 查询失败，错误代码 145

在使用 Cacti 进行监控时，发现已运行的转码机未产生流量，导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志，发现数据库中存在 SQL 查询失败的问题，错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致，建议对相关表进行修复操作以恢复监控功能。 ... [详细]

蜡笔小新 2024-11-11 12:57:49
list
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
list
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34

嘟嘟酱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章