sqoop从hive中表导出数据到mysql报错的问题

作者：吃羊的肉 | 来源：互联网 | 2023-01-14 12:24

问题描述：hive中表使用sqoop导出数据到mysql中,对于一些地址字段，会报下面的错误15020508:30:45INFOmapred.JobClient:map0%red

问题描述：hive中表使用sqoop导出数据到mysql中,对于一些地址字段，会报下面的错误
15/02/05 08:30:45 INFO mapred.JobClient:  map 0% reduce 0%
15/02/05 08:31:24 INFO mapred.JobClient:  map 50% reduce 0%
15/02/05 08:31:26 INFO mapred.JobClient: Task Id : attempt_201411111542_1892827_m_000002_0, Status : FAILED
java.io.IOException: java.sql.SQLException: Incorrect string value: '\xF0\xA3\x84\x83\xE6\xB8...' for column 'DLVRY_ADDR_NM' at row 37
        at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:220)
        at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:46)
        at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:638)
        at org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)
        at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:135)
        at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:53)
也就是DLVRY_ADDR_NM字段中值插入到mysql库中，有些'\xF0\xA3\x84\x83\xE6\xB8...' 这样的插不进去，感觉是乱码，网上查了原因是UTF-8编码有可能是两个、三个、四个字节，而Mysql的utf8编码最多3个字节，所以数据插不进去。使用alter table TABLE_NAME convert to character set utf8mb4 collate utf8mb4_bin修改了mysql库的编码格式，可还是不行，不知道有哪位大神遇到过？

2 个解决方案

#1

自顶一下，有哪位大神指导一下呢

#2

可以使用正则表达式对结果进行过滤
[^\\u4E00-\\u9FA5|a-z|A-Z|0-9|+ \\[\\] \/&\. ——_ ,()（） \\\\|/-《 <>》￥$ °！! *:：~ ？? ×]*','

推荐阅读

heap
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
io
Nacos 0.3 数据持久化详解与实践

本文详细介绍了如何将 Nacos 0.3 的数据持久化到 MySQL 数据库，并提供了具体的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-14 18:26:40
regex
MySQL 中 SQL 正则表达式的应用与技巧

本文介绍了在 MySQL 中如何使用正则表达式来提高查询效率，通过具体示例展示了如何筛选包含中文字符的记录，并详细解释了正则表达式的各种特殊字符和结构。 ... [详细]

蜡笔小新 2024-11-12 21:03:49
io
Oracle字符集详解：图表解析与中文乱码解决方案

本文详细解析了 Oracle 数据库中的字符集机制，通过图表展示了不同字符集之间的转换过程，并针对中文乱码问题提供了有效的解决方案。文章深入探讨了字符集配置、数据迁移和兼容性问题，为数据库管理员和开发人员提供了实用的参考和指导。 ... [详细]

蜡笔小新 2024-11-08 11:50:24
regex
MySQL 正则表达式深入解析：REGEXP 功能与应用详解

在探讨 MySQL 正则表达式 REGEXP 的功能与应用之前，我们先通过一个小实验来对比 REGEXP 和 LIKE 的性能。通过具体的代码示例，我们将评估这两种查询方式的效率，以确定 REGEXP 是否值得深入研究。实验结果将为后续的详细解析提供基础。 ... [详细]

蜡笔小新 2024-11-07 16:02:12
format
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
schema
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
format
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
io
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
io
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
详解 Qt 串口通信程序全程图文（4）

Qt串口通信程序全程图文是本文介绍的内容，本文一开始先讲解对程序的改进，在文章最后将要讲解一些重要问题。1、在窗口中加入一些组合框ComboBox&# ... [详细]

蜡笔小新 2024-11-12 00:05:00
bash
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
python
FreeBSD环境下PHP GD库安装问题的详细解决方案

在 FreeBSD 环境下，安装 PHP GD 库时可能会遇到一些常见的问题。本文详细介绍了从配置到编译的完整步骤，包括解决依赖关系、配置选项以及常见错误的处理方法。通过这些详细的指导，开发者可以顺利地在 FreeBSD 上完成 PHP GD 库的安装，确保其正常运行。此外，本文还提供了一些优化建议，帮助提高安装过程的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-09 17:50:30
python
Python默认字符解析：深入理解Python中的字符串处理

在Python中，字符串是编程中最基本且常用的数据类型之一。尽管许多初学者是从C语言开始接触字符串，通常通过经典的“Hello, World!”程序入门，但Python对字符串的处理方式更为灵活和强大。本文将深入探讨Python中的字符串处理机制，包括字符串的创建、操作、格式化以及编码解码等方面，帮助读者全面理解Python字符串的特性和应用。 ... [详细]

蜡笔小新 2024-11-08 05:02:14

吃羊的肉

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章