当前位置: 开发笔记 > 运维 > 正文

Kettle连接Hive中文乱码问题解决方案

作者：容容1217_778 | 来源：互联网 | 2018-06-11 02:52

刚开始接触Pentaho的kettledesktop版本。我们这里主要应用其与hadoop及hive的关联进行数据处理。kettle的版本是4.4，使用的过程还是挺顺利的，顺利的建立好了一个转换任务，将hive中的数据提取到了本地文件。但是打开一看，所以utf8的中文全都是

刚开始接触Pentaho的 kettle desktop版本。我们这里主要应用其与hadoop及 hive 的关联进行数据处理。 kettle 的版本是4.4，使用的过程还是挺顺利的，顺利的建立好了一个转换任务，将 hive 中的数据提取到了本地文件。但是打开一看，所以 utf8 的中文全都是

刚开始接触Pentaho的kettle desktop版本。我们这里主要应用其与hadoop及hive的关联进行数据处理。kettle的版本是4.4，使用的过程还是挺顺利的，顺利的建立好了一个转换任务，将hive中的数据提取到了本地文件。但是打开一看，所以utf8的中文全都是乱码。而且kettle现在只支持到了hive0.7版本，还没支持到0.8，所以无法正确提取hive的meta信息，但是不影响HQL的正常运行。

只能先看看kettle是如何使用hive的jdbc连接的。我先将hive-jdbc.0.8.1.ar拷贝到{kettlehome}/libext/JDBC下，直接造成无法正常连接hive。

在该目录下存在jar文件hive-jdbc-0.7.0-pentaho-1.0.2.jar，这个类是一个适配类，不真正实现hive的jdbc连接。

而是通过反射的方式，找到classpath下的hivejdbc类，即存在于{kettlehome}\plugins\pentaho-big-data-plugin\hadoop-configurations\hadoop-20\lib\hive-jdbc-0.7.0-pentaho-1.0.2.jar这个jar文件，该文件用于真实的调用hive。

我们就来看一下这个jar中的实现。可以先从以下url中获取source文件。http://repo.pentaho.org/artifactory/repo/org/apache/hive/hive-jdbc/0.7.0-pentaho-1.0.2/hive-jdbc-0.7.0-pentaho-1.0.2-sources.jar 下载解压后，倒入到你自己的一个新建java工程中，并引入相关的类库，可以使之正常编译。

StructObjectInspector soi = &＃40;StructObjectInspector&＃41; serde.getObjectInspector&＃40;&＃41;;List fieldRefs = soi.getAllStructFieldRefs&＃40;&＃41;;//Object data = serde.deserialize(new BytesWritable(rowStr.getBytes()));//我们将该行屏蔽Object data = serde.deserialize&＃40;new BytesWritable&＃40;rowStr.getBytes&＃40;"UTF-8"&＃41;&＃41;&＃41;;//使用本行

然后将编译后的class文件加入到hive-jdbc-0.7.0-pentaho-1.0.2.jar
重新启动kettle。
然后再跑一下流程，正常了。当然，如果你的系统环境本身编码就是utf8的，应该不会出现这样的问题。

原文地址：Kettle连接Hive 中文乱码问题解决方案, 感谢原作者分享。

推荐阅读

apache
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
apache
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
apache
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
apache
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
apache
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
service
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
负载均衡
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
apache
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
service
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
service
深入理解 org.apache.hadoop.ha.HAServiceTarget 的 checkFencingConfigured 方法

本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法，包括其功能、应用场景及代码示例。通过实际代码片段，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-22 18:28:35
apache
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
apache
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
apache
Java集成第三方库的示例：Log4j的日志记录

本文介绍如何在Java项目中使用Log4j库进行日志记录。我们将详细说明Log4j库的引入、配置及简单应用，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-12-26 10:59:04
apache
F# Interactive 中的数据格式化技巧：使用 AddPrinter 和 AddPrintTransformer 自定义输出

本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型（尤其是集合类型）的输出格式，提供了详细的指南和示例代码。 ... [详细]

蜡笔小新 2024-12-22 12:09:23
unix
Hive中日期与字符串互转的常用函数详解

本文详细介绍了Hive中用于日期和字符串相互转换的多种函数，包括从时间戳到日期格式的转换、日期到时间戳的转换，以及如何处理不同格式的日期字符串。通过这些函数，用户可以轻松实现日期和字符串之间的灵活转换，满足数据处理中的各种需求。 ... [详细]

蜡笔小新 2024-12-21 20:34:59

容容1217_778

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章