热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hive中的空值处理

hive中的空值处理用Sqoop往MySQL同步数据时,由于hdfs存储的数据中有null值或’’,导致同步数据失败。主要是hivesql中的空值造成的,所以今天就说一下怎么解决这

hive中的空值处理
用Sqoop往MySQL同步数据时,由于hdfs存储的数据中有null值或’’,导致同步数据失败。主要是hive sql中的空值造成的,所以今天就说一下怎么解决这个问题。
一.hive中空值分两种
(1)NULL
hive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。
这时如果查询为空值的字段可通过语句:# is null 或者 # =’\N’ 实现。
此时可用hive中与null有关的函数,如nvl,coalesce,is null等判断是否为null是为true。产生NULL值,一般都是由hive外链接引起的。

(2)’’
‘’ 表示的是字段不为null且为空字符串,此时用 # is null 是无法查询这种值的,必须通过 # ==’’
或者 length(#)=0 查询,产生’‘值,一般都是源数据为空。
在hive sql里面已经加为null判断了。再看数据文件,发现其中的值不是通常的NULL,或者是\N,而是’’。
所以得到原因,用判断null的nvl函数并不能排除’’的情况,需要用IF(# == ‘’,‘未知’,#) AS # 来判断。

二.hive中空值NULL的处理方法
1.在hive中使用COALESCE进行空值处理
COALESCE是一个函数, (expression_1, expression_2, …,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。

比如我们要登记用户的电话,数据库中包含他的person_tel,home_tel,office_tel,我们只要取一个非空的就可以,则我们可以写查询语句

select COALESCE(person_tel,home_tel,office_tel) as contact_number from Contact;

select coalesce(a,b,c);
参数说明: 如果anull,则选择b;如果bnull,则选择c;
如果a!=null,则选择a;如果a b c 都为null ,则返回为null

使用实例:
这个参数使用的场合为:假如某个字段默认是null,你想其返回的不是null,而是比如0或其他值,可以使用这个函数

SELECT COALESCE(field_name,0) as value from table;

2.在hive中使用nvl进行空值处理
a.NVL函数
NVL函数的格式如下:NVL(expr1,expr2)
含义是:如果oracle第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值。

例如:
SQL> select ename,NVL(comm, -1) from emp;
ENAME NVL(COMM,-1)
------- ----
SMITH -1
ALLEN 300
WARD 500
JONES -1
MARTIN 1400
BLAKE -1
FORD -1
MILLER -1
其中显示-1的本来的值全部都是空值的

b.NVL2函数
NVL2函数的格式如下:NVL2(expr1,expr2, expr3)
含义是:如果该函数的第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第三个参数的值。

例如:
SQL> select ename,NVL2(comm,-1,1) from emp;
ENAME NVL2(COMM,-1,1)
------- -----
SMITH 1
ALLEN -1
WARD -1
JONES 1
MARTIN -1
BLAKE 1
CLARK 1
SCOTT 1
上面的例子中。凡是结果是1的原来都不为空,而结果是-1的原来的值就是空。

备注: 适用于数字型、字符型和日期型,但是 expr1和expr2的数据类型必须为同类型

3.在hive中灵活运用 is null 和 is not null 进行null值过滤
Hive中有种假的NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用’\N’来存储的,而我们习惯性对NULL 值的过滤,一般是is null 和 is not null。所以此时可以通过对修改hive 表的信息,来保证控制都显示为指定值 ,方便进行过滤。解决方法如下:
(1)如下:
alter table t_dw_ct_author set serdeproperties (‘serialization.null.format’ = ‘NULL’);
则出现:底层数据保存的是’NULL’,通过查询显示的是’NULL’
这时如果查询为空值的字段可通过 语句:a is null 或者 a=‘NULL’
或者
alter table t_dw_ct_author set serdeproperties(‘serialization.null.format’ = ‘\N’);
则出现:底层数据保存的是’\N’,通过查询显示的是’NULL’
这时如果查询为空值的字段可通过 语句:a is null 或者 a=’\N’
(2)’’ 与 length(xx)=0
‘’ 表示的是字段不为null且为空字符串,此时用 a is null 是无法查询这种值的,必须通过 a=’’ 或者 length(a)=0 查询

三.hive中空值’’的处理方法
1.IF(# == ‘’,‘未知’,#) 的用法
语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)
返回值: T
说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull

**实例:**if(条件表达式,结果1,结果2)相当于java中的三目运算符,只是if后面的表达式类型可以不一样。

hive> select if(# == '','未知',#) fromlxw_dual;
未知

推荐阅读
  • 通过使用Sqoop导入工具,可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言,可以通过在导入命令中添加WHERE子句来指定所需的数据范围,从而在数据库服务器上执行相应的SQL查询,并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性,还确保了数据的准确性和完整性。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 解决ADODB连接Access时出现80004005错误的方法
    本文详细介绍了如何解决在使用ADODB连接Access数据库时遇到的80004005错误,包括错误原因分析和具体的解决步骤。 ... [详细]
  • 通过马老师的视频学习了Java中的容器相关内容,包括Collection、Set、List、Map及其常见实现类,并深入了解了这些容器的基本操作方法。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 深入理解Spark框架:RDD核心概念与操作详解
    RDD是Spark框架的核心计算模型,全称为弹性分布式数据集(Resilient Distributed Dataset)。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作,包括创建、转换和行动操作等,帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段,进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]
  • 本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序,然后计算相邻日期之间的差值,接着按用户ID分组并累加连续登录天数,最后求出每个用户的最大连续登录天数。此外,还探讨了该方法在其他领域的应用,如股票市场中最大连续涨停天数的分析。 ... [详细]
  • 环境:centos6.5,hadoop2.6.4集群1.解压安装sqoop从官网下载好安装包,发送到集群中任意一台主机即可。相信大家已经看到,1.99.7跟1.4.6是不兼容的,而 ... [详细]
  • 本文深入探讨了MySQL中的高级特性,包括索引机制、锁的使用及管理、以及如何利用慢查询日志优化性能。适合有一定MySQL基础的读者进一步提升技能。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • binlog2sql,你该知道的数据恢复工具
    binlog2sql,你该知道的数据恢复工具 ... [详细]
  • sh cca175problem03evolveavroschema.sh ... [详细]
author-avatar
墨镜DHED_304
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有