热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hive表合并字段_hivesql常用技巧

1.多行合并多行合并常用于做区间统计,通过定义一定的金额区级,将上亿的记录降维为不同区间内总数。概括来说就是多映射到一。典型场景:基于用户

1.多行合并

多行合并常用于做区间统计,通过定义一定的金额区级,将上亿的记录降维为不同区间内总数。概括来说就是多映射到一。

典型场景:

基于用户交易天流水,计算每天不同金额段的金额笔数。

如用户的天交易流水表结构如上,需要计算出交易额在0-100,100-200,200-300,大于300几个区级的笔数,

CREATE VIEW t_deal_tmp_view_1 AS

SELECT

CASE

WHEN rcv_amount <&#61; 100 THEN 1

WHEN rcv_amount <&#61; 200 THEN 2

WHEN rcv_amount <&#61; 300 THEN 3

ELSE 4 END AS amount_range,

receiver

FROM t_transfer_info

SELECT

amount_range,

COUNT(receiver) AS cnt

FROM t_deal_tmp_view_1

GROUP BY amount_range

DROP VIEW t_deal_tmp_view_1

为什么不使用下面这种写法

SELECT

CASE

WHEN rcv_amount <&#61; 100 THEN 1

WHEN rcv_amount <&#61; 200 THEN 2

WHEN rcv_amount <&#61; 300 THEN 3

ELSE 4 END AS amount_range,

COUNT(receiver)

FROM t_transfer_info

GROUP BY

CASE

WHEN rcv_amount <&#61; 100 THEN 1

WHEN rcv_amount <&#61; 200 THEN 2

WHEN rcv_amount <&#61; 300 THEN 3

ELSE NULL END

这种写法会报Expressio Not In Group By Key 的错误&#xff0c;在hive中&#xff0c;

使用Group By时&#xff0c;非Group By的字段必须使用聚合函数&#xff0c;只有Group By的字段才能原值取出。主要原因是上面在Group By后面使用Case When没方法命名新字段。

因此需要使用临时view进行处理。

2.使用条件语句将NULL转为0

在hive的表中&#xff0c;有些记录可能是NULL&#xff0c;这时如果我们直接对这条记录做运算或逻辑判断是得不到我们期望的结果的&#xff0c;这里可以将NULL转换为0再做处理。

当然NULL转0可以使用hive现成的函数nvl&#xff0c;这里使用CASE WHEN是想介绍在hive sql里条件语句的用法。

如上表记录用户每天的收入以及支出&#xff0c;每天的收入和支出可能为空&#xff0c;需要计算用户连续两天的总收入以及总支出。

使用join将两天的表链接进行计算&#xff0c;对于NULL使用替换为0&#xff0c;sql如下&#xff1a;

SELECT

t1.uin,

t1.income &#43; CASE WHEN t2.income IS NULL THEN 0 ELSE t2.income END AS income,

t1.expend &#43; CASE WHEN t2.expend IS NULL THEN 0 ELSE t2.expend END AS expend

FROM

(

SELECT

uin,

income,

expend

FROM t_user_trans_inf_day

WHERE statis_day&#61;20180812

)t1

LEFT JOIN

(

SELECT

uin,

income,

expend

FROM t_user_trans_inf_day

WHERE statis_day&#61;20180811

)t2

ON(t1.uin&#61;t2.uin)

3.列传行

如有一个表A&#xff0c;如上&#xff0c;记录了用户的消费记录&#xff0c;每类消费一列&#xff0c;现在需要将该表的列转化为行&#xff0c;如表B&#xff0c;原来的多列转化为多行。

如下

这里有两种方式可以实现&#xff0c;分布是使用union以及posexplode。

方法一 使用union

union实现方式就是分布取出单列&#xff0c;然后进行对结果进行合并&#xff0c;sql如下。

SELECT uin, 1 AS type, of_amt

FROM t_user_trans

UNION ALL

SELECT uin, 2 AS type, lf_amt

FROM t_user_trans

UNION ALL

SELECT uin, 3 AS type, on_amt

FROM t_user_trans

UNION ALL

SELECT uin, 4 AS type, cr_amt

FROM t_user_trans

方法二&#xff0c;使用posexplode

explode是内建函数&#xff0c; 支持两种用法分别是&#xff1a;

explode(ARRAY) 列表中的每个元素生成一行。

explode(MAP) map中每个key-value对&#xff0c;生成一行&#xff0c;key为一列&#xff0c;value为一列。

使用explode(ARRAY)没有type列&#xff0c;因此无法将转换后的行对应到之前的列&#xff0c;这里可以使用posexplode来代替&#xff0c;posexplode(ARRAY)转换后&#xff0c;可以获得列名在数组中的位置&#xff0c;这样将位置对应一列进行输出即可。

SELECT

uin

t.pos&#43;1 AS type,

t.value AS amount

FROM t_user_tans

LATERAL VIEW

posexplode(

ARRAY(

of_amt,

lf_amt,

on_amt,

cr_amt

)) t as pos, value

4.计算连续天数

有一张用户登陆流水表&#xff0c;需要计算用户的连续登陆天数&#xff0c;这里可以使用分组编号&#xff0c;Group By uin&#43;时间减分组编号&#xff0c;这样连续的天数就被聚合在一起了&#xff0c;可以通过聚合函数计算最终结果。

SELECT

uin,

COUNT(uin) AS continuity_days

FROM(

SELECT

uin,

statis_day,

row_number() OVER(PARTITION BY uin order by statis_day asc) AS rn

FROM

(

SELECT

uin,

statis_day

FROM t_user_login_log

WHERE statis_day>&#61; 20170101

AND statis_day <&#61; 20180809

)

)

GROUP BY uin, date_sub(statis_day,CAST(rn AS INT))

5.分组排序取topN

如有t_user_score记录了学生所有的科目成绩&#xff0c;需要取出每个学生分数最高的一门学科。这里主要用到row_number()函数。

SELECT

uin

FROM

(

SELECT

uin,

course,

row_number() OVER(PARTITION BY uin order by score asc) AS rn

FROM

t_user_score

)

WHERE rn &#61; 1



推荐阅读
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • 本文介绍了如何在MySQL中将零值替换为先前的非零值的方法,包括使用内联查询和更新查询。同时还提供了选择正确值的方法。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • Oracle分析函数first_value()和last_value()的用法及原理
    本文介绍了Oracle分析函数first_value()和last_value()的用法和原理,以及在查询销售记录日期和部门中的应用。通过示例和解释,详细说明了first_value()和last_value()的功能和不同之处。同时,对于last_value()的结果出现不一样的情况进行了解释,并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • Oracle10g备份导入的方法及注意事项
    本文介绍了使用Oracle10g进行备份导入的方法及相关注意事项,同时还介绍了2019年独角兽企业重金招聘Python工程师的标准。内容包括导出exp命令、删用户、创建数据库、授权等操作,以及导入imp命令的使用。详细介绍了导入时的参数设置,如full、ignore、buffer、commit、feedback等。转载来源于https://my.oschina.net/u/1767754/blog/377593。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • 本文介绍了在MySQL8.0中如何查看性能并解析SQL执行顺序。首先介绍了查询性能工具的开启方法,然后详细解析了SQL执行顺序中的每个步骤,包括from、on、join、where、group by、having、select distinct、union、order by和limit。同时还介绍了虚拟表的概念和生成过程。通过本文的解析,读者可以更好地理解MySQL8.0中的性能查看和SQL执行顺序。 ... [详细]
  • 模板引擎StringTemplate的使用方法和特点
    本文介绍了模板引擎StringTemplate的使用方法和特点,包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时,还介绍了StringTemplate语法中的属性和普通字符的使用方法,并提供了向模板填充属性的示例代码。 ... [详细]
  • NotSupportedException无法将类型“System.DateTime”强制转换为类型“System.Object”
    本文介绍了在使用LINQ to Entities时出现的NotSupportedException异常,该异常是由于无法将类型“System.DateTime”强制转换为类型“System.Object”所导致的。同时还介绍了相关的错误信息和解决方法。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • Android日历提醒软件开源项目分享及使用教程
    本文介绍了一款名为Android日历提醒软件的开源项目,作者分享了该项目的代码和使用教程,并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能,以及添加日程提醒和查看详情的界面。同时,作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题,并提供了解决方法。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • 微软评估和规划(MAP)的工具包介绍及应用实验手册
    本文介绍了微软评估和规划(MAP)的工具包,该工具包是一个无代理工具,旨在简化和精简通过网络范围内的自动发现和评估IT基础设施在多个方案规划进程。工具包支持库存和使用用于SQL Server和Windows Server迁移评估,以及评估服务器的信息最广泛使用微软的技术。此外,工具包还提供了服务器虚拟化方案,以帮助识别未被充分利用的资源和硬件需要成功巩固服务器使用微软的Hyper - V技术规格。 ... [详细]
  • MySQL多表数据库操作方法及子查询详解
    本文详细介绍了MySQL数据库的多表操作方法,包括增删改和单表查询,同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作,以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说,本文是一个非常实用的参考资料。 ... [详细]
author-avatar
johnnyLei
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有