Hive实战技巧：数组转字符串与列转行、行转列详解（含教学视频）

作者：何博弘朗 | 来源：互联网 | 2024-10-23 16:31

1行转列1.1函数CONCAT(stringAcol,stringBcol…)：返回输入字符串连接后的结果，支持任意个输入字符串;CONCAT_WS(s

1 行转列

1.1 函数

CONCAT(string A/col, string B/col…)&＃xff1a;返回输入字符串连接后的结果&＃xff0c;支持任意个输入字符串;

CONCAT_WS(separator, str1, str2,...)&＃xff1a;它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL&＃xff0c;返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

COLLECT_SET(col)&＃xff1a;函数只接受基本数据类型&＃xff0c;它的主要作用是将某字段的值进行去重汇总&＃xff0c;产生array类型字段。将某列数据转换成数组

1.1.1 concat字符串的拼接

0: jdbc:hive2://linux01:10000> desc fromatted concat ;

FAILED: SemanticException [Error 10001]: Table not found fromatted

Error: Error while compiling statement: FAILED: SemanticException [Error 10001]: Table not found fromatted (state&＃61;42S02,code&＃61;10001)

0: jdbc:hive2://linux01:10000> desc formatted concat ;

FAILED: SemanticException [Error 10001]: Table not found concat

Error: Error while compiling statement: FAILED: SemanticException [Error 10001]: Table not found concat (state&＃61;42S02,code&＃61;10001)

0: jdbc:hive2://linux01:10000> desc function concat ;

&＃43;----------------------------------------------------&＃43;

| tab_name |

&＃43;----------------------------------------------------&＃43;

| concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data bin1, bin2, ... binN |

&＃43;----------------------------------------------------&＃43;

示例实现字符串的拼接

0: jdbc:hive2://linux01:10000> select concat("a" , "-->","b","-->","c")

. . . . . . . . . . . . . . .> ;

&＃43;------------&＃43;

| _c0 |

&＃43;------------&＃43;

| a-->b-->c |

&＃43;------------&＃43;

concat的执行时机时行数据将查询的表中的一行中的多个字段拼接

0: jdbc:hive2://linux01:10000> select concat(ename,":",job,":",sal) from tb_emp;

&＃43;--------------------------&＃43;

| _c0 |

&＃43;--------------------------&＃43;

| SMITH:CLERK:800.0 |

| ALLEN:SALESMAN:1600.0 |

| WARD:SALESMAN:1250.0 |

| JONES:MANAGER:2975.0 |

| MARTIN:SALESMAN:1250.0 |

| BLAKE:MANAGER:2850.0 |

| CLARK:MANAGER:2450.0 |

| SCOTT:ANALYST:3000.0 |

| KING:PRESIDENT:5000.0 |

| TURNER:SALESMAN:1500.0 |

| ADAMS:CLERK:1100.0 |

| JAMES:CLERK:950.0 |

| FORD:ANALYST:3000.0 |

| MILLER:CLERK:1300.0 |

| HUGUANYU:HANGGE:18000.0 |

&＃43;--------------------------&＃43;

1.1.2 CONCAT_WS(separator, str1, str2,...)

concat_ws 比 concat 可以自定字段的分隔符

concat_ws (参数一(分隔符) , str1 , str2....)

concat_ws (参数一(分隔符) , 数组)

示例

0: jdbc:hive2://linux01:10000> select concat_ws("_" , "tom","cat" ,"jim" ,"jerry") ;

&＃43;--------------------&＃43;

| _c0 |

&＃43;--------------------&＃43;

| tom_cat_jim_jerry |

&＃43;--------------------&＃43;

0: jdbc:hive2://linux01:10000> select concat_ws(":" , ename ,job , sal) from tb_emp ;

FAILED: SemanticException [Error 10016]: Line 1:36 Argument type mismatch &＃39;sal&＃39;: Argument 4 of function CONCAT_WS must be "string or array", but "double" was found.

Error: Error while compiling statement: FAILED: SemanticException [Error 10016]: Line 1:36 Argument type mismatch &＃39;sal&＃39;: Argument 4 of function CONCAT_WS must be "string or array", but "double" was found. (state&＃61;42000,code&＃61;10016)

需要类型转换将double转换成string 语法

cast(变量 AS 数据类型) 强制类型转换

cast(sal as string)

select concat_ws(":" , ename ,job , cast(sal as string)) from tb_emp ;

&＃43;--------------------------&＃43;

| _c0 |

&＃43;--------------------------&＃43;

| SMITH:CLERK:800.0 |

| ALLEN:SALESMAN:1600.0 |

| WARD:SALESMAN:1250.0 |

| JONES:MANAGER:2975.0 |

| MARTIN:SALESMAN:1250.0 |

| BLAKE:MANAGER:2850.0 |

| CLARK:MANAGER:2450.0 |

| SCOTT:ANALYST:3000.0 |

| KING:PRESIDENT:5000.0 |

| TURNER:SALESMAN:1500.0 |

| ADAMS:CLERK:1100.0 |

| JAMES:CLERK:950.0 |

| FORD:ANALYST:3000.0 |

| MILLER:CLERK:1300.0 |

| HUGUANYU:HANGGE:18000.0 |

&＃43;--------------------------&＃43;

1.1.3 COLLECT_SET(col) 将内容收集成set集合

desc function collect_set ;

&＃43;----------------------------------------------------&＃43;

| tab_name |

&＃43;----------------------------------------------------&＃43;

| collect_set(x) - Returns a set of objects with duplicate elements eliminated |

&＃43;----------------------------------------------------&＃43;

对表中的某个字段列操作

select deptno from tb_emp ;

&＃43;---------&＃43;

| deptno |

&＃43;---------&＃43;

| 20 |

| 30 |

| 20 |

| 30 |

| 10 |

| 20 |

| 10 |

| 30 |

| 20 |

| 30 |

| 20 |

| 10 |

| 50 |

&＃43;---------&＃43;

select conllect_set(deptno) from tb_emp ;--->去重重复元素的数组

&＃43;----------------&＃43;

| _c0 |

&＃43;----------------&＃43;

| [20,30,10,50] |

&＃43;----------------&＃43;

collect_list(col) 不会去重数据

select collect_list(deptno) as deptno_list from tb_emp ;

&＃43;-------------------------------------------------&＃43;

| deptno_list |

&＃43;-------------------------------------------------&＃43;

| [20,30,30,20,30,30,10,20,10,30,20,30,20,10,50] |

&＃43;-------------------------------------------------&＃43;

1.2 行转列

结果如下&＃xff1a;

射手座,A 娜娜|凤姐

白羊座,A 孙悟空|猪八戒

白羊座,B 宋宋

数据

孙悟空白羊座 A

娜娜射手座 A

宋宋白羊座 B

猪八戒白羊座 A

凤姐射手座 A

1.2.1 建表导入数据

create table if not exists tb_star(

name string ,

star string ,

dname string

)

row format delimited fields terminated by "\t" ;

load data local inpath "/hive/data/star.txt" into table tb_star ;

0: jdbc:hive2://linux01:10000> select * from tb_star ;

&＃43;---------------&＃43;---------------&＃43;----------------&＃43;

| tb_star.name | tb_star.star | tb_star.dname |

&＃43;---------------&＃43;---------------&＃43;----------------&＃43;

| 孙悟空 | 白羊座 | A |

| 娜娜 | 射手座 | A |

| 宋宋 | 白羊座 | B |

| 猪八戒 | 白羊座 | A |

| 凤姐 | 射手座 | A |

&＃43;---------------&＃43;---------------&＃43;----------------&＃43;

1.2.2 代码实现方式一

1) 先将星座和部门拼接 concat_ws

select

concat_ws("," , star , dname) as star_and_dname ,

name

from

tb_star ;

&＃43;-----------------&＃43;-------&＃43;

| star_and_dname | name |

&＃43;-----------------&＃43;-------&＃43;

| 白羊座,A | 孙悟空 |

| 射手座,A | 娜娜 |

| 白羊座,B | 宋宋 |

| 白羊座,A | 猪八戒 |

| 射手座,A | 凤姐 |

&＃43;-----------------&＃43;-------&＃43;

2) 分组收集姓名

with t1 as

(select

concat_ws("," , star , dname) as star_and_dname ,

name

from

tb_star)

select

star_and_dname,

collect_set(name)

from

group by star_and_dname ;

&＃43;-----------------&＃43;----------------&＃43;

| star_and_dname | _c1 |

&＃43;-----------------&＃43;----------------&＃43;

| 射手座,A | ["娜娜","凤姐"] |

| 白羊座,A | ["孙悟空","猪八戒"] |

| 白羊座,B | ["宋宋"] |

&＃43;-----------------&＃43;----------------&＃43;

3) 获取结果

select

star_and_dname ,

concat_ws("|" ,name_arr )

from

(select

star_and_dname,

collect_set(name) as name_arr

from

(select

concat_ws("," , star , dname) as star_and_dname ,

name

from

tb_star) t

group by star_and_dname) t2 ;

&＃43;-----------------&＃43;----------&＃43;

| star_and_dname | _c1 |

&＃43;-----------------&＃43;----------&＃43;

| 射手座,A | 娜娜|凤姐 |

| 白羊座,A | 孙悟空|猪八戒 |

| 白羊座,B | 宋宋 |

&＃43;-----------------&＃43;----------&＃43;

1.2.3 代码实现方式二

select

concat(star , "," , dname) ,

concat_ws("|" , collect_set(name))

from

tb_star

group by star , dname

;

&＃43;--------&＃43;----------&＃43;

| _c0 | _c1 |

&＃43;--------&＃43;----------&＃43;

| 射手座,A | 娜娜|凤姐 |

| 白羊座,A | 孙悟空|猪八戒 |

| 白羊座,B | 宋宋 |

&＃43;--------&＃43;----------&＃43;

2 列转行

2.1 关键函数

split(str , 分隔符) 返回一个数组

0: jdbc:hive2://linux01:10000> select split("hello,jim,yonggge,tom,cat" , ",") ;

&＃43;----------------------------------------&＃43;

| _c0 |

&＃43;----------------------------------------&＃43;

| ["hello","jim","yonggge","tom","cat"] |

&＃43;----------------------------------------&＃43;

explode() 炸裂函数将数组中的每个元素显示在每行中

0: jdbc:hive2://linux01:10000> select explode (split("hello,jim,yonggge,tom,cat" , ",")) ;

&＃43;----------&＃43;

| col |

&＃43;----------&＃43;

| hello |

| jim |

| yonggge |

| tom |

| cat |

&＃43;----------&＃43;

lateral view 侧窗口函数

2.2 示例

2.2.1 数据和需求

数据

《疑犯追踪》悬疑,动作,科幻,剧情

《Lie to me》悬疑,警匪,动作,心理,剧情

《战狼2》战争,动作,灾难

需求获取如下结构

《疑犯追踪》悬疑

《疑犯追踪》动作

《疑犯追踪》科幻

《疑犯追踪》剧情

《Lie to me》悬疑

《Lie to me》警匪

《Lie to me》动作

《Lie to me》心理

《Lie to me》剧情

《战狼2》战争

《战狼2》动作

《战狼2》灾难

2.2.2 建表导入数据

create table tb_movie(

name string ,

types string

)

row format delimited fields terminated by "\t" ;

load data local inpath "/hive/data/movie.txt" into table tb_movie ;

&＃43;----------------&＃43;-----------------&＃43;

| tb_movie.name | tb_movie.types |

&＃43;----------------&＃43;-----------------&＃43;

| 《疑犯追踪》 | 悬疑,动作,科幻,剧情 |

| 《Lie to me》 | 悬疑,警匪,动作,心理,剧情 |

| 《战狼2》 | 战争,动作,灾难 |

&＃43;----------------&＃43;-----------------&＃43;

2.2.3 实现

1 将类型转换成数组

select

split(types , ",") types_arr

from

tb_movie ;

2 炸裂

select

explode(split(types , ",")) f_type

from

tb_movie ;

&＃43;---------&＃43;

| f_type |

&＃43;---------&＃43;

| 悬疑 |

| 动作 |

| 科幻 |

| 剧情 |

| 悬疑 |

| 警匪 |

| 动作 |

| 心理 |

| 剧情 |

| 战争 |

| 动作 |

| 灾难 |

&＃43;---------&＃43;

3 使用侧窗口函数拼接

select

name ,

f_type

from

tb_movie

lateral view

explode(split(types ,",")) t as f_type ;

&＃43;--------------&＃43;---------&＃43;

| name | f_type |

&＃43;--------------&＃43;---------&＃43;

| 《疑犯追踪》 | 悬疑 |

| 《疑犯追踪》 | 动作 |

| 《疑犯追踪》 | 科幻 |

| 《疑犯追踪》 | 剧情 |

| 《Lie to me》 | 悬疑 |

| 《Lie to me》 | 警匪 |

| 《Lie to me》 | 动作 |

| 《Lie to me》 | 心理 |

| 《Lie to me》 | 剧情 |

| 《战狼2》 | 战争 |

| 《战狼2》 | 动作 |

| 《战狼2》 | 灾难 |

&＃43;--------------&＃43;---------&＃43;

推荐阅读

case
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
process
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
main
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
main
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
client
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
client
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
main
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
main
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
main
c# – UWP：BrightnessOverride StartOverride逻辑

c# – UWP：BrightnessOverride StartOverride逻辑 ... [详细]

蜡笔小新 2024-12-27 16:56:40
int
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
client
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
spring
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
main
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
main
DataGridView 保存时，为什么当前单元格的值无法保存？

在使用 DataGridView 时，如果在当前单元格中输入内容但光标未移开，点击保存按钮后，输入的内容可能无法保存。只有当光标离开单元格后，才能成功保存数据。本文将探讨如何通过调用 DataGridView 的内置方法解决此问题。 ... [详细]

蜡笔小新 2024-12-27 09:27:14
main
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25

何博弘朗

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章