hive列转行和行转列

作者：Ki丶ng-james-LBJ威_112 | 来源：互联网 | 2023-09-24 10:36

1.假设我们在hive中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下：user_ba

1. 假设我们在hive中有两张表&＃xff0c;其中一张表是存用户基本信息&＃xff0c;另一张表是存用户的地址信息等&＃xff0c;表数据假设如下&＃xff1a;

user_basic_info:

id	name
1	a
2	b
3	c
4	d

user_address;

name	address
a	add1
a	add2
b	add3
c	add4
d	add5

我们可以看到同一个用户不止一个地址&＃xff08;这里是假设的&＃xff09;&＃xff0c;我们需要把数据变为如下格式&＃xff1a;

id	name	address
1	a	add1,add2
2	b	add3
3	c	add4
4	d	add5

collect_set
这就用到了hive中的行转列的知识&＃xff0c;需要用到两个内置UDF: collect_set, concat_ws,

两个函数解释如下见&＃xff1a;http://www.cnblogs.com/end/archive/2012/06/18/2553682.html

建表:

create table user_basic_info(id string, name string); create table user_address(name string, address string);
加载数据&＃xff1a;

load data local inpath &＃39;/home/jthink/work/workspace/hive/row_col_tran/data1&＃39; into table user_basic_info; load data local inpath &＃39;/home/jthink/work/workspace/hive/row_col_tran/data2&＃39; into table user_address;

执行合并&＃xff1a;

select max(ubi.id), ubi.name, concat_ws(&＃39;,&＃39;, collect_set(ua.address)) as address from user_basic_info ubi join user_address ua on ubi.name&＃61;ua.name group by ubi.name;

运行结果&＃xff1a;

1 a add1,add2
2 b add3
3 c add4
4 d add5

2. 假设我们有一张表&＃xff1a;

user_info:

id	name	address
1	a	add1,add2
2	b	add3
3	c	add4
4	d	add5

我们需要拆分address&＃xff0c;变为&＃xff1a;

id	name	address
1	a	add1
1	a	add2
2	b	add3
3	c	add4
4	d	add5

我们很容易想到用UDTF&＃xff0c;explode()&＃xff1a;

select explode(address) as address from user_info;

这样执行的结果只有address&＃xff0c; 但是我们需要完整的信息&＃xff1a;

select id, name, explode(address) as address from user_info;

这样做是不对的&＃xff0c; UDTF&＃39;s are not supported outside the SELECT clause, nor nested in expressions

所以我们需要这样做&＃xff1a;

select id, name, add from user_info ui lateral view explode(ui.address) adtable as add;

结果为&＃xff1a;

1 a add1
1 a add2
2 b add3
3 c add4
4 d add5

推荐阅读

ip
深入解析 Kubernetes 亲和性调度机制及其优化策略

在 Kubernetes 中，Pod 的调度通常由集群的自动调度策略决定，这些策略主要关注资源充足性和负载均衡。然而，在某些场景下，用户可能需要更精细地控制 Pod 的调度行为，例如将特定的服务（如 GitLab）部署到特定节点上，以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制，并探讨了多种优化策略，帮助用户实现更高效、更灵活的资源管理。 ... [详细]

蜡笔小新 2024-11-05 17:27:07
search
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
ip
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
select
Spring框架中的面向切面编程（AOP）技术详解

面向切面编程（AOP）是Spring框架中的关键技术之一，它通过将横切关注点从业务逻辑中分离出来，实现了代码的模块化和重用。AOP的核心思想是将程序运行过程中需要多次处理的功能（如日志记录、事务管理等）封装成独立的模块，即切面，并在特定的连接点（如方法调用）动态地应用这些切面。这种方式不仅提高了代码的可维护性和可读性，还简化了业务逻辑的实现。Spring AOP利用代理机制，在不修改原有代码的基础上，实现了对目标对象的增强。 ... [详细]

蜡笔小新 2024-11-04 17:23:10
search
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
main
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
ip
解决Android EditText中TextWatcher的onTextChanged方法频繁触发问题

【问题】在Android开发中，当为EditText添加TextWatcher并实现onTextChanged方法时，会遇到一个问题：即使只对EditText进行一次修改（例如使用删除键删除一个字符），该方法也会被频繁触发。这不仅影响性能，还可能导致逻辑错误。本文将探讨这一问题的原因，并提供有效的解决方案，包括使用Handler或计时器来限制方法的调用频率，以及通过自定义TextWatcher来优化事件处理，从而提高应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-11-10 12:50:42
main
提升视觉效果：Unity3D中的HDR与Bloom技术（高动态范围成像与光线散射）

提升视觉效果：Unity3D中的HDR与Bloom技术（高动态范围成像与光线散射） ... [详细]

蜡笔小新 2024-11-10 10:16:00
bash
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
string
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
select
网页数据抓取与解析入门指南

本指南介绍了 `requests` 库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()` 是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]

蜡笔小新 2024-11-08 17:56:30
main
深入解析Java多线程同步机制与应用

本文深入探讨了Java多线程环境下的同步机制及其应用，重点介绍了`synchronized`关键字的使用方法和原理。`synchronized`关键字主要用于确保多个线程在访问共享资源时的互斥性和原子性。通过具体示例，如在一个类中使用`synchronized`修饰方法，展示了如何实现线程安全的代码块。此外，文章还讨论了`ReentrantLock`等其他同步工具的优缺点，并提供了实际应用场景中的最佳实践。 ... [详细]

蜡笔小新 2024-11-08 16:11:26
ip
如何使用和示例代码解析 org.semanticweb.owlapi.model.OWLSubPropertyChainOfAxiom.getPropertyChain() 方法

如何使用和示例代码解析 org.semanticweb.owlapi.model.OWLSubPropertyChainOfAxiom.getPropertyChain() 方法 ... [详细]

蜡笔小新 2024-11-03 19:32:01
ip
18. ChartData类详解（MPAndroidChart中文版解析）

在《ChartData类详解》一文中，我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色（Setting Colors）以及如何格式化数据值（Formatting Data Values），通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外，我们还将介绍一些高级配置选项，帮助开发者更好地定制和优化图表展示效果。 ... [详细]

蜡笔小新 2024-11-09 20:54:36
express
深入探讨 Linux 环境下的网络抓包技术：tcpdump 实战指南

在网络故障排查中，tcpdump 是一款强大的工具，尤其在 Linux 环境下。尽管开发环境中问题较少，但在测试或生产环境中，往往会遇到各种难以预料的异常情况。通过在问题发生的环境中启用 tcpdump 进行抓包，并重现问题，可以获取到宝贵的原始数据，为问题的诊断提供关键线索。本文将详细介绍如何使用 tcpdump 进行实战操作，帮助读者掌握这一技能。 ... [详细]

蜡笔小新 2024-11-05 17:01:55

Ki丶ng-james-LBJ威_112

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章