当前位置: 开发笔记 > 编程语言 > 正文

Hive的入门级GroupBy全案例

作者：mobiledu2502887783 | 来源：互联网 | 2023-08-19 20:48

之前总是用全家桶方式玩大数据栈，总觉得有点儿戏。这两天把自己的HadoopHiveSpark集群环境搭好了，准备正式的做点试验，写点文章。所以干货文章即将到来，小伙伴们，你们的赞准

之前总是用全家桶方式玩大数据栈，总觉得有点儿戏。

这两天把自己的 Hadoop/Hive/Spark 集群环境搭好了，准备正式的做点试验，写点文章。

所以干货文章即将到来，小伙伴们，你们的赞准备好了嘛？

我这里用到一张表，叫做 tblobj2. 熟悉 sql server 一定不陌生，其实就是从 sql server 导了一张系统表 sys.objects 到 Hive 里面。具体方法可以参考这里：

黄赟：使用 Sqoop 将 30W+ MySQL 数据导入 Hive

这是 Hive 的第一篇公开文，讲解 group by 用法。

其余的文章存着，大家热情起来了，我再慢慢放。觉得小编嘚瑟的朋友，砖可以拍过来了。

扯远了，回归正题，这里是 5 道 Hive 的 group by 应用题，大家有兴趣先做着。我会在下一篇公布正式答案。

已知表结构如下：

表的前 10 行数据 sample 如下：

需求得：

按照 schema_id, type_desc 为分组的记录总数，如下：

按照 schema_id, type_desc 为分组的记录总数，以及按照 schema_id 为分组的记录总数，且两个分组的记录总数需要合并到一个结果集，如下：

1.按照 schema_id, type_desc 为分组的记录总数，以及按照 type_desc 为分组的记录总数，且两个分组的记录总数需要合并到一个结果集，如下：

按照schema_id, type_desc 各自为分组，并汇总所有数据的总数，最终结果展示在一个结果集，如下：

按照 schema_id + type_desc, schema_id 为分组依据求分组总数, 并合并所有数据总计到一个结果集：

要求：

必须使用一个 SELECT ..Group by 求解，而不是 union all/union

推荐阅读

jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
js
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
post
binlog2sql，你该知道的数据恢复工具

binlog2sql，你该知道的数据恢复工具 ... [详细]

蜡笔小新 2024-11-22 18:58:43
io
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
window
U3d 属性面板自定义扩展（多态数组）

原文地址：https:blog.csdn.netqq_35361471articledetails84715491原文地址：https:blog.cs ... [详细]

蜡笔小新 2024-11-19 19:22:47
jar
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
email
Oracle SQL 第二天

本文介绍了 Oracle SQL 中的集合运算、子查询、数据处理、表的创建与管理等内容。包括查询部门号为10和20的员工信息、使用集合运算、子查询的注意事项、数据插入与删除、表的创建与修改等。 ... [详细]

蜡笔小新 2024-11-16 16:43:29
email
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
post
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
future
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
io
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
const
C/C++ 中 #define 的高级用法与技巧

本文总结了 #define 在 C/C++ 编程中的多种用途和技巧，包括定义常量、函数、宏以及条件编译等，并提供了详细的示例和注意事项。 ... [详细]

蜡笔小新 2024-11-23 18:24:39
io
innodb 索引设计小结

一关于t1表和testtb的索引设计二把主键放到二级索引的后面，会否占据更多的物理空间？三InnoDB的主键该如何选择，业务ID和自增 ... [详细]

蜡笔小新 2024-11-16 15:11:20
io
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42

mobiledu2502887783

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章