当前位置: 开发笔记 > 编程语言 > 正文

石铁大软工Hive极限测试

作者：happy王琦2010_190 | 来源：互联网 | 2023-08-11 09:41

这周二我们20级软工进行了Hive数据清洗分析可视化的极限测试。本来这是一个5个小时完成的项目，我整整做了两天还要多一点，而且我之前已经配置好了所有的环境。做的过程中心态一定要好，

这周二我们20级软工进行了Hive数据清洗分析可视化的极限测试。

本来这是一个5个小时完成的项目，我整整做了两天还要多一点，而且我之前已经配置好了所有的环境。做的过程中心态一定要好，不要轻易破防！！！

这次测试的流程主要分为五个步骤。

1、数据导入

2、数据清洗

3、数据分析处理

4、Sqoop导入Hive数据到MySQL

5、通过javaweb+echarts进行数据可视化

下面是我做的具体流程代码。

一、数据导入：

建表：

create table sales_sample_20170310 (
`day_id` string comment '时间',
`sale_nbr` string comment '卖出方',
`buy_nbr` string comment '买入方',
`cnt` int comment '数量',
`round` int comment '金额')
row format delimited
fields terminated by ','
lines terminated by '\n';

csv数据导入：

load data local inpath '/root/hivedata/sales_sample_20170310.csv' into table sales_sample_20170310;

导入成功后验证

select * from sales_sample_20170310 limit 10000;

二、数据清洗

要求将day_id一列中的数值清洗为真实的日期格式，可用字符串表示。数据1对应日期2022-10-01，依次类推，15对应日期2022-10-15

我这里通过Hive内置的函数，通过拼接字符串的形式来写，最后再转换日期格式，就可以完成了。

字符串拼接：

insert overwrite table sales_sample_20170310
select concat('2022-10-',day_id),sale_nbr,buy_nbr,cnt,round from sales_sample_20170310 ;

转换格式：

create table sales_sample111 as
select to_date(from_unixtime(UNIX_TIMESTAMP(day_id,'yyyy-MM-dd'))) as day_id,
sale_nbr,
buy_nbr,
cnt,
round
from sales_sample_20170310;

验证：

select * from sales_sample111 limit 1000;

三、数据统计分析

在这里处理的数据100多Mb，文件很小，大约500万条数据。如果处理sql的执行时间超过15分钟，基本可以直接停止执行了，绝对是SQL写错了。检查SQL的限制字段或者分组字段重新查询。

我就有一个SQL写错了，处理出了10GB的数据，很离谱。

①统计每天各个机场的销售数量和销售金额。

-- 统计航空公司
create table sale_hangkong as
select
day_id,sale_nbr,sum(cnt) as cnt,sum(round) as round from sales_sample_20170310 where sale_nbr like 'C%' group by day_id, sale_nbr;

结果验证：

select * from sales_hangkong1 limit 1000;

②统计每天各个代理商的销售数量和销售金额。

create table day_sale as
select
day_id,
sale_nbr,
sum(cnt) as cnt_max,
sum(round) as round_max
from sales_sample111
where day_id between '2022-10-01' and '2022-10-20'
group by sale_nbr,day_id;

结果验证：

select * from day_sale limit 1000;

③统计每天各个代理商的销售活跃度。

create table huoyuedu as
select
day_id,
sale_nbr,
count(*) as sale_number
from sales_sample111
where day_id between '2022-10-01' and '2022-10-20'
group by sale_nbr,day_id;

结果验证：

select * from huoyuedu limit 1000;

④汇总统计10月1日到10月15日之间各个代理商的销售利润。

这个最后要求的表字段较多，需要先建立买入表和卖出表进行辅助。最后通过两表连接查询做出利润表。

计算代理商买入数量金额创建买入表

--计算代理商买入数量金额
drop table mairu;
create table mairu as
select
day,
buy_nbr,
sum(cnt) as cnt,
sum(round) as round
from sales_sample111
where buy_nbr like 'O%'
group by day, buy_nbr;
select * from mairu limit 1000;

计算代理商卖出数量金额创建卖出表

create table maichu as
select
day,
sale_nbr,
sum(cnt) as cnt,
sum(round) as round
from sales_sample111
where sale_nbr like 'O%'
group by day, sale_nbr;

select * from maichu limit 1000;

计算利润建立利润表

create table lirun as
select a.day as day,
b.sale_nbr as nbr,
a.cnt as cnt_buy,
a.round as rount_buy,
b.cnt as cnt_sale,
b.round as round_sale,
b.round-a.round as liren
from mairu a join maichu b on a.buy_nbr = b.sale_nbr and a.day = b.day
where a.day between '2022-10-01' and '2022-10-15';

select * from lirun limit 1000;

到这里就完成了第三阶段，第四阶段需要Sqoop安装部署，具体安装可以去bili搜索或者博客查看。

四、Sqoop数据导出

Sqoop进行数据导出的时候，虚拟机的Mysql必须提前建表。

①航空公司表导出

MySQL建表

--mysql
create table sale_hangkong(
day_id varchar(50) not null ,
sale_nbr varchar(20),
cnt int ,
round int
);

导出

bin/sqoop export \
--connect jdbc:mysql://node1:3306/testdb \
--username root \
--password hadoop \
--table sale_hangkong \
--columns day_id,sale_nbr,cnt,round \
--export-dir /user/hive/warehouse/wjb.db/sales_hangkong \
--input-fields-terminated-by "

倒数第二行是自己的hive数据库文件的位置

倒数第三行是MySQL表的字段名

倒数第一行是选择数据字段的分隔符，hive默认是\001

②代理商每天销售表

MySQL建表

create table day_sale(
day_id varchar(20) not null ,
sale_nbr varchar(20),
cnt_sum int ,
round_sum int
);

导出

bin/sqoop export \
--connect jdbc:mysql://node1:3306/testdb \
--username root \
--password hadoop \
--table day_sale \
--columns day_id,sale_nbr,cnt_sum,round_sum \
--export-dir /user/hive/warehouse/wjb.db/day_sale \
--fields-terminated-by "

③活跃度

MySQL建表

create table huoyuedu(
day_id varchar(50) ,
sale_nbr varchar(20),
sale_number int
);

导出

bin/sqoop export \
--connect jdbc:mysql://node1:3306/testdb \
--username root \
--password hadoop \
--table huoyuedu \
--columns day_id,sale_nbr,sale_number \
--export-dir /user/hive/warehouse/wjb.db/huoyuedu \
--fields-terminated-by "

④利润

MySQL建表

--mysql
create table lirun(
day_id varchar(50) ,
nbr varchar(20),
cnt_buy int,
rount_buy int,
cnt_sale int,
round_sale int,
lirun int
);

导出

bin/sqoop export \
--connect jdbc:mysql://node1:3306/testdb \
--username root \
--password hadoop \
--table lirun \
--columns day_id,nbr,cnt_buy,rount_buy,cnt_sale,round_sale,lirun \
--export-dir /user/hive/warehouse/wjb.db/lirun \
--fields-terminated-by "

五、数据可视化

这里我是通过srpingboot+vue3做的，去Echatrts官网找实例复制。大致思路就是后端写好数据接口，前端简单处理一下直接赋值就好了。

由于代码太多冗杂不再这里展示，直接进行结果的展示。

推荐阅读

format
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
format
Android 开发技巧：动态修改 strings.xml 文件中的字符串值

本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符，开发者可以在运行时根据需要填充具体的值，从而提高应用的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-11-24 11:51:17
format
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38
format
Java实现凯撒密码的简易加解密程序

本文介绍了如何使用Java编程语言实现凯撒密码的加密与解密功能。凯撒密码是一种替换式密码，通过将字母表中的每个字母向前或向后移动固定数量的位置来实现加密。 ... [详细]

蜡笔小新 2024-11-24 15:16:47
jsp
使用 ModelAttribute 实现页面数据自动填充

本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解，在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]

蜡笔小新 2024-11-24 12:55:24
format
使用Java计算两个日期之间的月份数

本文详细介绍了利用Java编程语言计算两个指定日期之间月份数的方法。文章通过实例代码讲解了如何使用Joda-Time库来简化日期处理过程，旨在为开发者提供一个高效且易于理解的解决方案。 ... [详细]

蜡笔小新 2024-11-23 20:44:50
jar
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
get
Java连接MySQL数据库的方法及测试示例

本文详细介绍了如何安装MySQL数据库，并通过Java编程语言实现与MySQL数据库的连接，包括环境搭建、数据库创建以及简单的查询操作。 ... [详细]

蜡笔小新 2024-11-23 18:58:43
replace
Excel技巧：单元格中显示公式而非结果的解决方法

本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题，包括使用快捷键和调整单元格格式两种方法。 ... [详细]

蜡笔小新 2024-11-23 18:06:16
replace
深入解析：Hive JDBC编程实践

本文详细介绍了如何通过JDBC连接Hive进行数据操作，包括Hive服务的启动、相关依赖的配置以及具体代码示例，适合对Hive和JDBC有一定了解的开发者阅读。 ... [详细]

蜡笔小新 2024-11-23 16:52:02
数组
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
replace
为何引入jQuery UI自动完成功能后，我的列表框也受到影响？

我在尝试将组合框转换为具有自动完成功能时遇到了一个问题，即页面上的列表框也被转换成了自动完成下拉框，而不是保持原有的多选列表框形式。 ... [详细]

蜡笔小新 2024-11-24 12:02:48
replace
Java中Yytoken类的应用与实例解析

本文详细介绍了Java中的org.jooq.tools.json.Yytoken类的应用场景，并提供了多个实际使用的代码示例，帮助开发者更好地理解和运用这一工具。 ... [详细]

蜡笔小新 2024-11-24 11:54:53
replace
设计模式原则3依赖倒置原则

个人博客：打开链接依赖倒置原则定义依赖倒置原则(DependenceInversionPrinciple,DIP)定义如下：Highlevelmo ... [详细]

蜡笔小新 2024-11-24 10:45:18
format
将datatable导出为excel的三种方式（转）

一、使用Microsoft.Office.Interop.Excel.DLL需要安装Office代码如下：2publicstaticboolExportExcel(S ... [详细]

蜡笔小新 2024-11-23 16:37:33

happy王琦2010_190

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章