基于Hadoop生态圈的数据仓库实践——进阶技术（二）

作者：dsjdsjdsjjk_896 | 来源：互联网 | 2023-05-18 17:25

二、按需装载前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型，按需装载。所谓“按需装载”指的是，在正常调度之外，当源数据有效或者数据仓库需要时进行装载。例如，促销销售

二、按需装载
前面已经做了“初始装载”和“定期装载”。还有一种需要熟悉的装载类型，按需装载。所谓“按需装载”指的是，在正常调度之外，当源数据有效或者数据仓库需要时进行装载。例如，促销销售源数据只有在促销期内有效，而在其它时间是无效的，而对促销期数据就要进行按需装载。
在“建立数据仓库示例模型”中讨论的日期维度数据生成可以看做是一种按需装载。数据仓库预先装载了日期，当日期用完时，需要再次运行预装载。
本节的主题是按需装载，首先修改数据库模式，然后在DW数据库上执行按需装载，使用促销期场景进行说明。定期装载不适合促销期场景，因为促销期数据并不是按调度定期装载。下面是需要装载的促销期内容，存储在source.promo_schedule表中。

PROMOTION CODE,PROMOTION NAME,START DATE,END DATESO,Special Offer,2016-04-01,2016-04-10
DP,Disk Promotion,2016-05-05,2016-05-20
MS,Month Special,2016-06-01,2016-06-30
MP,Monitor Promotion,2016-07-10,2016-07-15
BS,Back to School,2016-08-10,2016-08-30

注意源数据提供了促销周期，而不是单个的促销日期。示例假设只需要装载新的促销期数据，而在数据仓库中不需要促销期的历史数据。
下图显示了修改后的DW数据库模式，date_dim表增加了promo_ind列，用来标识该日期是否为促销日期。

1. 修改数据库模式
使用下面的SQL脚本修改源数据库模式。

use source;-- 建立促销期表create table promo_schedule (    promotion_code varchar(10) comment '促销期代码',    promotion_name varchar(50) comment '促销期名称',    start_date date comment '促销期开始日期',    end_date date comment '促销期截止日期',    primary key (promotion_code));-- 添加促销期数据insert into promo_schedule values('SO','Special Offer','2016-04-01','2016-04-10'),('DP','Disk Promotion','2016-05-05','2016-05-20'),('MS','Month Special','2016-06-01','2016-06-30'),('MP','Monitor Promotion','2016-07-10','2016-07-15'),('BS','Back to School','2016-08-10','2016-08-30');commit;

使用下面的HiveQL脚本修改RDS数据库模式。

use rds;create table promo_schedule (    promotion_code varchar(10) comment 'promotion code',    promotion_name varchar(50) comment 'promotion name',    start_date date comment 'start date',    end_date date comment 'end date');

使用下面的HiveQL脚本修改DW数据库模式。

use dw;alter table date_dim rename to date_dim_old; -- 原来的日期维度表是普通的CSV文件格式，因为需要行级更新促销标记字段，所以新建ORC文件格式的表。create table date_dim (        date_sk int comment 'surrogate key',      date date comment 'date,yyyy-mm-dd',      month tinyint comment 'month',      month_name varchar(9) comment 'month name',      quarter tinyint comment 'quarter',      year smallint comment 'year',    promo_ind char(1) comment 'promotion index')  comment 'date dimension table'clustered by (date_sk) into 8 bucketsstored as orc tblproperties ('transactional'='true');-- 装载日期维度数据，促销期标记为'N'insert into date_dim select *,'N' from date_dim_old;-- 删除老的日期维度表drop table date_dim_old;

2. 新建按需装载脚本
使用下面的on_demand.sh脚本完成按需装载过程。

#!/bin/bash  # 整体拉取promo_schedule表数据  sqoop import --connect jdbc:mysql://cdh1:3306/source?useSSL=false --username root --password mypassword --table promo_schedule --hive-import --hive-table rds.promo_schedule --hive-overwrite  # 调用 on_demand.sql 文件执行按需装载  beeline -u jdbc:hive2://cdh2:10000/dw -f on_demand.sql

on_demand.sql文件中的HiveQL脚本如下:

-- 设置变量以支持事务  set hive.support.cOncurrency=true;  set hive.exec.dynamic.partition.mode=nonstrict;  set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;  set hive.compactor.initiator.on=true;  set hive.compactor.worker.threads=1;    use dw;update date_dim      set promo_ind = 'Y'     where date_dim.date_sk in(select a.date_sk    from date_dim a, rds.promo_schedule b  where a.date between b.start_date and b.end_date);

需要在日期装载后运行该脚本，换句话说，所有促销期内从开始到结束的日期，在日期维度里都是存在的。实际上装载所做的就是，如果一个日期在一个促销期内，则设置date_dim表的promo_ind列为‘Y’。

2. 测试
使用下面的命令执行按需装载。

./on_demand.sh

使用下面的查询验证结果。

select case when year is null then '' else cast(year as string) end as year,       case when year is null then '' else cast(month as string) end as month,       count,       case when year is null then '' else cast(start_date as string) end as start_date,       case when year is null then '' else cast(end_date as string) end as end_datefrom (select year,       month,       count(*) count,       min(date) start_date,       max(date) end_date,       case when year is null then 1 else 0 end as flg   from date_dim  where promo_ind = 'Y'  group by year,month grouping sets((year,month),()) cluster by flg,year,month) t;

查询结果如下图所示。

在五个促销期里有共有83的促销日。第一个周期有10天（2016年4月1日、2016年4月2日;…2016年4月10日），第二个促销周期有16天（2016年5月5日，2016年5月6日;…2016年5月20日），等等。查询第一个周期应该有10天的promo_ind列上具有‘ Y’值。

推荐阅读

timestamp
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
timestamp
【数据结构】线段数/segment tree/interval tree

【线段树】　　本质是二叉树，每个节点表示一个区间[L,R]，设m(R-L+1)2(该处结果向下取整)左孩子区间为[L，m]，右孩子区间为[m ... [详细]

蜡笔小新 2024-11-14 23:11:47
config
Spring Boot 中使用 spring-boot-starter-quartz 实现定时任务

本文介绍了如何在 Spring Boot 项目中使用 spring-boot-starter-quartz 组件实现定时任务，并将 cron 表达式存储在数据库中，以便动态调整任务执行频率。 ... [详细]

蜡笔小新 2024-11-14 18:55:09
php
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
php
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
search
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
search
将.o文件链接到.elf文件时

我有一个从C项目编译的.o文件，该文件引用了名为init_static_pool ... [详细]

蜡笔小新 2024-11-14 10:07:21
search
2017.11.26【清华集训2017】模拟

T15483.【清华集训2017模拟11.26】简单路径T25484.【清华集训2017模拟11.26】快乐树T35485.【清华集训2017模拟11.26】字符串T1结论题，结论很 ... [详细]

蜡笔小新 2024-11-13 20:25:28
search
剑指Offer 44. 反转字符串中的单词

题目描述：牛客网新员工Fish每天早上都会拿着一本英文杂志，在本子上写下一些句子。他的同事Cat对这些句子非常感兴趣，但发现这些句子的单词顺序被反转了。例如，“student. a am I”实际上是“I am a student.”。Cat请求你帮助他恢复这些句子的正常顺序。 ... [详细]

蜡笔小新 2024-11-13 19:40:26
timestamp
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
search
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
ascii
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
ascii
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
list
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57

dsjdsjdsjjk_896

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章