关于大数据T+1执行流程

作者：手机用户2602914627 | 来源：互联网 | 2023-07-07 21:24

关于大数据T1执行流程前提：搭建好大数据环境（hadoophivehbasesqoopzookeeperooziehue）1.将所有数据库

关于大数据T&＃43;1执行流程

前提&＃xff1a; 搭建好大数据环境&＃xff08;hadoop hive hbase sqoop zookeeper oozie hue&＃xff09;

1.将所有数据库的数据汇总到hive (这里有三种数据源 ORACLE MYSQL SEQSERVER)

全量数据抽取示例&＃xff1a;

ORACLE&＃xff08;注意表名必须大写&＃xff01;&＃xff01;&＃xff01;&＃xff09;

sqoop import --connect jdbc:oracle:thin:&＃64;//10.11.22.33:1521/LPDR.china.com.hh --username root --password 1234 \ --table DATABASENAME.TABLENAME --hive-overwrite --hive-import --hive-database bgda_hw --hive-table lp_tablename \ --target-dir /user/hadouser_hw/tmp/lp_tablename --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

MYSQL:

sqoop import --connect jdbc:mysql://10.33.44.55:3306/DATABASEBANE --username ROOT --password 1234 \ --query &＃39;select * from DEMO t where t.DATE1 --hive-overwrite --hive-import --hive-database bgda_hw --hive-table DEMO \ --target-dir /user/hadouser_hw/tmp/DEMO --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

SQLSERVER:

sqoop import --connect &＃39;jdbc:sqlserver://10.55.66.15:1433;username&＃61;ROOT;password&＃61;ROOT;database&＃61;db_DD&＃39; \ --query &＃39;select * from TABLE t where t.tasktime --hive-overwrite --hive-import --hive-database bgda_hw --hive-table TABLENAME \ --target-dir /user/hadouser_hw/tmp/TABLENAME --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

2.　　编写hive脚本&＃xff0c;对数据进行处理

说明&＃xff1a;

data 存储T&＃43;1跑出来的数据信息&＃xff0c;只存一天的数据量

data_bak : 存储所有的数据信息

&＃xff08;初始化脚本&＃xff09;

use bgda_hw; set hive.auto.convert.join&＃61;false;drop table data_bak; create table data_bak(scanopt string ,scanoptname string ,statisdate string ) row format delimited fields terminated by &＃39;\001&＃39;; insert overwrite table data_bak SELECT a.scanopt ,x0.name as scanoptname ,to_date(a.scandate) as statisdate from bgda_hw.scan a left outer join bgda_hw.user x0 on x0.userid &＃61; a.scanopt where 1&＃61;1 and datediff(a.scandate,&＃39;2019-01-01&＃39; )>&＃61;0 and datediff(a.scandate,&＃39;2019-09-20&＃39; )<0 GROUP BY a.scanopt,x0.name,a.scandate order by a.scandate ;

&＃xff08;t&＃43;1脚本&＃xff09;

use bgda_hw; set hive.auto.convert.join&＃61;false;drop table data; create table data(scanopt string ,scanoptname string ,statisdate string ) row format delimited fields terminated by &＃39;\001&＃39;; insert overwrite table data SELECT a.scanopt ,x0.name as scanoptname ,to_date(a.scandate) as statisdate from bgda_hw.scan a left outer join bgda_hw.user x0 on x0.userid &＃61; a.scanopt where 1&＃61;1 and a.scandateand a.scandate>&＃61;date_add(from_unixtime(unix_timestamp(),&＃39;yyyy-MM-dd&＃39;),-1) GROUP BY a.scanopt,x0.name,a.scandate order by a.scandate ;insert into table data_bak select * from data ;

3.将结果数据抽取到结果库里

sqoop export \ --connect jdbc:mysql://10.6.0.115:3306/report \ --username root \ --password 1234 \ --table data \ --export-dir /user/hive/warehouse/bgda_hw.db/data \ --columns scanopt,scanoptname,statisdate \ --fields-terminated-by &＃39;\001&＃39; \ --lines-terminated-by &＃39;\n&＃39; \ --input-null-string &＃39;\\N&＃39; \ --input-null-non-string &＃39;\\N&＃39;

4.定义调度信息&＃xff08;oozie&＃xff09;,每天定时跑出结果数据&＃xff0c;自动抽取到结果库中

HUE的基本使用

定义工作流信息

先进入workflow

开始定义

选定要执行的脚本

定义定时任务

先进入定时任务页面

新建定时任务

定时任务详细定义&＃xff08;点击Options ,选择ShangHai时区&＃xff0c;然后定义任务执行时长&＃xff08;例如从2019年到2099年&＃xff0c;最后保存&＃xff0c;保存好后记得点击执行&＃xff01;&＃xff01;&＃xff01;&＃xff09;&＃xff09;

5.配置可视化组件展示数据 saiku

这部分详细教程请参考 https://www.cnblogs.com/DFX339/tag/saiku/

转:https://www.cnblogs.com/DFX339/p/11552665.html

推荐阅读

sum
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
split
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
select
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
string
提升Android开发效率：Clean Code的最佳实践与应用

在Android开发中，提高代码质量和开发效率是至关重要的。本文介绍了如何通过Clean Code的最佳实践来优化Android应用的开发流程。以SQLite数据库操作为例，详细探讨了如何编写高效、可维护的SQL查询语句，并将其结果封装为Java对象。通过遵循这些最佳实践，开发者可以显著提升代码的可读性和可维护性，从而加快开发速度并减少错误。 ... [详细]

蜡笔小新 2024-11-07 16:41:50
default
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
string
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
select
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
default
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
process
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
tree
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
string
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
sum
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
const
Unity与MySQL连接过程中出现的新挑战及解决方案探析

Unity与MySQL连接过程中出现的新挑战及解决方案探析 ... [详细]

蜡笔小新 2024-11-11 09:55:19
config
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
format
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37