当前位置: 开发笔记 > 后端 > 正文

参与的项目

作者：福州精诚小家电 | 来源：互联网 | 2023-08-16 08:29

离线数据仓库项目:需求来自二个方面流量域需求:业务域需求:整体方案:数据收集:主要收集了用户行为数据和业务数据用户行为数据1，日志前端埋点，生成日志数据2，数据采集

离线数据仓库项目:
需求来自二个方面
流量域需求:
业务域需求:

整体方案:
数据收集:主要收集了用户行为数据和业务数据
用户行为数据
1，日志前端埋点，生成日志数据
2，数据采集
3，kafka缓存
4，Flume采集落地hdfs
5，日志预处理
6，落hive数仓明细层
业务数据
1，业务系统增删改数据库，形成数据
2，Sqoop/DataX数据抽取
3，落hive数仓明细层
4，增量合并处理

数据仓库
A.项目中主要涉及技术:
数据采集：FLUME
存储平台：HDFS
基础设施：HIVE
运算引擎：SPARK SQL
资源调度：YARN
任务调度：AZKABAN
元数据管理：ATLAS

B.模型设计:维度建模
事实表：记录事实的表；比如，订单表，注册表，购物车，退货表，浏览日志表
维度表：对维度的详细描述信息；比如，地域维表，产品维表，品类维表，栏目维表，时间维表；

C.数仓分层运算
ODS层：对应着外部数据源ETL到数仓体系之后的表
数据内容：存放flume采集过来的原始日志
存储格式：以json格式文本文件存储
存储周期：3个月
数据来源于PC,APP,小程序端产生的各类日志
1.将日志服务器的数据通过kafka采集到HDFS中.将数据加载到Hive表中.
2.数据来源于业务系统中的数据库mysql,使用sqoop抽取工具将数据从mysql导入到hdfs中,再将数据加载到Hive表中

DWD层：数仓明细层；一般是对ODS层的表按主题进行加工和划分；本层中表记录的还是明细数据；
数据内容：对ODS层数据做ETL处理后的扁平化明细数据
存储格式：以orc / parquet文件格式存储
存储周期：6个月
流量域:对ODS层的数据进行数据清洗过滤,SESSION分割,数据规范处理,维度集成,新老访客标记等,再保存到DWD层
业务域:抽取ODS层的增量数据,与DWD层的全量数据合并,再次写入DWD层.如订单数据,红包活动明细等

DWS层：数仓汇总层；
数据内容：根据主题分析需求，从DWD中轻度聚合后的数据
存储格式：以ORC/PARQUET文件格式存储
存储周期：1年
对DWD层数据进行轻度聚合,主要为用户行为分析,新用户留存,用户活跃度,订单金额表等

ADS层：应用层，主要是一些结果报表！
数据内容：根据业务人员需求，从DWS计算出来的报表
存储格式：以ORC/PARQUET文件格式存储
存储周期：3年
在公司实际需求的基础上,通过DWS层聚合得到的报表

推荐阅读

mysql
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
缓存
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
缓存
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
mysql
通过Web界面管理Linux日志的解决方案

本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法，使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境，还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-12-24 17:11:38
缓存
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01
jvm
收割机|篇幅_国内最牛逼的笔记，不接受反驳！！

收割机|篇幅_国内最牛逼的笔记，不接受反驳！！ ... [详细]

蜡笔小新 2024-12-14 10:20:42
缓存
Java日常开发的12个坑，你踩过几个？值得一读！

一面问题：MySQLRedisKafka线程算法mysql知道哪些存储引擎，它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]

蜡笔小新 2024-12-12 09:34:47
http
数据埋点技术详解

本文从数据埋点的设计者视角出发，全面解析数据埋点的技术原理、应用场景及其管理方法，涵盖基础知识、实施策略、数据处理流程等内容。 ... [详细]

蜡笔小新 2024-12-11 13:52:49
mysql
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
mysql
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
注入
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
jvm
PySpark实战：高效使用DataFrame超越RDD

本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势，旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]

蜡笔小新 2024-12-15 17:19:11
jvm
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
缓存
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
pip
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22

福州精诚小家电

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章