当前位置: 开发笔记 > 后端 > 正文

大数据可以经常查吗(怎么知道自己的大数据好不好)

作者：gbn3312168 | 来源：互联网 | 2023-07-25 10:01

未建设数仓前，需要对多个源表进行查询分析，查询慢，数据质量差，无法进行高价值的数据分析。数据库一般存储在线交易数据，数据仓库反应的是历史信息，存储历史数据，不可修改。数据库尽量避免

随着大数据时代悄然到来，大数据的价值逐渐得到广泛认同。有效管理大数据，沉淀在数据资产中，在内部实现数据资产的增值，在外部实现数据共享的变体，是企业共同的诉求。

但是，企业在管理基础数据时，往往面临着各种各样的挑战。各业务系统分散，形成信息孤岛；未制定统一的数据标准；数据处理能力弱的数据不互联，难以建立数据共享机制。

本文介绍了大数据管理的两个重要概念：数据仓库、数据治理。

数据仓库

|什么是数据仓库

数据仓库是基于数据库的建设过程，是面向主题、集成、相对稳定、反映历史变化的数据集合，支持管理决策。

在建造未完成的仓库之前，需要对多个源表进行查询分析，查询慢，数据质量差，无法进行高价值的数据分析。通过建设数仓，可以在一个地方迅速访问多个系统源数据，迅速应对OLAP分析；提供数据质量和一致性的提高历史数据存储；有助于数据价值的挖掘和数据分析。

|数据仓库和数据库的区别

数据库是面向事物的设计，关注业务交易处理(OLTP )的数据仓库是面向主题设计的，关注数据分析水平(OLAP )。

数据库存储在线交易数据，数据仓库反映历史信息，存储历史数据，不能更改。

数据库尽量避免冗余，数据仓库故意具有冗余，并在空间中改变时间。

以银行业务为例，客户在银行的各项交易需要写入数据库进行记录，起到“记账”的作用，是事物系统的数据平台；数据仓库是分析系统的数据平台，从办公系统获取数据进行汇总加工，支持某分店每月发生多少交易，当前有多少存款等分析决策，决定是否需要增加ATM。

|整个数据仓库的框架

数据源层：

清点需要访问数据仓库的数据源、数据库、结构化电子文件、非结构化数据文件、行为日志等。最终访问数据仓库时，所有数据类型都将转换为两种数据格式：数据库表和电子化结构化文件。

数据访问层：

根据上层APP的场景不同，访问可以分为实时访问和批量访问。

实时访问：对实时访问的数据，通过流方式写入kafka，制作主题，以供后续消费；

批量访问：对于批量访问的数据，主要有四种处理逻辑。

写入Kafka的数据由spark消耗，处理后写入HDFS，加载到hive表中； FTP方式批量传输；使用sqoop将数据库数据批量迁移到HDFS或hive；数据共享交换平台提取并签入数据库或文件数据。

数据计算层：

ETL任务开发，根据需要生成对应的事实-维表或市场级表。业界通常将数据仓库构建为四层体系结构。

STG层，主要是用于接收源系统提供的数据的缓冲层； ODS层，保存与便于数据质量鉴定和数据处理的源系统相同的数据结构的运营数据存储层。缓冲层的增量数据在该层进行数据合并。对DW层、数据仓库和访问数据进行建模和构建，形成所有主题的共同集合。为DM层、数据集市和某个业务APP构建的本地DW。

图：从ODS集成到DW的示例

资料APP层：

有很多基于数仓的顶级APP应用。例如：

实时统计类：通过流媒体处理，将数据汇总为简单的指标，应用端实时展示指标结果；多维分析类：提供可用作BI报表数据基础的多维分析模型的多维复合分析(切片、切片、钻孔、旋转等)产品应用类：标签图像系统基于数仓处理的数据，提供宏观图像和微观图像的分析，从而知识图谱可以根据数仓整理的数据，与实体进行关系的构建；数据服务类：向外部提供接口形式的数据查询和传输，或进行大量数据的数据库导入导出服务(下)；数据治理

|为什么要进行数据治理

通过数据治理技术手段和产品工具优化分布式、多样化的核心数据，形成企业内部的数据管理体系，结合企业的组织结构，形成数据管理执行体系，在企业内部持续运用，提高挖掘数据的应用价值。

数据治理最终实现的目标可以分为以下六类。

统一：统一数据标准，建立统一的数据资产管理体系；质量：提高数据质量的成本，包括准确性、一致性和及时性：优化数据生命周期，降低数据管理和运输成本；安全性：确保数据安全，加强数据访问控制增值：保证数据资产的有效利用和价值最大化，保证数据资产的保值和增值； APP :输出并支持上层企业内外APP应用。 |如何进行数据治理？

数据管理的三个要素：数据标准、数据质量鉴定、元数据管理。一个一个展开说吧。

数据标准

从业务的角度来定义，如设备类、会员类的数据，有不同渠道的来源，但在同一意义上，必须统一口径规范、数据与数据之间的规范；

从技术角度定义，表、场、场形式等都要统一规范。例如，ID信息、手机号码、身份证号码等。

数据标准来源

可以是国家标准、行业标准，也可以是基于业务的企业标准。

定义完数据标准后，对于新新建设的数据平台，要采用统一的数据标准；对于已存在的业务系统，在不影响线上的原则上，逐步数据标准接轨。标准执行后，要长期稽核监测，并输出数据标准校核报告。

图：数据标准管理周期

数据质量稽核

以数据标准为数据管控的入口，依据数据标准定数据质量检核规则。对于数据的稽核，有以下八类稽核规则，前六类是单表级校验，后两类是多表级校验：

记录数校验：稽核单表内写入的数值是否在指定的阈值范围内；空值校验：稽核某一列数据是否含有空值；唯一性校验：稽核某一列的数据是否都唯一；数据格式校验：稽核某一列的数据是否符合指定格式规范，如手机号格式校验；准确性校验：稽核某一列的数值是否在一定范围内（包括维度和阈值）；波动值校验：监测某一列的记录数或某字段数据值，与历史的业务周期的数值波动是否异常；一致性校验（多表）：多表间的数据是否一致；逻辑性校验（多表）：校验稽核表与参照表里某一列或某几列数据的表达式进行比较，检查数据逻辑是否正确。例如“可视电话用户情况统计”表中的字段“总的出账用户”>=“可视电话用户使用特征统计”表中的字段“记录中总的出账用户”。

元数据管理

元数据就是定义数据的数据，比如一本书的书名、作者、出版社、出版时间都是元数据。

血缘分析：血缘分析是指从某一实体出发，往回追溯其处理过程，直到数据系统的数据源接口，以衡量数据的置信度、质量等。影响分析：影响分析是指从某一实体出发，寻找依赖该实体的处理过程实体或其他实体。重点关注数据流向，把控源头实体发生变更时对下游实体的影响。如移动用户话务信息表->移动大客户信息表->前端展示的竞争专题/用户分析或决策专题/市场分析。

Garbage in,Garbage out。这个是永恒的真理。只有将底层的基础数据管理好，才能更有效的支撑上层的大数据应用。

作者：Herman Lee 沉淀个人的产品方法论

推荐阅读

java
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
php
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
分布式
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
分布式
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
分布式
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38
分布式
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
java
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
分布式
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
java
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
分布式
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35
php
MicroATX与MATX：主板规格详解

本文详细介绍了MicroATX（也称Mini ATX）和MATX主板规格，探讨了它们的结构特点、应用场景及对电脑系统成本和性能的影响。同时，文章还涵盖了相关操作系统的实用技巧，如蓝牙设备图标删除、磁盘管理等。 ... [详细]

蜡笔小新 2024-12-25 18:53:29
java
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
php
0626TP整理二(调试模式，空操作，跨控制器调用，跨方法跳转redirect()，框架语法，创建model模型)...

一、调试模式（入口文件:index.php）define(APP_DEBUG,true);调试模式define(APP_DEBUG,FALSE);运行模 ... [详细]

蜡笔小新 2024-12-25 14:49:20
service
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
cookies
深入解析网站流量统计中的PV、UV和IP

本文详细探讨了网站流量统计中常用的三个关键指标：页面浏览量（PV）、独立访客数（UV）和独立IP数（IP）。通过分析这些指标的定义、计算方法及其应用场景，帮助网站运营者更好地理解用户行为，优化网站内容与用户体验。 ... [详细]

蜡笔小新 2024-12-24 23:33:04

gbn3312168

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章