热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据可以经常查吗(怎么知道自己的大数据好不好)

未建设数仓前,需要对多个源表进行查询分析,查询慢,数据质量差,无法进行高价值的数据分析。数据库一般存储在线交易数据,数据仓库反应的是历史信息,存储历史数据,不可修改。数据库尽量避免


随着大数据时代悄然到来,大数据的价值逐渐得到广泛认同。 有效管理大数据,沉淀在数据资产中,在内部实现数据资产的增值,在外部实现数据共享的变体,是企业共同的诉求。


但是,企业在管理基础数据时,往往面临着各种各样的挑战。 各业务系统分散,形成信息孤岛;未制定统一的数据标准;数据处理能力弱的数据不互联,难以建立数据共享机制。


本文介绍了大数据管理的两个重要概念:数据仓库、数据治理。


数据仓库


|什么是数据仓库


数据仓库是基于数据库的建设过程,是面向主题、集成、相对稳定、反映历史变化的数据集合,支持管理决策。


在建造未完成的仓库之前,需要对多个源表进行查询分析,查询慢,数据质量差,无法进行高价值的数据分析。 通过建设数仓,可以在一个地方迅速访问多个系统源数据,迅速应对OLAP分析; 提供数据质量和一致性的提高历史数据存储; 有助于数据价值的挖掘和数据分析。


|数据仓库和数据库的区别


数据库是面向事物的设计,关注业务交易处理(OLTP )的数据仓库是面向主题设计的,关注数据分析水平(OLAP )。


数据库存储在线交易数据,数据仓库反映历史信息,存储历史数据,不能更改。


数据库尽量避免冗余,数据仓库故意具有冗余,并在空间中改变时间。


以银行业务为例,客户在银行的各项交易需要写入数据库进行记录,起到“记账”的作用,是事物系统的数据平台; 数据仓库是分析系统的数据平台,从办公系统获取数据进行汇总加工,支持某分店每月发生多少交易,当前有多少存款等分析决策,决定是否需要增加ATM。


|整个数据仓库的框架




数据源层:


清点需要访问数据仓库的数据源、数据库、结构化电子文件、非结构化数据文件、行为日志等。 最终访问数据仓库时,所有数据类型都将转换为两种数据格式:数据库表和电子化结构化文件。


数据访问层:


根据上层APP的场景不同,访问可以分为实时访问和批量访问。


实时访问:对实时访问的数据,通过流方式写入kafka,制作主题,以供后续消费;


批量访问:对于批量访问的数据,主要有四种处理逻辑。


写入Kafka的数据由spark消耗,处理后写入HDFS,加载到hive表中; FTP方式批量传输; 使用sqoop将数据库数据批量迁移到HDFS或hive; 数据共享交换平台提取并签入数据库或文件数据。


数据计算层:


ETL任务开发,根据需要生成对应的事实-维表或市场级表。 业界通常将数据仓库构建为四层体系结构。


STG层,主要是用于接收源系统提供的数据的缓冲层; ODS层,保存与便于数据质量鉴定和数据处理的源系统相同的数据结构的运营数据存储层。 缓冲层的增量数据在该层进行数据合并。 对DW层、数据仓库和访问数据进行建模和构建,形成所有主题的共同集合。 为DM层、数据集市和某个业务APP构建的本地DW。


图:从ODS集成到DW的示例


资料APP层:


有很多基于数仓的顶级APP应用。 例如:


实时统计类:通过流媒体处理,将数据汇总为简单的指标,应用端实时展示指标结果; 多维分析类:提供可用作BI报表数据基础的多维分析模型的多维复合分析(切片、切片、钻孔、旋转等)产品应用类:标签图像系统基于数仓处理的数据,提供宏观图像和微观图像的分析,从而知识图谱可以根据数仓整理的数据,与实体进行关系的构建; 数据服务类:向外部提供接口形式的数据查询和传输,或进行大量数据的数据库导入导出服务(下);数据治理


|为什么要进行数据治理


通过数据治理技术手段和产品工具优化分布式、多样化的核心数据,形成企业内部的数据管理体系,结合企业的组织结构,形成数据管理执行体系,在企业内部持续运用,提高挖掘数据的应用价值。


数据治理最终实现的目标可以分为以下六类。


统一:统一数据标准,建立统一的数据资产管理体系; 质量:提高数据质量的成本,包括准确性、一致性和及时性:优化数据生命周期,降低数据管理和运输成本; 安全性:确保数据安全,加强数据访问控制增值:保证数据资产的有效利用和价值最大化,保证数据资产的保值和增值; APP :输出并支持上层企业内外APP应用。 |如何进行数据治理?


数据管理的三个要素:数据标准、数据质量鉴定、元数据管理。 一个一个展开说吧。


数据标准


从业务的角度来定义,如设备类、会员类的数据,有不同渠道的来源,但在同一意义上,必须统一口径规范、数据与数据之间的规范;


从技术角度定义,表、场、场形式等都要统一规范。 例如,ID信息、手机号码、身份证号码等。


数据标准来源

可以是国家标准、行业标准,也可以是基于业务的企业标准。

定义完数据标准后,对于新新建设的数据平台,要采用统一的数据标准;对于已存在的业务系统,在不影响线上的原则上,逐步数据标准接轨。标准执行后,要长期稽核监测,并输出数据标准校核报告。

图:数据标准管理周期

数据质量稽核

以数据标准为数据管控的入口,依据数据标准定数据质量检核规则。对于数据的稽核,有以下八类稽核规则,前六类是单表级校验,后两类是多表级校验:

记录数校验:稽核单表内写入的数值是否在指定的阈值范围内;空值校验:稽核某一列数据是否含有空值;唯一性校验:稽核某一列的数据是否都唯一;数据格式校验:稽核某一列的数据是否符合指定格式规范,如手机号格式校验;准确性校验:稽核某一列的数值是否在一定范围内(包括维度和阈值);波动值校验:监测某一列的记录数或某字段数据值,与历史的业务周期的数值波动是否异常;一致性校验(多表):多表间的数据是否一致;逻辑性校验(多表):校验稽核表与参照表里某一列或某几列数据的表达式进行比较,检查数据逻辑是否正确。例如“可视电话用户情况统计”表中的字段“总的出账用户”>=“可视电话用户使用特征统计”表中的字段“记录中总的出账用户”。

元数据管理

元数据就是定义数据的数据,比如一本书的书名、作者、出版社、出版时间都是元数据。

血缘分析:血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口,以衡量数据的置信度、质量等。影响分析:影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。重点关注数据流向,把控源头实体发生变更时对下游实体的影响。如移动用户话务信息表->移动大客户信息表->前端展示的竞争专题/用户分析 或 决策专题/市场分析。

Garbage in,Garbage out。这个是永恒的真理。只有将底层的基础数据管理好,才能更有效的支撑上层的大数据应用。

作者:Herman Lee 沉淀个人的产品方法论


推荐阅读
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • Java虚拟机及其发展历程
    Java虚拟机(JVM)是每个Java开发者日常工作中不可或缺的一部分,但其背后的运作机制却往往显得神秘莫测。本文将探讨Java及其虚拟机的发展历程,帮助读者深入了解这一关键技术。 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 对象存储与块存储、文件存储等对比
    看到一篇文档,讲对象存储,好奇,搜索文章,摘抄,学习记录!背景:传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 分布式计算助力链力实现毫秒级安全响应,确保100%数据准确性
    随着分布式计算技术的发展,其在数据存储、文件传输、在线视频、社交平台及去中心化金融等多个领域的应用日益广泛。国际知名企业如Firefox、Google、Opera、Netflix、OpenBazaar等均已采用该技术,推动了技术创新和服务升级。 ... [详细]
  • 在Linux系统中使用EncFS实现文件夹加密
    为了保护个人隐私或敏感数据不被未经授权的访问,可以通过加密技术来增强安全性。本文介绍如何在Linux系统上使用EncFS工具创建和管理加密文件夹,以确保即使在系统登录状态下,特定文件夹中的数据也保持加密状态。 ... [详细]
  • Hibernate全自动全映射ORM框架,旨在消除sql,是一个持久层的ORM框架1)、基础概念DAO(DataAccessorOb ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • 龙蜥社区开发者访谈:技术生涯的三次蜕变 | 第3期
    龙蜥社区的开发者们通过自己的实践和经验,推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型,分享他在龙蜥社区的成长故事。 ... [详细]
  • 解决PHP项目在服务器无法抓取远程网页内容的问题
    本文探讨了在使用PHP进行后端开发时,遇到的一个常见问题:即在本地环境中能够正常通过CURL获取远程网页内容,但在服务器上却无法实现。我们将分析可能的原因并提供解决方案。 ... [详细]
  • 本文总结了一次针对大厂Java研发岗位的面试经历,探讨了面试中常见的问题及其背后的原因,并分享了一些实用的面试准备资料。 ... [详细]
  • 本文记录了在Windows 8.1系统环境下,使用IIS 8.5和Visual Studio 2013部署Orchard 1.7.2过程中遇到的问题及解决方案,包括503服务不可用错误和web.config配置错误。 ... [详细]
  • 本文总结了近年来在实际项目中使用消息中间件的经验和常见问题,旨在为Java初学者和中级开发者提供实用的参考。文章详细介绍了消息中间件在分布式系统中的作用,以及如何通过消息中间件实现高可用性和可扩展性。 ... [详细]
author-avatar
gbn3312168
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有