热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据质量保证和数据质量检测

数据质量保证和数据质量检测:数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。以检测数据仓库的质量为例:原始数据在抽取进入数据仓库后,通过检测数据仓

 

数据质量保证和数据质量检测:

数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。

以检测数据仓库的质量为例:

原始数据在抽取进入数据仓库后,通过检测数据仓库质量问题来修正原始库,从新抽取进入数据仓库。

检测数据仓库的数据质量:

第一层:保证数据的正确性,全面性,唯一性;

第二层:进行数据的转换,得到符合要求的数据值

第三层:对转换的数据进行分析+结果展示

第四层:对结果进行人工的交流,查找,得出结论。

保证数据的正确性的方法:格式验证,最大,。最值限制等

保证全面性:可以通过记录总数来确保。

保证唯一性:通过账期唯一值来确保。

一个数据可能的问题:没插入,多插入,插入错误,插入正确,

123可能的质量问题:12,1233,12W

通过正确性验证(格式等)的为1234,12,123,124,

通过全面性(个数):不会个数不够122,142

通过唯一性验证(拒绝重复,如果是冗余的话,重复的算作一个):不会是存在的错误为124,123

 

 

对剩余的情况:124,123

124无法验证,123为正确的。124可通过分析比较历史得出为预警的,123通过分析比较历史得出为正常值。

第二层:转换:要对环比进行分析,需要得到本账期和上一账期的数据

要进行最值分析:可以得到在限定的最值之内和之外的值

第三层:分析:获取环比值,

将环比值通过图表的方式展示,超过预警值的124被自动记录下来

,提供人工分析的可能。

只有对比历史记录才能分析,

举例:8月环比,可以通过查看7月,6月的环比来进行比较

也可以通过限制值的范围来提醒超值列。

在通过第二层第三层的分析错误数据的过程最好可以保存下来。

再次分析不用建立

开源工具的功能:

过滤,转换 分析 分析结果展示  原因跟踪  

当前工具:datacleaner

功能:可以分析多种源.

可以过滤,转换 分析 分析结果展示

分析形式固定:只有空,最大,最小,波动等,无法定制分析形式

优点:提供分析过程保存,分析结果展示,分析结果保存。

 

感觉分析和质量检测混合在一起了,以分析结果得出数据的质量问题情况,不提供错误的原因。

对数据质量的检测提供了总记录数,数据分布波形,重复记录数的检测,和格式过滤 ,基本可以完成第一层的功能。

无法分析展示环比在某个区间的行和某个区间之外的行.

数据分析:保证了数据偏差得质量问题的同时也进行了数据质量分析.

 

 

 

 

 



推荐阅读
  • 构建Python自助式数据查询系统
    在现代数据密集型环境中,业务团队频繁需要从数据库中提取特定信息。为了提高效率并减少IT部门的工作负担,本文探讨了一种利用Python语言实现的自助数据查询工具的设计与实现。 ... [详细]
  • 本文由公众号【数智物语】(ID: decision_engine)发布,关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程,介绍了41款实用工具,旨在帮助数据科学家和分析师提升工作效率。 ... [详细]
  • 将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)
    随着Oracle ADW的推出,数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例,探讨如何高效地将XML数据迁移至ADW。 ... [详细]
  • 面对众多的数据分析工具,如何选择最适合自己的那一个?对于初学者而言,了解并掌握几种核心工具是快速入门的关键。本文将从数据处理的不同阶段出发,推荐三种广泛使用的数据分析工具。 ... [详细]
  • MVC模式下的电子取证技术初探
    本文探讨了在MVC(模型-视图-控制器)架构下进行电子取证的技术方法,通过实际案例分析,提供了详细的取证步骤和技术要点。 ... [详细]
  • 数据库环境:SQLSERVER2005  有一个test表,其表结构及数据如下图1。其中,id是主键,mid是当前节点,pid是父节点。要求:查出每个节点的根节点,如图2所示。 ... [详细]
  • javascript——对象的概念——函数 1 (函数对象的属性和方法)
    一、创建函数函数是一种对象:Function类是对象,可以通过Function实例化一个函数,不过最多的还是利用function来创建函数。方式一:利用Function类来实例化函 ... [详细]
  • 本文介绍了如何在Laravel框架中使用Select方法进行数据库查询,特别是当需要根据传入的分类ID查询相关产品时的正确做法和注意事项。 ... [详细]
  • 深入解析轻量级数据库 SQL Server Express LocalDB
    本文详细介绍了 SQL Server Express LocalDB,这是一种轻量级的本地 T-SQL 数据库解决方案,特别适合开发环境使用。文章还探讨了 LocalDB 与其他轻量级数据库的对比,并提供了安装和连接 LocalDB 的步骤。 ... [详细]
  • IEC60825激光产品安全标准详解
    随着激光技术在全球范围内的广泛应用,尤其是激光投影显示技术的兴起,了解和遵守相关的安全标准变得尤为重要。本文将详细介绍IEC60825激光产品安全标准及其重要性。 ... [详细]
  • 本文详细介绍了Oracle RMAN中的增量备份机制,重点解析了差异增量和累积增量备份的概念及其在不同Oracle版本中的实现。通过对比两种备份方式的特点,帮助读者选择合适的备份策略。 ... [详细]
  • Mysqlcheck作为MySQL提供的一个实用工具,主要用于数据库表的维护工作,包括检查、分析、修复及优化等操作。本文将详细介绍如何使用Mysqlcheck工具,并提供一些实践建议。 ... [详细]
  • SQL 数据恢复技巧:利用快照实现高效恢复
    本文详细介绍了如何在 SQL 中通过数据库快照实现数据恢复,包括快照的创建、使用及恢复过程,旨在帮助读者深入了解这一技术并有效应用于实际场景。 ... [详细]
  • Redis: 高效的键值存储系统
    Redis是一款遵循BSD许可的开源高性能键值存储系统,它不仅支持多种数据类型的存储,还提供了数据持久化和复制等功能,显著区别于其他键值缓存解决方案。 ... [详细]
  • 了解如何轻松隐藏Excel中的工作表和单元格,提升数据管理效率,保持工作表整洁有序。 ... [详细]
author-avatar
mobiledu2502890777
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有