数据质量保证和数据质量检测:
数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。
以检测数据仓库的质量为例:
原始数据在抽取进入数据仓库后,通过检测数据仓库质量问题来修正原始库,从新抽取进入数据仓库。
检测数据仓库的数据质量:
第一层:保证数据的正确性,全面性,唯一性;
第二层:进行数据的转换,得到符合要求的数据值
第三层:对转换的数据进行分析+结果展示
第四层:对结果进行人工的交流,查找,得出结论。
保证数据的正确性的方法:格式验证,最大,。最值限制等
保证全面性:可以通过记录总数来确保。
保证唯一性:通过账期唯一值来确保。
一个数据可能的问题:没插入,多插入,插入错误,插入正确,
123可能的质量问题:12,1233,12W
通过正确性验证(格式等)的为1234,12,123,124,
通过全面性(个数):不会个数不够122,142
通过唯一性验证(拒绝重复,如果是冗余的话,重复的算作一个):不会是存在的错误为124,123
对剩余的情况:124,123
124无法验证,123为正确的。124可通过分析比较历史得出为预警的,123通过分析比较历史得出为正常值。
第二层:转换:要对环比进行分析,需要得到本账期和上一账期的数据
要进行最值分析:可以得到在限定的最值之内和之外的值
第三层:分析:获取环比值,
将环比值通过图表的方式展示,超过预警值的124被自动记录下来
,提供人工分析的可能。
只有对比历史记录才能分析,
举例:8月环比,可以通过查看7月,6月的环比来进行比较
也可以通过限制值的范围来提醒超值列。
在通过第二层第三层的分析错误数据的过程最好可以保存下来。
再次分析不用建立
开源工具的功能:
过滤,转换 分析 分析结果展示 原因跟踪
当前工具:datacleaner
功能:可以分析多种源.
可以过滤,转换 分析 分析结果展示
分析形式固定:只有空,最大,最小,波动等,无法定制分析形式
优点:提供分析过程保存,分析结果展示,分析结果保存。
感觉分析和质量检测混合在一起了,以分析结果得出数据的质量问题情况,不提供错误的原因。
对数据质量的检测提供了总记录数,数据分布波形,重复记录数的检测,和格式过滤 ,基本可以完成第一层的功能。
无法分析展示环比在某个区间的行和某个区间之外的行.
数据分析:保证了数据偏差得质量问题的同时也进行了数据质量分析.