热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据中台实战:如何做好数据质量管理与分析

企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值

企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。

那么,如何做好数据质量管理与分析呢?

本文共4000字,全部读完需要10分钟!

关于数据中台,此前已分享了系列文章:

建设中台:难点是技术问题?不!其实是认知问题

详解技术中台、业务中台和数据中台,一知半解最迷惑!

数据库VS数仓VS数据平台VS数据中台,详解数据平台发展的4个阶段

数据中台实战:企业如何进行数据资产管理

企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。

企业有多个业务系统,会产生很多的数据。但是,在大数据中的大对应的就是少,因为越是真实的业务数据,数据量就越大,但是可用的信息比例就越少,实际得到的更多是噪音数据。如果在做数据分析与挖掘时,拟合了噪音数据,那就被数据绑架了。

数据本身是不会撒谎,而是收集样本的维度、数据量会撒谎,毕竟收集数据的质量良莠不齐。然而,数据质量又常常反映的是数据的“适用性”,即数据满足使用时需要的合适程度。

那么,需要如何进行有效的数据质量管理与分析才能满足数据的适用性呢?本篇,按顺序介绍如下:

数据质量问题盘点与分析

数据质量管理方法与步骤

数据质量管理的注意事项

1、数据质量问题盘点与分析

维基百科的定义,数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。

企业需要通过有效手段对数据进行管理与控制,改善数据质量问题,从而提升数据质量,发挥数据的价值。数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业一切业务能力的基础。

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量四大问题域图

数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量问题分析图

从上述数据质量问题的影响因素分析可以发现,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。

一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。

从信息、技术和流程三个方面的数据质量问题相对来说比较容易控制,可以通过引入数据质量管理体系和数据质量管理系统;对于管理类的数据质量问题,更多往往在于企业人对于数据的理解、支持和认知程度有很大的关系,通常可以从数据规划、数据治理的组织与职责、数据规范的制度和流程等方面去做工程规划。

所以,想要真正从根源上改进数据质量问题,需要从组织管理、业务、技术三个方面同时入手。

2、数据质量管理方法与步骤

在之前一篇【数据中台实战:企业如何进行数据资产管理】

文章中,笔者已经提到过数据资源规划的重要性以及具体的工程方法与步骤。企业做数据资源规划前要对数据进行详细的梳理,只有梳理出企业的数据现状,统计出数据来源,确定数据资源分类,做好数据分析评估,才能找到据资源规划的解决方法。然而,企业做数据资源规划的前提是要保证数据质量。

从方法论的角度来看,针对数据的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等环节;

从业务的角度来看,针对数据的改善和管理,主要包括业务需求与变更多级评审、规范业务端数据输入规范、稽核业务数据质量等内容;

从技术的角度来看,针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量管理的三要素

1、数据梳理

数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。

梳理企业目前的数据情况,知道企业现阶段有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,数据安全和数据隐私是什么情况;业务可以采集到什么数据;还缺什么数据以及目前企业数据建设的情况,做好数据评估与分析报告,为数据质量提升提供一个全方位的数据现状参考。

业内通常采用以下方式,对数据质量进行评估:

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量标准图

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量评估图

从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的

只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。

2、数据规范

从数据模型和数据标准两个方面定义好数据规范。

数据模型是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。

数据标准是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。

在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。

所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。

常用的策略有以下几种:

1、在需求规划阶段,梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;

2、在数据获取阶段,重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;

3、在数据存储和共享阶段,重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。

3、数据生命周期

数据的生命周期需从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个步骤,是一个不断循环迭代的过程。

企业需要对数据流动的整个生命周期的每个环节进行监控把关,要知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。流动数据的价值远远大于静态数据的价值,只有以业务为中心,才能真正让数据用起来。

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据生命周期图

主要可以从数据标准的规划设计、数据建模、数据质量监控、数据问题诊断、数据清洗、优化完善迭代等方面。比如,当企业元数据、主数据、数据格式、数据校验方式都不一致的情况之下,会导致业务部门对数据进行分析与挖掘的过程中会产生很大的困惑,业务部门需要经过大量的沟通和调查,才能真正理解数据的含义和本质。可以使用数据生命周期的分析思路,在管理和流程上明确数据维护的责任主体,从源头开始就对数据质量进行监控,对关键的元数据、主数据进行统一,将能有效的解决数据质量问题。

数据需求规划与设计。从需求开始,将数据质量的重要性结合到日常的工作环境中,让数据相关使用人员统一认知,明确知道数据质量的重要性,从需求源头系统开始保证数据质量。比如,涉及到数据需求、研发人员数据库表的设计、数据创建、数据录入、数据存储、数据处理等方面的设计

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量体系建设图

数据质量监控与诊断。结合数据的生命周期,对数据业务生产线中的每个步骤进行监控与检查。根据各个业务线自身的特性梳理出人工业务规则,前期先采用人工规则的方式对数据质量进行核验,建立规则案例库;持续积累核验数据,后期人工规则与机器学习的方式对数据进行检测。比如,采用分组或者抽样的方式,基于数据评估指标体系对一批数据做数据质量的检查,设定阈值和权重,确定数据是否满足一定的质量区间,对数据质量进行全方位监控

数据质量管理的方法。利用元数据、主数据监控数据使用的情况;基于数据规范与标准,创建统一的数据模型来解决架构设计和数路开发的不一致性;利用数据质量评估报告,迭代优化数据质量,全方面确保数据的完整性、准确性、一致性、及时性。

3、数据质量管理的注意事项

数据质量管理,大数据质量管理,如何做好数据分析,数据质量分析,数据质量管理方法

数据质量控制方式图

1、事前通过定义数据的监控规则预防控制。比如,定义数据规范化、数据标准化、做好元数据管理,确定引起数据质量问题的相关因素,做好解决数据质量问题的优先级,并形成案例库;

2、事中通过监控和控制数据生成过程预防控制。建立数据质量的流程化控制体系,定时对数据的新建、变更、采集、加工、装载、应用等各个环节进行控制和检查;通过业务人工规则和机器学习的审核方式对数据进行管理,从数据的源头开始控制好数据质量,对于不符合质量规则的数据进行及时改进;

3、事后定期开展数据质量的分析、检查、清洗工作,对数据进行打分和问题追踪回溯。

总结一下

数据质量管理是数据治理很重要的一个部分,企业数据治理的所有工作都是围绕着提升数据质量目标而展开的。但是,数据治理是王婆娘的裹脚布,也是政治斗争的绞肉机。治理与管理是两个矛盾的对立面,数据的质量归根结底主要是受到人的影响,仅仅试图依赖技术手段解决数据质量问题的效果往往甚微。

所以,想要做好数据质量管理,希望可以做到以下几点:

1、统一企业数据相关人员的认知,从数据录入、数据分析处理入手,把握好数据来源入口;

2、确定好每个阶段的组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果,从数据发现、分发、治理、监督、考核形成流程化的闭环管理;

3、从管理、业务、技术三方面进行规范,严格执行数据标准规范,保证数据输入端的正确性,制度好数据事前预防控制、事中过程控制、事后监督控制的规则与机制。

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。


推荐阅读
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会
    2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将以“数领先机•智赢未来”为主题,设定2大主会场及20个技术专场,邀请来自国内外互联网、金融、教育等行业百余 ... [详细]
  • 物联网、工业互联网大数据的特点-随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环、共享出行、智能电表、环境监测设备到电梯、数控机床、挖掘机、工业生产线等都在源 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了2019年上半年内蒙古计算机软考考试的报名通知和考试时间。考试报名时间为3月1日至3月23日,考试时间为2019年5月25日。考试分为高级、中级和初级三个级别,涵盖了多个专业资格。报名采取网上报名和网上缴费的方式进行,报考人员可登录内蒙古人事考试信息网进行报名。详细内容请点击查看。 ... [详细]
  • Unity3D引擎的体系结构和功能详解
    本文详细介绍了Unity3D引擎的体系结构和功能。Unity3D是一个屡获殊荣的工具,用于创建交互式3D应用程序。它由游戏引擎和编辑器组成,支持C#、Boo和JavaScript脚本编程。该引擎涵盖了声音、图形、物理和网络功能等主题。Unity编辑器具有多语言脚本编辑器和预制装配系统等特点。本文还介绍了Unity的许可证情况。Unity基本功能有限的免费,适用于PC、MAC和Web开发。其他平台或完整的功能集需要购买许可证。 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 一.常见基于身份识别进行反爬1通过headers字段来反爬headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫1.1通过headers中的User-A ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
author-avatar
可爱的你公馆_698
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有