热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

指标体系二基础数据层

上周分享了一些有数据之后如何通过维度建立相应指标,后续与一些朋友沟通后发现了一些比较严重

上周分享了一些有数据之后如何通过维度建立相应指标,后续与一些朋友沟通后发现了一些比较严重的问题,就是现在很多企业虽然说有数据,但是这些数据要不然就是纯手工格式混乱,要不然就是脏数据比有用数据多得多,甚至一些企业一直没有将自己的基础数据层建立起来,有也只是存储在各个系统中,所以本周就基础数据层的建设进行一些分享。
基础数据层其实就是我们以前分享过数据仓库分层里面的ODS层,或者比ODS层稍高一点。如果一个企业的基础数据层建设的比较好的话,那么这个企业在数据层面一定是已经达到了数据展示阶段,他的所有数据能够有效利用,各种指标体系也一定是比较完善的,甚至有一整套报表展示体系。而一个成熟的基础数据层应该是什么样子的呢?如下图:
我心目中的健康的成熟的基础数据层的架构
一、基础数据层的数据来源
1.1业务软件系统
在现今社会提起软件应该没有人会不知道,各行各业都有自己的行业软件,包括各种管理软件等,这些软件大部分是按照行业划分的,例如建筑行业的新中大、房地产行业的明源、餐饮行业的天财商龙等,而管理软件则不同,管理软件一般是针对企业管理过程或业务管理过程,例如协同办公里面的OA系统与BPM平台、知识管理里面的企业知识库、财务管理里面的金蝶与用友等。这些软件通过我们日常的操作,生成不同的数据,而这些数据就是我们的工作成果也是基础数据的大头,也是企业重要的资产。而一个成熟的企业基础数据层的数据占比,至少要达到80%才算是比较健康的。
1.2自制、定制系统以及其他手工填报模块
说起这个我一直记得一件事,当时跟行业中的一个朋友聊基础数据层的时候,我说一个企业软件环境在完善也一定有自制或定制系统,甚至有些手工填报都是必须的,如果一个公司的软件环境建设的极为简单,其实可以通过数据提报快速搭建一个个小型业务数据模块,先把数据累计起来,然后在梳理看看是购买成型软件还是找专业乙方定制(使用小型业务模块一段时间之后,业务部门其实也能够准确的把握他们的具体需求,因为很多的业务部门其实在一开始的时候对自己的需求并不是很清晰,这也是为什么很多时候项目进行一半的时候突然业务部门改需求的原因)。当时被他疯狂嘲讽,说你这样干累死,而且数据质量肯定差,并且是不可能的,我说只要前期有些系统能够承担起主数据的责任就不会出现数据混乱,而且模块制作的过程中只要根据业务模式规划好数据就不会出问题,当时讨论到最后也没有个对错。
其实我的思路一直是这样的,通过小型模块快速实现需求,然后业务部门在使用的过程中快速迭代,把业务需求进行完善(类似于现在的业务调研通过axure快速实现页面,让业务部门根据页面进行反馈),挖出真正的需求。而且有很多的时候企业中的业务环节非常频繁,但是市面上却没有这种小小环节的软件,这时候定制、自制小型业务模块的优点就凸显出来了。手工填报系统并不是简单的一个页面,而可能是一个简单的环节。
1.3业务系统+手工填报混合计算数据
这部分数据其实不是很好理解,但是如果你理解为系统中的业务环节与现实中的不匹配了,造成有些数据没有了或者需要二次计算的这种业务的时候就比较好理解了,例如有很多的时候企业中的财务数据有两套,财务数据体系与财务运营体系,有时候可能只是是否含税而有时候涉及各种费用与收入分类不同等。当碰见这些情况的时候,需要将系统中的各项数据拉出来,进行计算后再进行使用。
二、第一处理过程(数据的第一次处理)
第一次处理过程主要有三类,一类是已有系统数据的简单清洗,将一些数据取出再将一些数据的格式进行统一,如yyyy-mm-dd hh:mm:ss格式改为yyyy-mm-dd,第二类是将自制或定制系统与流程体系绑定,完成审批过程。第三类是通过固定公式的方式处理已有数据与新数据的结合。
三、规范数据过程
这一过程是整个体系中最为重要的步骤,如果这个步骤没有按照标准建立或者建立的时候没有考虑过指标的灵活性的话,就会出现指标变动后直接影响数据结构,需要重新计算或梳理。
3.1统一数据标准
这个标准是指具体数据的标准,例如单位统一变为米,或者小数点后统一留几位,只有在统一了标准的情况下才不会出现比例好几万的情况。例如一家店铺提报的数据是万元,系统里面的是元,最后算占比的时候就会出新好几万的比例。
3.2统一函数
在这一步的时候要特别注意,因为很多的时候各种存储过程中都有写各种函数,但是要注意像日期、年月、指标名称等函数要规定好标准的名称,定要统一。
3.3日期格式
在日期格式上要注意两点,如果需要单独月份的时候一定要将月份单独提取出来,再一个就是在存储的时候一定要将日期格式按照统一格式,避免造成时间维度汇总的时候出现错误。
3.4简单主数据
这里说的是要把一些主数据在这一步嵌入,主数据大家可以理解为你去餐厅吃饭,餐厅的菜单就是主数据,你结账的时候的账单就是交易数据。像人员、材料、合同等主数据一定要确定一个唯一的系统,其他所有关联数据从这个系统中取数。
3.5统一映射、关联
在这一步一定要将相关数据的关系明晰,例如hr系统中的1是女性2是男性,或者婚姻状态1是单身,2是已婚等,关联的时候就是同样的数据。
3.6指标
指标体系根据业务进行梳理,详细的话可以参考上一篇,但是在此着重提醒大家,指标体系一定要做成灵活可实时分配的,千万不要做成死指标,否则一旦业务形态变化基本就等于宣判指标体系失效。
四、第二处理过程
在经过第一处理过程之后数据其实已经是属于比较规范的了,第二处理过程主要的工作重点是在数据汇算、换算、字段的取舍以及转换方面。在这个过程因为涉及到比较多的etl,所以这部分详细留在下一周ETL过程中进行具体详解。
五、基础数据层
其实在图中很我掺杂了一些dm(应用数据层)的一些概念,因为基础数据层的报表层面有很多时候其实也需要按主题或者维度进行汇总的,所以有很多数据层面其实在基础数据层的时候如果准备好了其实更方便。
企业在整个数据体系建设的过程中,我的知识储备觉得应该分三层,第一层数据展现、第二层数据汇聚、第三层数据需求与探索。
基础数据层其实是所有层面的基础,就像数据分析的基础是数据一样。打造基础数据层的时候在上面图中没有进行说明的是数据架构师,一个厉害的数据架构师在进行数据体系架构的时候可能会有些让人不懂,因为数据架构师和数据库架构师不一样,数据架构师是从企业战略及企业经营层面进行总体规划,而数据库架构师是从当前业务场景进行规划, 在层次上就不一样。好的架构师就像阿里的淘宝一样,能够在秒数据100的时候提前将秒10万的的数据提前预估到。
一个企业的数据展现是否成熟的根基就是基础数据层是否成熟,成熟的数据层也能够为未来企业的的数据分析、智慧分析等提供更多的支撑。
本周分享到这里,下周分享下ETL过程中的一些经验,虽然不是精通,但是在工作和规划中还是有一些经验的。



推荐阅读
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • Apache IoTDB:开源工业物联网数据库的崛起
    2020年9月23日,全球领先的开源软件基金会——Apache软件基金会宣布,Apache IoTDB正式成为其顶级项目。Apache IoTDB是一款专为大规模物联网和工业物联网设计的开源数据库。 ... [详细]
  • PHP 编程疑难解析与知识点汇总
    本文详细解答了 PHP 编程中的常见问题,并提供了丰富的代码示例和解决方案,帮助开发者更好地理解和应用 PHP 知识。 ... [详细]
  • IT项目管理过程中的方法、工具、技术
    工欲善其事,必先利其器。而对于一个软件开发项目,最重要的器就是方法,工具和技术。而这三要素中重要的又是方法论,方法是基础&# ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • 本文探讨了当前技术发展趋势,特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展,并展望了未来工业互联网技术的发展方向。 ... [详细]
author-avatar
唐古拉风情2502931431
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有