热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

一哥答疑:数据仓库如何确定主题域?

什么是主题主题是在较高层

什么是主题

主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

简单说,一个主题对应一个分析对象。分析对象就是在决策、分析时重点关注的东西,这个东西其实是非常主观的,在不同的企业,或者企业的不同发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。

数据仓库是面向主题的应用,主要功能是将数据综合、归类并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据业务情况纵向划分主题域。主题域是业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。

如何划分主题

划分主题域方法

在业务调研之后,可以进行主题域的划分。划分主题域,需要分析各个业务模块中有哪些业务活动。通常我们按照以下方法划分主题域,可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块划分。

  • 按照系统划分:业务系统有几种,就划分为几类
  • 按业务过程划分:比如业务系统中有商品、交易、物流等
  • 按部门规划:比如公司内的生产、供应链、研发、销售等

目前有些成熟的行业,比如电信、银行,他们也是最早用数据仓库的行业,已经形成了一些规范,可以直接按照规范来就行了。其中IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据。

对于新兴的一些行业,或者业内没有形成标准的话,那么就可以参照上面的几类方法,进行分类,先从边界清晰的系统入手进行建设,形成经验后逐步推到各个系统中。

个人比较推荐通过业务系统来进行一级主题域划分,这样边界就会很明显,数据仓库开发过程中不会因为模型主题的归属“扯皮”,然后根据各个系统中的业务过程划分二级主题域目前我参与过的两个数据仓库建设项目也都是这样搞的。

主题域的核心

为保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需满足以下两点:

  • 能涵盖当前所有的业务需求。
  • 能在新业务进入时,无影响地被包含进已有的主题域中和扩展新的主题域。

一次能划分好主题域吗

首先,主题域是无法一次划分完整的,一般是一次先建立几个明确的主题,在大多数数据仓库的设计过程中都有一个主题域的选择过程。业务是一直发展的,因此设计之初不要想着一次把所有主题全部划分完整。我们可以遵循上面说的划分主题域的两个要点,后续采用迭代的方式补充。

总结

数据仓库建设是一套方法论,但并不是一个“定理”,可能不会有完全符合你实际公司业务的“公式”,我们需要学习这些方法论,然后结合自己公司实际的业务场景来实现,只要能有序的把数据管控起来,同时又能高效的帮助数据分析,实现业务价值就好了,不必一味的追求“行业标准”。

(加入数据工匠俱乐部知识星球获取更多资讯)


联系我们

扫描二维码关注我们


微信:DaasCai

邮箱:ccjiu@163.com

QQ:2286075659

热门文章


数据分析师,年终述职报告可以这么写(实操版)


数据模型:数字化转型的核心能力


大数据领域全景解析


传统数仓如何转型大数据


浅谈数据仓库质量管理规范


数据分析,如何支持管理层决策


如何构建数据驱动组织


干货|如何从0开始制订大数据规划


数据仓库学习笔记

我们的使命:普及数据管理知识、发展数据管理工程师行业、改变中国企业数据管理现状、提高企业数据资产管理能力、推动企业走进大数据时代。

我们的愿景:凝聚行业力量、打造数据工程师全链条平台,培养不同层级数据工程师人才、构建数据工程师生态圈。

我们的价值观:分享数据管理知识,持续提升数据管理和运营能力。

了解更多精彩内容


长按,识别二维码,关注我们吧!

数据工程师

微信号:sjgcs

构建数据工程师生态圈





推荐阅读
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • JESD204C 入门:第2部分新特性及其内容
    本文内容来自ADI的技术文章,作者:DelJones原网址为:https:www.analog.comcnanalog-dialoguea ... [详细]
  • 本文探讨了当前技术发展趋势,特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展,并展望了未来工业互联网技术的发展方向。 ... [详细]
  • Apache IoTDB:开源工业物联网数据库的崛起
    2020年9月23日,全球领先的开源软件基金会——Apache软件基金会宣布,Apache IoTDB正式成为其顶级项目。Apache IoTDB是一款专为大规模物联网和工业物联网设计的开源数据库。 ... [详细]
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • andr ... [详细]
  • 武汉大学计算机学院研究生入学考试科目及专业方向
    武汉大学计算机学院为考生提供了多个硕士点,涵盖计算机科学与技术、软件工程、信息安全等多个领域。考研科目包括思想政治理论、英语一或二、数学一或二以及专业基础课程。具体的专业方向和考试科目详见正文。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • R语言基础入门指南
    本文介绍R语言的基本概念,包括其作为区分大小写的解释型语言的特点、主要的数据结构类型如向量、矩阵、数据框及列表等,并探讨了R语言中对象的灵活性与函数的应用。此外,文章还提供了关于如何使用R进行基本操作的示例,以及解决常见编程问题的方法。 ... [详细]
author-avatar
菜123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有