热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

有效管理数据资产元数据的6个步骤

开发一个组织良好、逻辑合理的DAM元模型和策略需要细致地考虑。这里有一些小建议,可以让你


什么是元数据?为什么要关心它?

你可能在想:我们在数据治理上已经做了很多事情,不过很少有针对性地、全面系统地关注元数据,它真的那么重要吗?一句话,绝对的!如果没有为您的组织及其数据资产专门构建适当的元数据标准和元数据策略,则会存在时间花费多、经济成本高、误用数据资产的风险和数据资产利用不充分的问题。

即便是简单的元数据管理,对数据资产的发现、理解和权限管理也大有益处:

提高可发现性:使用一些基本的元数据字段(如标题、关键字和许可信息)标记数据资产利于数据资产的发现与查找,数据资产有无元数据的标记,在我们查找数据资产时,就像漫无目的大海捞针和从图书馆公共目录检索系统中依据题名、作者等能迅速找到书籍之间的区别。

增加一致性:为数据资产标识元数据,利于增加数据资产的可读性和更利于人们理解数据资产,以进一步助于实施数据标准。

降低风险:维护管理数据资产的元数据可以跟踪和强制执行资产的权限管理,并让人们知晓数据资产的利用场所与利用方式,进而减少违规利用等风险。

如上所述为数据资产标识元数据可以提高数据资产利用开发效率和减少违反红线的行为(诉讼和经济处罚),并为组织和资产管理部门节省经济成本。

元数据分类

对数据资产而言,可以跟踪的元数据类型有很多,以下是一些示例:

描述元数据包括支持发现和查找资产的、对数字资产基本特征予以揭示的描述性字段,如中英文名称、别名、业务定义等。

管理元数据是描述数据资产管理过程中所涉及的管理信息及由管理信息进一步揭示的管理政策与管理机制的元数据,如数据资产的管理身份及其权限设置等。

技术元数据为开发人员、DBA(数据库管理员)、技术用户和其他IT员工提供了维护、增长和有效管理组织的IT环境所需的元数据。技术元数据对于仓库的持续维护和增长至关重要。没有技术元数据,分析和实施决策支持系统的变更的任务将变得更加困难和耗时。如数据资产相关数据的抽取、转换、加载工具等。

操作元数据是指数据仓库团队可以在ETL过程中添加的元数据,旨在帮助ETL过程。操作元数据的示例包括ETL加载日期、更新日期和加载周期标识符等。

实际操作中使用哪种类型的元数据以及管理多少元数据取决于许多因素,包括可用时间、资源和DAM(Data Asset Management,数据资产管理)系统功能等。从一个小的、集中的字段集开始,然后演变成一个更复杂的模式,这是灌输最佳实践和良好元数据管理的一个好方法。


做好元数据管理的六个步骤:

Step1


制定元数据管理策略

设定一条前进的路径,可以帮助您成功地到达目的地。

  • 如果您的重点是简化对数据资产的访问,而不是促进创新和营销团队之间的协作,那么您设置组织的元数据策略将有所不同。识别用例可以帮助定义和阐明业务目标。所以,需要先确定您的DAM业务目标,然后考虑实现这些目标需要哪些元数据。

  • 基于已识别的用例,哪些信息是必要的或重要的?用户通常如何查找或搜索他们需要的数据资产:文件名?文件类型?生产者?所以,需要了解DAM用户的信息需求,以及他们如何访问数据资产。

  • 谁将参与创建和维护元数据,谁将依赖它?考虑贡献和/或使用数据资产的内部(营销、销售等)和外部(机构、合作伙伴、渠道等)资源,确定DAM利益相关者。

  • 记录元数据创建和维护的“人员、时间和方式”。考虑人们如何管理数据资产和元数据的现况,并尽可能建立在现有的积极行为和流程的基础上了解元数据管理过程。

  • 定义必要的字段以及如何使用它们。所有数据资产都应该有一组核心必需字段和一组可选字段。也就是解决你需要什么元数据的问题。

Step2


确定数据来源

您需要的大部分元数据可能已经存在。

  • ETL包中的数据源或者数据目标需要和相应系统中的元数据一一映射,这些系统的元数据可能是关系模型包中的或者OLAP,多维数据库或者是数据挖掘包中的元数据,他们必须和ETL过程中的元数据进行关联。而ETL包本身也是OLAP、数据挖掘、仓库过程和仓库操作元数据中的内部包,在传递这些包中的元数据内容中不可避免的要传递相应的ETL元数据包中的有关信息。

  • 数据仓库和数据集市关系模型的关系描述和维度描述,以及操作和管理都包含对应的元数据,还包括对象模型的内容、索引主键外键这些元数据。

  • 有关数据挖掘的元数据分为七个领域:核心挖掘元数据、和聚类相关的元数据、关联规则元数据、与监督相关的元数据、与分类相关的元数据、与近似估计相关的元数据、与属性重要性相关的元数据。

此外,还要考虑DAM系统要管理的数据资产类型,以及如何使用这些数据资产。不同的团队可能掌握了这些信息,所以,统一询问并收集这些信息可以节省时间和成本。

Step3

利用元数据填充DAM

一旦您知道您想要什么样的元数据,它将从哪里来,您就需要把它组织起来,并进入DAM系统。有几个工具可以帮助您完成部分工作,分为以下几类:

  • 模板是结构化表单,允许用户将元数据值输入到与DAM系统中使用的元素集匹配的预设字段中。然后,模板生成一组格式化的元数据元素属性及其对应值。

  • 标记工具支持将元数据属性和值构造为指定的架构语言。这些标记工具大多生成XML或SGML文档类型定义(DTD)。

  • 提取工具支持从数据资产的分析中自动创建元数据。这些提取工具通常仅限于文本资源。

要记住,从其他系统提取的元数据的质量可能因使用的工具以及源文本的内容和结构而有很大不同。通过工具自动输入的任何元数据都应进行审核和编辑,以确保落实遵循准确性和符合性定义的元数据标准。

  • 转换工具支持将一种元数据格式转换为另一种格式。源格式和目标格式中元素的相似性将影响可能需要额外编辑和/或手动输入元数据的程度。

  • 手工录入元数据在某种程度上几乎总是需要的。将这些字段限制为受控词汇表(通过下拉列表、复选框等方式)将显著提高输入元数据的一致性和准确性。

  • 智能标记使用机器学习算法自动将元数据添加至数据资产文件中。图像识别算法可以根据照片类型、特定情感、动物、流行位置和原色等自动使用关键词标记图像。

Step4


整理数据

在检查哪些元数据已经可用、记录您的用例和受众理解DAM解决方案中的可用字段和功能之后,您可以定义元数据标准。

一旦确定了公共字段(即文件名、关键字、描述等),那么请考虑DAM将支持的各种文件类型的独特方面。每个都支持组织数据资产的可查找性、一致性和清晰性。

查看现有的标准,如Dublin Core和其他行业或主题相关的元数据标准,以获得为元模型选择哪些字段的指导和建议。

元数据标准将规定字段是必需的、推荐的还是可选的。将文件添加至DAM系统时,自动填充信息(文件类型、创建日期等)之后,尽可能通过复选框或下拉菜单选择列表定义来自受控词汇表的字段。这将有助于用户的处理,并确保输入数据的一致性。

step5

定义元数据标准

元数据标准定义元数据的布局、关系、属性,如标题、描述、关键字等。这是您的DAM目录将包含的结构或字段列表。元数据标准提取并标识易于找到和正确使用数据资产所需的最重要信息,有助于组织和解释它所表示的信息。

可能有数百个标准可用,因此将潜在字段依据强制性、推荐性、可选性三个核心标准分为强制元素、推荐元素、可选元素,可以帮助确定元数据标准中要包含内容的优先级。

  • 强制元素

这是有关您数据资产的必备信息。这些字段必须先完成,然后才能将数据资产编目至DAM中。所需的内容可能因数据资产类型而异。

  • 推荐元素

这些易于掌握的详细元数据字段有助于与文件关联,但对查找或使用文件并不重要。

  • 可选元素

有一些不重要的元数据字段是很好的,但是包含这些信息不会有什么坏处。

并非所有元数据字段都适用于所有数据资产类型。确保必需字段和可选字段与它们所表示的数据资产类型相关。所需字段中的受控词汇表将显著提高数据资产的可查找性。

定义元数据标准后,可以使用分类法(预定义术语)或混合词汇表(预定义术语和开放文本的混合)定义字段的值。字段也可以对用户输入开放,但这应限制在一致性对元数据完整性影响较小的可选元素中。

Step6

利用元数据

1

在DAM之外共享元数据

使用元数据描述一个数据资产可以帮助用户(人和机器)理解它。如前所述,应该考虑整个组织环境中受众的元数据需求,元数据也需要发挥其他系统的能力。了解组织中元数据的其他使用位置,以及如何通过相关系统之间的互操作性优化组织范围内的元数据策略,可以提高工作的总体效益。

基于公认的标准(如XMP框架)具有可互操作的元数据允许多个系统使用同一组数据和元数据。高效且一致的信息交换是在后台完成的。元数据的共享有助于确保与一个资源相关联的记录可以被访问、准确解释并随后被系统使用,或同与其他资源相关联的元数据记录一并集成。可互操作的元数据允许业务系统(如ERP、CRM、PDM等)轻松、准确地导入共享数据。

2

数据资产归档

大多数元数据工作的中心是使最近创建的资源更易于访问。但元数据也是确保资源在系统和格式演变过程中得以生存并在未来继续可访问的关键。存档和保存需要特殊的溯源元数据元素来跟踪数据资产的历史(它来自何处以及如何随着时间的推移而发生变化),并详细描述其物理特性,并记录其行为,以便在未来的技术上模拟它。因此,在开发元模型时一定要考虑这些元素。

最佳做法

开发一个组织良好、逻辑合理的DAM元模型和策略需要细致地考虑。这里有一些小建议,可以让您的辛勤工作得到回报。

  • 上载数据时将元数据同步添加至DAM。

  • 对常用数据使用预定义的下拉菜单以防止不一致。

  • 对文件名和资源描述应用标准命名约定。

  • 不要因为要求用户填写太多的元数据字段而使用户负担过重。

  • 在可能的情况下,在有意义的地方自动完成字段。

  • 包括数据资产所有权和/或信用信息,以便在DAM识别。

  • 维护管理数据资产的版权和使用条款,以防止任何滥用。

  • 培训负责添加有关组织元数据策略的元数据的贡献者和管理员。

  • 将您的元数据要求传达给任何外部供应商,即“照片必须与已添加的使用条款、信用和位置元数据一起提交。”

  • 定期进行审核,以确保正确添加元数据。

  • 雇佣元数据专家帮助第一时间纠正策略和模型。

  • 请记住,一致性是元数据成功的关键!!!



推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 为了评估精心优化的模型与策略在实际环境中的表现,Google对其实验框架进行了全面升级,旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景,提供更好的数据洞察,并显著缩短了实验周期,从而加速产品迭代和优化过程。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势,结合实际项目需求,为开发者提供了选择合适框架组合的参考依据。同时,文章还介绍了这些框架在微服务架构中的应用,帮助读者更好地理解和运用这些技术。 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 2021年Java开发实战:当前时间戳转换方法详解与实用网址推荐
    在当前的就业市场中,金九银十过后,金三银四也即将到来。本文将分享一些实用的面试技巧和题目,特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验,并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法,并推荐了一些实用的在线资源,帮助读者更好地应对技术面试。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • 深入浅出解读奇异值分解,助你轻松掌握核心概念 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 如何在Linux服务器上配置MySQL和Tomcat的开机自动启动
    在Linux服务器上部署Web项目时,通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动,以确保服务的稳定性和可靠性。通过合理的配置,可以有效避免因服务未启动而导致的项目故障。 ... [详细]
author-avatar
粉红色头发丫头_960
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有