什么是元数据?为什么要关心它?
你可能在想:我们在数据治理上已经做了很多事情,不过很少有针对性地、全面系统地关注元数据,它真的那么重要吗?一句话,绝对的!如果没有为您的组织及其数据资产专门构建适当的元数据标准和元数据策略,则会存在时间花费多、经济成本高、误用数据资产的风险和数据资产利用不充分的问题。
即便是简单的元数据管理,对数据资产的发现、理解和权限管理也大有益处:
提高可发现性:使用一些基本的元数据字段(如标题、关键字和许可信息)标记数据资产利于数据资产的发现与查找,数据资产有无元数据的标记,在我们查找数据资产时,就像漫无目的大海捞针和从图书馆公共目录检索系统中依据题名、作者等能迅速找到书籍之间的区别。
增加一致性:为数据资产标识元数据,利于增加数据资产的可读性和更利于人们理解数据资产,以进一步助于实施数据标准。
降低风险:维护管理数据资产的元数据可以跟踪和强制执行资产的权限管理,并让人们知晓数据资产的利用场所与利用方式,进而减少违规利用等风险。
如上所述为数据资产标识元数据可以提高数据资产利用开发效率和减少违反红线的行为(诉讼和经济处罚),并为组织和资产管理部门节省经济成本。
元数据分类
对数据资产而言,可以跟踪的元数据类型有很多,以下是一些示例:
描述元数据包括支持发现和查找资产的、对数字资产基本特征予以揭示的描述性字段,如中英文名称、别名、业务定义等。
管理元数据是描述数据资产管理过程中所涉及的管理信息及由管理信息进一步揭示的管理政策与管理机制的元数据,如数据资产的管理身份及其权限设置等。
技术元数据为开发人员、DBA(数据库管理员)、技术用户和其他IT员工提供了维护、增长和有效管理组织的IT环境所需的元数据。技术元数据对于仓库的持续维护和增长至关重要。没有技术元数据,分析和实施决策支持系统的变更的任务将变得更加困难和耗时。如数据资产相关数据的抽取、转换、加载工具等。
操作元数据是指数据仓库团队可以在ETL过程中添加的元数据,旨在帮助ETL过程。操作元数据的示例包括ETL加载日期、更新日期和加载周期标识符等。
实际操作中使用哪种类型的元数据以及管理多少元数据取决于许多因素,包括可用时间、资源和DAM(Data Asset Management,数据资产管理)系统功能等。从一个小的、集中的字段集开始,然后演变成一个更复杂的模式,这是灌输最佳实践和良好元数据管理的一个好方法。
做好元数据管理的六个步骤:
Step1
制定元数据管理策略
设定一条前进的路径,可以帮助您成功地到达目的地。
如果您的重点是简化对数据资产的访问,而不是促进创新和营销团队之间的协作,那么您设置组织的元数据策略将有所不同。识别用例可以帮助定义和阐明业务目标。所以,需要先确定您的DAM业务目标,然后考虑实现这些目标需要哪些元数据。
基于已识别的用例,哪些信息是必要的或重要的?用户通常如何查找或搜索他们需要的数据资产:文件名?文件类型?生产者?所以,需要了解DAM用户的信息需求,以及他们如何访问数据资产。
谁将参与创建和维护元数据,谁将依赖它?考虑贡献和/或使用数据资产的内部(营销、销售等)和外部(机构、合作伙伴、渠道等)资源,确定DAM利益相关者。
记录元数据创建和维护的“人员、时间和方式”。考虑人们如何管理数据资产和元数据的现况,并尽可能建立在现有的积极行为和流程的基础上了解元数据管理过程。
定义必要的字段以及如何使用它们。所有数据资产都应该有一组核心必需字段和一组可选字段。也就是解决你需要什么元数据的问题。
Step2
确定数据来源
您需要的大部分元数据可能已经存在。
ETL包中的数据源或者数据目标需要和相应系统中的元数据一一映射,这些系统的元数据可能是关系模型包中的或者OLAP,多维数据库或者是数据挖掘包中的元数据,他们必须和ETL过程中的元数据进行关联。而ETL包本身也是OLAP、数据挖掘、仓库过程和仓库操作元数据中的内部包,在传递这些包中的元数据内容中不可避免的要传递相应的ETL元数据包中的有关信息。
数据仓库和数据集市关系模型的关系描述和维度描述,以及操作和管理都包含对应的元数据,还包括对象模型的内容、索引主键外键这些元数据。
有关数据挖掘的元数据分为七个领域:核心挖掘元数据、和聚类相关的元数据、关联规则元数据、与监督相关的元数据、与分类相关的元数据、与近似估计相关的元数据、与属性重要性相关的元数据。
此外,还要考虑DAM系统要管理的数据资产类型,以及如何使用这些数据资产。不同的团队可能掌握了这些信息,所以,统一询问并收集这些信息可以节省时间和成本。
Step3
利用元数据填充DAM
一旦您知道您想要什么样的元数据,它将从哪里来,您就需要把它组织起来,并进入DAM系统。有几个工具可以帮助您完成部分工作,分为以下几类:
模板是结构化表单,允许用户将元数据值输入到与DAM系统中使用的元素集匹配的预设字段中。然后,模板生成一组格式化的元数据元素属性及其对应值。
标记工具支持将元数据属性和值构造为指定的架构语言。这些标记工具大多生成XML或SGML文档类型定义(DTD)。
提取工具支持从数据资产的分析中自动创建元数据。这些提取工具通常仅限于文本资源。
要记住,从其他系统提取的元数据的质量可能因使用的工具以及源文本的内容和结构而有很大不同。通过工具自动输入的任何元数据都应进行审核和编辑,以确保落实遵循准确性和符合性定义的元数据标准。
转换工具支持将一种元数据格式转换为另一种格式。源格式和目标格式中元素的相似性将影响可能需要额外编辑和/或手动输入元数据的程度。
手工录入元数据在某种程度上几乎总是需要的。将这些字段限制为受控词汇表(通过下拉列表、复选框等方式)将显著提高输入元数据的一致性和准确性。
智能标记使用机器学习算法自动将元数据添加至数据资产文件中。图像识别算法可以根据照片类型、特定情感、动物、流行位置和原色等自动使用关键词标记图像。
Step4
整理数据
在检查哪些元数据已经可用、记录您的用例和受众理解DAM解决方案中的可用字段和功能之后,您可以定义元数据标准。
一旦确定了公共字段(即文件名、关键字、描述等),那么请考虑DAM将支持的各种文件类型的独特方面。每个都支持组织数据资产的可查找性、一致性和清晰性。
查看现有的标准,如Dublin Core和其他行业或主题相关的元数据标准,以获得为元模型选择哪些字段的指导和建议。
元数据标准将规定字段是必需的、推荐的还是可选的。将文件添加至DAM系统时,自动填充信息(文件类型、创建日期等)之后,尽可能通过复选框或下拉菜单选择列表定义来自受控词汇表的字段。这将有助于用户的处理,并确保输入数据的一致性。
step5
定义元数据标准
元数据标准定义元数据的布局、关系、属性,如标题、描述、关键字等。这是您的DAM目录将包含的结构或字段列表。元数据标准提取并标识易于找到和正确使用数据资产所需的最重要信息,有助于组织和解释它所表示的信息。
可能有数百个标准可用,因此将潜在字段依据强制性、推荐性、可选性三个核心标准分为强制元素、推荐元素、可选元素,可以帮助确定元数据标准中要包含内容的优先级。
强制元素
这是有关您数据资产的必备信息。这些字段必须先完成,然后才能将数据资产编目至DAM中。所需的内容可能因数据资产类型而异。
推荐元素
这些易于掌握的详细元数据字段有助于与文件关联,但对查找或使用文件并不重要。
可选元素
有一些不重要的元数据字段是很好的,但是包含这些信息不会有什么坏处。
并非所有元数据字段都适用于所有数据资产类型。确保必需字段和可选字段与它们所表示的数据资产类型相关。所需字段中的受控词汇表将显著提高数据资产的可查找性。
定义元数据标准后,可以使用分类法(预定义术语)或混合词汇表(预定义术语和开放文本的混合)定义字段的值。字段也可以对用户输入开放,但这应限制在一致性对元数据完整性影响较小的可选元素中。
Step6
利用元数据
在DAM之外共享元数据
使用元数据描述一个数据资产可以帮助用户(人和机器)理解它。如前所述,应该考虑整个组织环境中受众的元数据需求,元数据也需要发挥其他系统的能力。了解组织中元数据的其他使用位置,以及如何通过相关系统之间的互操作性优化组织范围内的元数据策略,可以提高工作的总体效益。
基于公认的标准(如XMP框架)具有可互操作的元数据允许多个系统使用同一组数据和元数据。高效且一致的信息交换是在后台完成的。元数据的共享有助于确保与一个资源相关联的记录可以被访问、准确解释并随后被系统使用,或同与其他资源相关联的元数据记录一并集成。可互操作的元数据允许业务系统(如ERP、CRM、PDM等)轻松、准确地导入共享数据。
2
数据资产归档
大多数元数据工作的中心是使最近创建的资源更易于访问。但元数据也是确保资源在系统和格式演变过程中得以生存并在未来继续可访问的关键。存档和保存需要特殊的溯源元数据元素来跟踪数据资产的历史(它来自何处以及如何随着时间的推移而发生变化),并详细描述其物理特性,并记录其行为,以便在未来的技术上模拟它。因此,在开发元模型时一定要考虑这些元素。
最佳做法
开发一个组织良好、逻辑合理的DAM元模型和策略需要细致地考虑。这里有一些小建议,可以让您的辛勤工作得到回报。
上载数据时将元数据同步添加至DAM。
对常用数据使用预定义的下拉菜单以防止不一致。
对文件名和资源描述应用标准命名约定。
不要因为要求用户填写太多的元数据字段而使用户负担过重。
在可能的情况下,在有意义的地方自动完成字段。
包括数据资产所有权和/或信用信息,以便在DAM识别。
维护管理数据资产的版权和使用条款,以防止任何滥用。
培训负责添加有关组织元数据策略的元数据的贡献者和管理员。
将您的元数据要求传达给任何外部供应商,即“照片必须与已添加的使用条款、信用和位置元数据一起提交。”
定期进行审核,以确保正确添加元数据。
雇佣元数据专家帮助第一时间纠正策略和模型。
请记住,一致性是元数据成功的关键!!!