大数据管理：数据集成的技术、方法与最佳实践读书笔记三

作者：午夜呻吟的诱惑 | 来源：互联网 | 2023-09-04 19:51

7.1什么是数据仓库数据仓库是基于特定的数据结构（以及有关应用程序）所构建的数据的中央存储库，以便为分析和报表提供一致的数据源。面向整个组织创建的企业数据仓库（Enter

7.1　什么是数据仓库

数据仓库是基于特定的数据结构（以及有关应用程序）所构建的数据的中央存储库，以便为分析和报表提供

一致的数据源。面向整个组织创建的企业数据仓库（Enterprise Data Warehouse，EDW）用于对整个组织的信息
进行分析。大多数情况下，超大型组织中会有多个企业级数据仓库，每个都拥有组织中某个很大组成部分的数
据，如某个区域，或者很大的功能域。批处理数据集成方案通常用于将数据置入或者移出数据仓库。数据仓库架
构的设计要达到以下目的：为整个组织的分析提供一致可用的数据；对数据进行格式化以满足特定的分析和报表
要求；将分析报表的压力从操作型应用系统上移开；允许对历史快照数据进行分析。[1]

数据集成技术对数据仓库的功能来说是至关重要的，因此有些数据仓库专家将数据集成看成数据仓库架构技

术的一个子集。然而，数据集成对于其他数据管理领域来说同样重要，是数据管理活动的一个独立的部分

数据仓库数据流图

操作型应用层由来自不同数据源的数据组成，这些数据将要被装入数据仓库，它们来自组织中执行着主要的
操作型功能的应用系统。这一层是组织的核心应用系统组合所在的层次。操作型报表关注的是某个特定应用内部
的处理，因为与应用系统的用户特定的功能和需求相关，因此，这些报表可能保留在应用中。

外部数据
数据仓库中有些数据来自组织外部。提供给数据仓库的数据，更多详细的信息可能来自于组织的客户、供应
商或者其他合作伙伴。标准代码、有效值，以及其他参考数据则有可能来自于政府的数据源、行业组织或者业务
交换。而且，很多数据仓库中，通过购买有关客户的数据增强了组织内部数据的可用性。
外部数据必须通过网络和组织的一些安全访问层次，以保护组织远离有害数据和攻击。

进入数据仓库的数据通常会被暂存，或者存储为原来的数据格式，这样就可以在源和数据仓库之间的处理时
序上做到松耦合，即可以确定什么时候从源发送数据和什么时候将数据装入数据仓库。数据暂存区还可以就发送
的数据进行追踪和审计，有助于在数据仓库或者报表中发现问题时进行问题分析。
通常每个数据源中都会有一个暂存区，针对进入数据仓库的所有的数据也会有个暂存区。有些数据仓库架构
中还包含一个操作型数据存储（Operational Data Store，ODS），以实时或者准实时的方式为分析和报表提供数
据。

7.2.4　数据仓库数据结构

数据仓库中的数据通常会进行格式化以便与整个企业逻辑上的数据格式一致，而不再依赖于任何源数据的结
构。为了能快速地从多个不同数据源装载大量数据，数据仓库的数据结构会做一定的优化。如果要在数据仓库的
数据上直接做分析，其结构也可能为了高效访问大量数据而做调整。但是，通常情况下，这是在商务智能层的单
独的数据集市和特殊的分析结构上完成的。
数据仓库中数据的元数据对于其高效使用来说是很重要的，也是数据仓库架构的重要组成部分：清晰理解数
据的含义（业务元数据）、来源和谱系（技术元数据），以及什么情况下会产生（操作元数据）。数据仓库中数
据相关的元数据必须在数据被提供到商务智能层做分析的时候与数据本身一起提供。

7.2.6　商务智能层

商务智能层专注于如何存储数据以提供高效的访问和分析功能。
数据集市是为了满足组织的某个特定部门的数据分析需求而创建的快速访问的一种数据结构。数据集市也可
以面向整个企业，但往往使用特殊的结构或者技术。
经常会为了本地用户的使用、分析以及准备报表和演讲而需要从数据仓库中抽取文件。不应该将抽取的文件
手工加载到分析或者报表系统。除了手工的数据传输比较低效外，在数据仓库和目标系统之间传输数据的过程
中，数据可能会被修改，这些监控信息的丢失，可能会引起审计人员的注意。而在两个系统之间自动化的传输数
据就可以创建更加高效并且可信的追踪审计信息。
有时候需要将抽取文件传输给外部组织和实体。正如从数据仓库中传出去的其他所有数据一样，完整描述数
据的元数据应当随着抽取文件一起传输给外部组织。
数据仓库中的数据也许会提供给某些高度专业化的报表系统，比如客户账单或者监管报告，这些系统可能有
它们自己的数据结构，并且可以直接从数据仓库中读取数据。
访问商务智能层中数据的可能方式包括：内部或者外部网站方案，专业化的报表和分析工具，或者通用的桌
面工具。应当存储适当的访问授权和追踪审计信息，以对所有的数据仓库和商务智能层的访问进行追踪。

7.3　加载到数据仓库中的数据类型

加载到数据仓库中的数据，根据其类型的不同有着不同的处理方式和生命周期。有些数据与事务型系统中的
数据保持同步，只追踪那些变化的数据，并将其传送到数据仓库中。而对另外一些类型的数据，则周期性地获取
整个数据集的“快照”，而不管有没有发生变化，每次都完全复制所有的数据并加载到数据仓库。

7.3.1　数据仓库中的主数据

主数据就是关于组织中一些重要方面的数据，从中人们可以获得关于客户、产品、供应商以及员工等信息。
参考数据则是某些特定领域里面的合法数据，它们可能在某些地方与主数据重叠，即人们有时候希望对主数据进行过滤和排序，并且它们可能是动态的，需要定期更新，比如，地理区域、组织层次结构、工业代
码等。主数据和参考数据都会包含一些层次信息或者不同条目之间的关联信息，如某些公司为另外一些公司所
有，或者位于某个国家之类的州等。基于明确的数据实例，对层次信息进行完整表达就是所谓的分类系统，比如
每个州内部的特定的邮政代码以及某个国家内部的州的邮政代码。
在数据仓库中，主数据和参考数据尤其重要，因为人们基于这些条目进行信息的检索和显示，同时围绕着这
些数据面向企业（或者数据仓库的范围）进行数据的合并。在架构数据仓库和商务智能层中的数据的时候，用以
作为检索数据的依据的条目通常称为维度。因此，在数据仓库和商务智能中，主数据（master data）和维度
（dimension）通常作为同义词使用。

数据集成（即移动和转换数据）是如何与数据仓库相关联的？
构建数据仓库深层次的目标是创建一个企业级的平台，以在一个单一集成的环境中提供一个统一的数据视图。在这个环境中的数据经过清洗、转换，为下游的应用做好准备。数据集成就是这个数据处理层，管理着所有
的这些活动，包括数据移动、质量管理以及转换。
数据集成中最复杂的活动之一就是将数据由一种格式转换为另一种格式，包括了清洗、标准化、优化，以及元数据处理。
如果数据仓库中缺少数据集成层则必将导致重大的失败。这是因为，数据仓库中的数据可能集成度低、重复，也可能根据每条业务规则处理多次。这样混乱的架构的最终结果就是数据仓库项目的失败。因此，数据集成无论对于结构化还是非结构化数据仓库都是必不可少的一部分。
为何以及如何为数据仓库移动数据？
数据就是数据仓库的心跳。为了保证数据仓库中信息的时效性，需要持续不断地将各种不同应用系统中的数据移动到数据仓库中。按照传统的做法，数据的处理过程分为收集、传输、清洗、优化，以及集成这么几步。用于随机的移动和处理的技术有多种，包括：
·ETL：最常用的方法就是抽取、转换和装载，也叫做ETL（Extract，Transform，and Load）。不同的源系统产生的数据被集中到一个称为暂存区的中间层（在某些操作型数据存储的设计中是可选的）进行处理。在暂存环境下，对数据进行清洗和优化，这些是数据转换首先要进行的步骤，进一步的处理则在数据仓库中，如应用业务规则和集成规则进行大规模转换。
·ELT：另外一个流行的方法就是所谓的抽取、装载和转换（Extract，Load and Transform，ELT）。数据从源系统和数据库中被抽取出来，装入暂存区并进行清洗和优化，而在数据仓库中则进行和集成有关的纯粹的转换。这个方法比较适用于以下这些场合，即数据比较灵巧、结构化非常好，以及集成的工作量很小。
·CDC：第三种技术叫做变化数据抓取（Change Data Capture，CDC）。在源系统上安装某个第三方应用程序以收集数据的变化。这种方法通常需要从数据库日志中提取变化数据，并不会对源数据库系统带来负面影响，因此比较高效。变化的数据从源系统中抽取出来，并传送到数据仓库中。在目标端，安装同样的第三方应用系统，用于处理每个抽取过来的数据，并装入数据仓库的暂存区。然后，在这里对数据进行清洗、优化并转换到其在数据仓库中的最终目的地。CDC在需要以近乎实时的方式处理数据、数据的可用性非常关键的场合非常有用。在某些架构中，将会直接加载到操作型数据存储中，然后才会将其加载到数据仓库的暂存区。
还有很多基于以上3种技术的多种不同的定制化的变体，为了满足多个可能相互冲突的需求，保持数据仓库中数据的时效性，常常综合使用多种方法。
对移动到数据仓库中的数据需要做哪些转换？（例如，不同的数据结构、确认数据结构、维度模型）
就数据仓库中的数据处理而言，可以有多种数据转换。最基本的转换就是从源系统中抽取数据，将其装入数据仓库中一个集成的模型中，就是说将这些数据从一个高度规范化的结构转换为一个非规范化的或者维度结构。转换过程包括：
·去规范化——将高度规范化的结构转换为非规范化的数据仓库格式。在使用自上向下或者Inmon方法进行
数据仓库构建时非常流行。
·维度化——将高度规范化的结构转换为维度和事实；数据仓库的自下向上方法或者Kimball星形模型。
·元数据处理——将一个业务词汇表以及数据一起加工到数据仓库中。把多个不同的术语融合进一个唯一的定义中。
·主数据处理——对关键的数据结构进行转换，以和主数据集匹配，创建一个高度集成的数据层。
·生成代理键——使用一个通用的技术处理维度数据转换，以便在数据仓库中创建代理键以保存数据历史。
·编码数据——创建查找表和列表，对冗余数据进行压缩。
·旋转数据——使用多维度数据转换，以加载数据。
·分割数据——将多值列转换为单值列。
·合并数据——将数据集成到一个单一的表或者数据结构。
·查找数据——创建并优化查找表数据。查找表数据是一个参考库，数据的标识值被替换为实际值。
除了上述列出的数据转换外，还有一些数据模型和数据架构驱动的转换，数据需要经过多个不同层次的转换，然后聚合，按层次钻取转换，以及语义转换形成后继的转换集合以便业务用户使用。
另外一个经常会被忽略的转换就是数据库驱动的转换，即将表进行垂直切割，分区为离散的结构，再经过索引和排序，从物理存储上进行优化。
这些多种多样的转换就是在将数据移入数据仓库的过程中所要执行的操作。
将数据移入和移出数据仓库有何不同之处？
毫无疑问，它们之间有不同之处。当数据集成是将数据移动到数据仓库中时，所要考虑的是将数据进行集成以便为业务用户或者其他用户所使用。向内的转换就是将类似联机事务处理（OLTP）的数据结构整合到数据仓库模型中，这种模型大部分是面向维度的，或者至少要比联机事务处理的结构非规范化。
另一方面，从数据仓库中抽取数据给下游应用程序，则是为了满足特定的报表和分析需求。为了这个目的而抽取的数据在布局和结构上是不同的。典型情况下，为了这个目的而抽取的数据包括转换后的数据结构以及所有的参考数据、元数据副本、元数据以及特殊的数据（如空间数据）。在将数据抽取出数据仓库时，需要保持抽取数据的参照完整性，正如将数据加载入数据仓库。这一点是和联机事务处理系统中的参照完整性不同的。
结构化数据和非结构化数据的数据仓库有哪些不同之处？数据集成是否也不同？
基于结构化数据的数据仓库有确定的生命周期。从需求定义开始，然后进行数据建模。在创建了数据模型之
后，就可以获取数据并进行转换以存储到这个模型中，为集成和进一步处理做好准备。这是一个读取效率比较高的操作，由于可以明确定义最终的状态结构，因此在数据完成加载之后，从这个结构中读取数据是非常高效的。
基于非结构化数据的数据仓库是比较不确定的。因为在获取数据之前，很难预测数据类型、格式、结构，以及数据的质量。通常是在对数据进行处理加工之后才会设计数据模型。因此，这种类型的数据处理又称为“无模式的”。数据以文件的方式获取，以文件的方式加工处理。
在处理非结构化数据的过程中，所有的数据获取和加工都是在找到那些可以与数据仓库进行集成的元素之前完成的。在这个过程中，从传统意义上说是没有数据集成的。但是从数据分析的角度看，依然是有数据集成的。
你有没有遇到过由于数据集成的问题导致重大问题的一些数据仓库项目？
当然遇到过，作为一个架构师和专业顾问，我亲眼目睹了在某些项目中，由于客户不能理解构建一个健壮的数据集成架构的重要性而导致项目失败。在很多情况下，当数据仓库的架构师和经理要求就项目失败的原因给出独立意见时，深层次问题分析的结果通常都指向不良数据集成架构。
拙劣的数据集成架构给数据仓库造成的影响，常见的有：
·数据质量问题
·单一列的多值问题
·日期和时间格式
·字符集和语言翻译
·Unicode支持方面的问题
·货币格式
不良数据集成架构通常会让某些设计良好的数据仓库折戟沉沙，导致部署失败和成本超限。
你有没有经历过数据仓库的数据集成中那些需要特别注意的地方？
是的，不少优秀的数据集成架构创造了这些数据仓库的成功故事。这些数据仓库的处理复杂度是第一优先级的：必须7×24小时运行，并且有非常严格的性能要求。在如此紧迫的期限下，唯一可以做到在数据处理时不出故障的方法就是设计一个灵活的可伸缩的数据集成架构。
这个架构令人映像深刻的地方就在于它可以对多个国家和多种语言的数据集进行处理，并纳入一个全局的数据仓库，在这个数据处理架构中整合了数据优化、转换、传输和集成。某些客户还因为他们对高效数据集成设计的坚持而被授予了最佳实践奖。
你没有没有经历过对数据集成不够重视的数据仓库项目？
在我以架构师或者顾问的身份参与的大多数项目中，都强调数据集成的重要性。某些情况下，客户会反对实施一个完整的数据集成架构，这时，团队就不得不在实现数据仓库的时候面对诸多的障碍。结果就是，实施周期要比原来预计的要长两到三倍，成本也是原来开发成本的三倍。
你认为向数据仓库中加载数据时是否应该有一个独立的暂存区？为什么？
毫无疑问，我支持数据仓库中需要一个暂存区。这种架构决策最主要的原因在于，将数据加载到数据仓库之前，需要进行数据的获取和预加工，以及数据清洗。无论对于主动式或者实时数据仓库，还是具有确定维度的传统的Kimball架构，如果没有一个独立的暂存区以进行复杂的数据集成活动，就很难真正实现数据仓库的可伸缩性和灵活性。在我参与的绝大多数项目中，我总是构建和部署一个暂存区。
就元数据在数据仓库中的移动来说，有没有一些特殊的考虑，即如何将业务、操作型和技术型的元数据传输
到商务智能层，或者从商务智能层如何访问这些元数据？
元数据成为世界上百分之九十的数据仓库中忽略最多的部分。很多时候，由于有多个团队如业务分析、设计、开发以及部署等，每个团队都指责其他团队没有很好地维护元数据。
以我之见，需要在数据仓库中开发不同类型的元数据。在需求分析阶段需要定义业务元数据，这些元数据会实施在语义层和数据库视图中。技术元数据在数据加工、数据建模、物理数据库设计和商务智能层实施。对于商务智能层，现今绝大部分软件包都提供了一个元数据集成层。
元数据必须随着数据本身在数据仓库的不同层次之间移动。没有这个架构实现，数据仓库一定会失败。事实上，在实现非结构化数据集成时，元数据层是关键。
基于Web 2.0的数据架构高度依赖于元数据层，以实现对来自多个数据库的数据的集成和处理。
你认为人们在构建数据仓库时会忽略数据集成吗？为什么？
在很多情况下，数据仓库架构师、设计师和经理们认为架构和实施数据集成方案比较昂贵，因此他们会缩减这方面的开发活动，最终会导致要花费两倍甚至更多的成本来完成数据仓库的开发。而且，人们会假设数据处理工具可以自动处理数据集成的问题，因此往往忽略了对这个重要活动的计划。
哪些工具或者技术可以用于数据仓库的数据集成？
在一个典型的结构化数据处理架构中，ETL、ELT、CDC、面向服务架构（SOA），以及定制化开发的软件包都可以用于移动数据；数据质量工具可以用于数据清洗；主数据管理工具可以用于参考数据加工；元数据参考库可以用来管理元数据。
用于数据仓库数据集成的工具对于结构化和非结构化的数据来说是否相同？
是的。对于非结构化数据集成来说，用到的工具包括Hadoop、NoSQL数据库以及文本ETL引擎。某些传统的
数据集成商已经宣布支持非结构化数据集成，但仍然处于早期发展阶段。有些特殊的技术可以处理大量非结构化而且拥有多种格式的数据。
你认为数据仓库领域会如何变化？你认为这个领域的发展方向是什么？
数据仓库概念已经存在很长时间了。但是，这个领域里正在快速发生的变化就是将非结构化数据集成到数据仓库，以及将Hadoop包含进来作为联合的数据存储库，同时保留企业级数据仓库以处理复杂的数据分析。数据仓库的未来将演变成基于关系数据库和非结构化架构的、以语义接口驱动的数据存储库，可以为来自企业用户的任何查询提供答案。
你认为数据仓库技术，特别是和数据集成相关的技术正在发生变化吗？
是的，毫无疑问，数据集成技术正在变化以支持非结构化数据集成。这需要供应商社区付出巨大的工程开发工作量。另外一个流行的技术就是使用数据可视化工具，为非结构化数据的预处理和分析创建一个数据发现的环境。

推荐阅读

数组
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
数组
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
split
开发日志：高效图片压缩与上传技术解析

开发日志：高效图片压缩与上传技术解析 ... [详细]

蜡笔小新 2024-11-11 19:33:51
split
PHP 各版本对比：标准版与最新顶级版的详细分析

PHP 各版本对比：标准版与最新顶级版的详细分析 ... [详细]

蜡笔小新 2024-11-11 13:23:25
数组
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
数组
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
数组
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
数组
PHP网站日志深度解析与数据洞察分析

通过对PHP网站日志进行深入解析与数据洞察分析，可以有效提升网站性能和用户体验。由于网站日志数据量庞大，通常需要借助专业的日志分析工具来处理。常用的工具包括光年日志分析工具和WebLog Expert等，这些工具能够帮助技术人员快速识别并解决网站运行中的各种问题，从而优化SEO效果和提升整体运营效率。 ... [详细]

蜡笔小新 2024-11-06 13:33:02
数组
2016-2017学年《网络安全实战》第三次作业

2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中，网络踩点旨在通过公开渠道收集目标信息，为后续的安全测试奠定基础，而不涉及实际的入侵行为。 ... [详细]

蜡笔小新 2024-11-04 13:00:16
数组
如何选择合适的MySQL存储引擎：全面解析与专业建议

本文深入探讨了如何选择适合业务需求的MySQL存储引擎，详细解析了不同存储引擎的特点、适用场景及其在数据存储和管理中的优势。通过对比InnoDB、MyISAM等主流引擎，为读者提供了全面的技术指导和专业建议，帮助开发者在实际应用中做出明智的选择。 ... [详细]

蜡笔小新 2024-11-09 20:09:00
数组
触发器的稳态数量分析及其应用价值

本文对数据库中的SQL触发器进行了稳态数量的详细分析，探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现，揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外，还介绍了如何在Ubuntu 22.04环境下配置和使用触发器，以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]

蜡笔小新 2024-11-08 18:09:54
数组
蜘蛛表格：全面解析与应用指南

蜘蛛表格：全面解析与应用指南 ... [详细]

蜡笔小新 2024-11-05 13:25:33
数组
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
数组
开发者调查揭示：Python 备受青睐，PHP 成为最不受欢迎语言

Hired网站最新发布的开发者调查显示，Python 语言继续受到开发者的广泛欢迎，而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据，深入分析了当前编程语言的使用趋势和开发者偏好。此外，报告还探讨了其他热门语言如 JavaScript 和 Java 的表现，并提供了对技术招聘市场的洞见。 ... [详细]

蜡笔小新 2024-11-03 14:37:24