当前位置: 开发笔记 > 数据库 > 正文

数据仓库体系架构

作者：若涵她娘_124 | 来源：互联网 | 2018-06-01 22:03

简介数据仓库架构，是IT架构的一个分支，随着数据在企业的核心作用的增强，数据仓库的架构日益重要。数据仓库架构由于其技术选择非常广泛，看上去复杂，不过背后有一套比较稳定的思路，这也是数据仓库架构设计的一个要点，稳定中蕴含变化，变化中蕴含稳定。

简介
数据仓库架构，是IT架构的一个分支，随着数据在企业的核心作用的增强，数据仓库的架构日益重要。数据仓库架构由于其技术选择非常广泛，看上去复杂，不过背后有一套比较稳定的思路，这也是数据仓库架构设计的一个要点，稳定中蕴含变化，变化中蕴含稳定。
总体来说，数据仓库架构分成两大块，一是硬件架构，二是软件架构。硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata，其硬件是专属的，必须使用特殊的硬件才能运行。开放式硬件架构的代表有oracle，可以运行在各种硬件上，不过开放和封闭之间的界限也逐步的融合，oracle也开始打包hp的专属硬件来推广其dw的方案，而teradata也开始用基于suse的os可运行的硬件上提供其dw产品。封闭式硬件好处是开箱即用，经过厂商的严&＃26684;测试，保障性比较高，开放式硬件则需要企业具备很强大的技术实力，能够有一支具备硬件，存储，操作系统综合知识和能力的团队，在组合成一套可以运行dw软件的基础平台，并且在发现问题的时候要能很快速的定位问题的原因并解决。
数据仓库的软件架构选择更加丰富。从数据库软件，etl软件，展现软件，数据挖掘软件，每一种类型里面都具备非常多的选择。这些软件的选择是架构设计的一部分，架构设计的重要核心一部分是综合这些软件的一套思路，在一套dw架构设计的思路下，软件可以很灵活的进行选择。
软件物理架构主要特征区别就是行存储和列存储。这个也是曾经很多厂商津津乐道的地方，根据需求的不同，2种方式可以灵活采用。大部分db软件都是采用行存储，而列存储的特征在于高效的单列&＃20540;压缩，在选择列比较少的时候需要io要求很低，速度很快，不过行存储的db目前在压缩效率上也在迅速提升，大部分需求还是选择行数据进行观察，行存储也更加便于表的按记录拆分进行并行化。
Yahoo数据仓库
Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成，hadoop集群是一个计算平台，完成所有ETL数据处理过程；Oracle集群只是一个查询环境。
数据通过Data highway从源系统加载进入数据仓库的ODS层，ODS层数据保持与源系统数据结构一样。EDW数据层并没有严&＃26684;意义的数据层次的逻辑细分，它可能有多层的ETL加工过程；多层的数据存储。这一个层数据主要采用维度建模的方法，根据应用需求建立数据模型。数据采用列式存储的数据结构存储。数据经过加工处理完成后，数据将会同步到Oracle的集群中用做数据查询。
Yahoo用Oracle做查询环境，他们的大量采用了基于时间RANGE分区和HASH子分区的方式来提升查询响应性能（类&＃20284;与Greenplum的方式）。数据采用了压缩技术，同时基于压缩和读取的方式上ORACLE官方为他们定制了一些改进，从而获取更好的读取IO和压缩能力。 MSTR报表工具连接ORALCE完成大部分报表查询功能，同时，如果要查询最明细的数据，工具会连接到HADOOP集群上，通过创建一些临时表来满足查询功能。同时，Yahoo的仓库配备了一个功能强大的元数据管理系统，他们的元数据是通过SQL解析，直接将ETL mapping的元数据解析进入元数据库，做到了字段级别的MAPPING。同时他们的PM会维护最新的业务元数据（业务规则，指标定义）进入的元数据库系统。

推荐阅读

sql
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
sql
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
sql
深入理解 org.apache.hadoop.ha.HAServiceTarget 的 checkFencingConfigured 方法

本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法，包括其功能、应用场景及代码示例。通过实际代码片段，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-22 18:28:35
mariadb
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
sql
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
sql
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
sql
深入解析 Android 值动画实现细节

本文详细介绍了如何在 Android 中使用值动画（ValueAnimator）来动态调整 ImageView 的高度，并探讨了相关的关键属性和方法，包括图片填充后的高度、原始图片高度、动画变化因子以及布局重置等。 ... [详细]

蜡笔小新 2024-12-20 17:58:54
nosql
迎接云数据库新时代：程序员如何应对变革？

在数据无处不在的时代，数据库成为了管理和处理数据的核心工具。从早期的信息记录方式到现代的云数据库，数据库技术经历了巨大的变革。本文将探讨云数据库的特点及其对程序员的影响。 ... [详细]

蜡笔小新 2024-12-17 14:42:46
sql
MySQL数据库安全管理与优化流程

本文介绍了MySQL数据库的安全权限管理思想及其制度流程，涵盖从项目开发、数据库更新到日常运维等多个方面的详细流程控制，旨在通过严格的流程管理和权限控制，有效预防数据安全隐患。 ... [详细]

蜡笔小新 2024-12-15 10:09:10
sql
收割机|篇幅_国内最牛逼的笔记，不接受反驳！！

收割机|篇幅_国内最牛逼的笔记，不接受反驳！！ ... [详细]

蜡笔小新 2024-12-14 10:20:42
sql
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
sql
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
数据库
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
nosql
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
nosql
Hadoop与Java间的数据类型互转详解

本文详细介绍了如何在Hadoop和Java之间进行数据类型的相互转换，包括基本类型的转换方法以及对应的Hadoop类型，如从Java的String类型转换到Hadoop的Text类型等。 ... [详细]

蜡笔小新 2024-12-13 09:58:43

若涵她娘_124

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章