热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

dbms中怎么跨数据源拷贝数据_数据库数据仓库、分布式数据库

一、数据仓库1.1.基本概念是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合本质上和数据库一样,

一、数据仓库

1.1.基本概念

  • 是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合
  • 本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合

1.2.数据仓库的基本特征

  • 数据仓库的数据是面向主题的
  • 数据仓库的数据是集成的
  • 数据仓库的数据是不可更新的
  • 数据仓库的数据是随时间不断变化的

1.3.数据仓库反映历史变化的属性主要表现在:

  • 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限
  • 传统操作型数据系统中的数据含有“当前值”的数据,这些数据在访问时是有效的,当然数据的当前值也能被更新,但数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照
  • 传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素

1.4.数据仓库系统的体系结构

d4a5f3c6e2cadf64287c2e165a149756.png
  • 数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具
  • 数据仓库服务器:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)
  • OLAP服务器:透明地为前台工具和用户提供多维数据视图;OLAP服务器则必须考虑物理上这些分析数据的存储问题
  • 前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等

二、数据挖掘

2.1.基本概念

  • 概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术
  • 目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素
  • 数据挖掘技术设计数据库技术、人工智能技术、机器学习、统计分析等多种技术

2.2.数据挖掘和传统分析方法的区别

  • 本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识
  • 数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征

2.3.数据挖掘的数据源

  • 从数据仓库中来
    • 优点:许多数据不一致的问题都较好的解决了,载数据挖掘时大大减少了清洗数据的工作量
    • 缺点:建立数据仓库是一项巨大的工程,耗时耗力
  • 从数据库中来
    • 如果只是为了数据挖掘,可以把一个或几个OLTP数据库导入一个只读的数据库中,然后在上面进行数据挖掘

2.4.数据挖掘的功能

  • 趋势和演变分析
  • 关联分析
  • 聚类
  • 概念描述
  • 偏差检测

2.5.数据挖掘的流程

  • 问题定义
    • 在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求
  • 建立数据挖掘库
    • 要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中
  • 分析数据
    • 分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,发现因素之间的相关性
  • 调整数据
    • 通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化
  • 模型化
    • 在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型
  • 评价和解释

三、分布式数据库

3.1.基本概念

  • 分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统。每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用

3.2.分布式数据库系统的特点

  • 数据独立性
  • 集中与自治相结合的控制结构
  • 适当增加数据冗余度
  • 全局的一致性、可串行性和可恢复性

3.3.分布式数据存储

  • 分布式数据存储可以从数据分配和数据分片两个角度考察
  • 数据分配是指数据在计算机网络各场地上的分配策略
    • 集中式
    • 分割式
    • 全复制式
    • 混合式
  • 数据分片是指数据存放单位不是全部关系,而是关系的一部分,包括以下几种方式:
    • 水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段
    • 垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上做投影运算,每个投影为垂直分片
    • 混合型分片:将水平分片与垂直分片方式综合使用则为混合型分片

3.4.分布式DBMS组成

  • LDBMS(局部DBMS)
    • 建立和管理局部数据库,提供场地自治能力、执行局部应用及全局查询的子查询
  • GDBMS(全局DBMS)
    • 提供分布透明性,协调全局事务的执行,协调各LDBMS以完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步,提供全局恢复功能
  • 全局数据字典
    • 存放全局概念模式、分片模式、分布模式的定义,以及各模式之间映像的定义;存放有关用户存取权限的定义,以保证全局用户的合法权限和数据库的安全性;存放数据完整性约束条件的定义,其功能与集中式数据库的数据字典类似
  • 通信管理
    • 在分布式数据库各场地之间传递消息和数据,完成通信功能



推荐阅读
  • 本文旨在探讨机器学习与数据分析之间的差异,不仅在于它们处理的数据类型,还包括技术背景、业务应用场景以及参与者的不同。通过深入分析,希望能为读者提供清晰的理解。 ... [详细]
  • 自SQL Server 2005以来,微软的这款数据库产品逐渐崭露头角,成为企业级应用中的佼佼者。本文将探讨SQL Server 2008的革新之处及其对企业级数据库市场的影响。 ... [详细]
  • 本文总结了WebSphere应用服务器出现宕机问题的解决方法,重点讨论了关键参数的调整,包括数据源连接池、线程池设置以及JVM堆大小等,旨在提升系统的稳定性和性能。 ... [详细]
  • 本文探讨了Java编程中MVC模式的优势与局限,以及如何利用Java开发一款基于鸟瞰视角的赛车游戏。 ... [详细]
  • 本文介绍了MySQL数据库的安全权限管理思想及其制度流程,涵盖从项目开发、数据库更新到日常运维等多个方面的详细流程控制,旨在通过严格的流程管理和权限控制,有效预防数据安全隐患。 ... [详细]
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • 深入探讨ASP.NET中的OAuth、JWT与OpenID Connect
    本文作为前文关于OAuth2.0和使用.NET实现OAuth身份验证的补充,详细阐述了OAuth与JWT及OpenID Connect之间的关系和差异,旨在提供更全面的理解。 ... [详细]
  • 本文探讨了如何在 Spring 3 MVC 应用程序中配置 MySQL 数据库连接,通过 XML 配置实现 JDBC 直接操作数据库,而不使用 Hibernate 等额外框架。 ... [详细]
  • 本文探讨了在使用MySQL数据库时遇到的一些基本问题,如连接失败和语句执行错误,并提供了多个有效的解决方案。 ... [详细]
  • 优化使用Apache + Memcached-Session-Manager + Tomcat集群方案
    本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构,解决了单虚拟机环境无法真实模拟分布式环境的问题,并详细记录了性能测试结果。 ... [详细]
  • 本文介绍了Kettle资源库的基本概念、类型及其管理方法,同时探讨了Kettle的不同运行方式,包括图形界面、命令行以及API调用,并详细说明了日志记录的相关配置。 ... [详细]
  • 当我在命令行登录MySQL后,无法访问任何依赖数据库连接的PHP应用。此问题每次都会出现。以下是复现问题的具体步骤及解决方案。 ... [详细]
  • 本文详细介绍了SQL中的DELETE和UPDATE命令,包括它们的基本语法、应用场景以及如何通过这些命令高效地管理数据库中的数据。重点解释了DELETE用于删除数据行,而UPDATE则用于更新数据行中的特定字段值。 ... [详细]
  • 深入解析Apache SkyWalking CVE-2020-9483 SQL注入漏洞
    本文详细探讨了Apache SkyWalking中的SQL注入漏洞(CVE-2020-9483),特别是其影响范围、漏洞原因及修复方法。Apache SkyWalking是一款强大的应用性能管理工具,广泛应用于微服务架构中。然而,该漏洞使得未经授权的攻击者能够通过特定的GraphQL接口执行恶意SQL查询,从而获取敏感信息。 ... [详细]
  • 技术总监的角色定位与代码实践
    关于技术总监是否应当参与代码编写,这一议题始终伴随着技术行业的成长而引发广泛的讨论。本文旨在从多个角度探讨技术总监参与代码编写的必要性和影响因素,包括公司背景、发展阶段及团队规模等。 ... [详细]
author-avatar
快乐的芙蓉HAPPY
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有