热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据技术_大数据技术基础笔记5NoSQL数据库

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据技术基础笔记5NoSQL数据库相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据技术基础笔记5 NoSQL数据库相关的知识,希望对你有一定的参考价值。








文章目录


    • 5.1 NoSQL简介
    • 5.2 NoSQL兴起的原因
    • 5.3 NoSQL与关系数据库的比较
    • 5.4 NoSQL的四大类型
    • 5.5 NoSQL的三大基石
    • 5.6 小结




5.1 NoSQL简介

在这里插入图片描述通常,NoSQL数据库具有以下几个特点:
(1)灵活的可扩展性
(2)灵活的数据模型
(3)与云计算紧密融合


5.2 NoSQL兴起的原因

关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:
(1)无法满足海量数据的管理需求
(2)无法满足数据高并发的需求
(3)无法满足高可扩展性和高可用性的需求

mysql集群是否可以完全解决问题?
复杂性:部署、管理、配置很复杂
数据库复制:MySQL主备之间采用复制方式,只能是异步复制,当主库压力较大时可能产生较大延迟,主备切换可能会丢失最后一部分更新事务,这时往往需要人工介入,备份和恢复不方便
扩容问题:如果系统压力过大需要增加新的机器,这个过程涉及数据重新划分,整个过程比较复杂,且容易出错
动态数据迁移问题:如果某个数据库组压力过大,需要将其中部分数据迁移出去,迁移过程需要总控节点整体协调,以及数据库节点的配合。这个过程很难做到自动化

“One size fits all”模式很难适用于截然不同的业务场景
关系模型作为统一的数据模型既被用于数据分析,也被用于在线业务。但这两者一个强调高吞吐,一个强调低延时,已经演化出完全不同的架构。用同一套模型来抽象显然是不合适的
Hadoop就是针对数据分析
MongoDB、Redis等是针对在线业务,两者都抛弃了关系模型

关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋,主要表现在以下几个方面:
(1)Web2.0网站系统通常不要求严格的数据库事务
(2)Web2.0并不要求严格的读写实时性
(3)Web2.0通常不包含大量复杂的SQL查询(去结构化,存储空间换取更好的查询性能)


5.3 NoSQL与关系数据库的比较

在这里插入图片描述在这里插入图片描述在这里插入图片描述
关系数据库
优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持
劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等

NoSQL数据库
优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等
劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等

关系数据库和NoSQL数据库各有优缺点,彼此无法取代
关系数据库应用场景:电信、银行等领域的关键业务系统,需要保证强事务一致性
NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据分析)

采用混合架构
案例:亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用
对于“购物篮”这种临时性数据,采用键值存储会更高效
当前的产品和订单信息则适合存放在关系数据库中
大量的历史订单信息则适合保存在类似MongoDB的文档数据库中


5.4 NoSQL的四大类型

NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库
在这里插入图片描述在这里插入图片描述在这里插入图片描述
键值数据库

在这里插入图片描述键值数据库成为理想的缓冲层解决方案
在这里插入图片描述
Redis有时候会被人们称为“强化版的Memcached”
支持持久化、数据恢复、更多数据类型

列族数据库
在这里插入图片描述文档数据库
“文档”其实是一个数据记录,这个记录能够对包含的数据类型和内容进行“自我描述”。
XML文档、html文档和JSON 文档就属于这一类。
SequoiaDB就是使用JSON格式的文档数据库,它的存储的数据是这样的:
在这里插入图片描述在这里插入图片描述图形数据库

在这里插入图片描述不同类型数据库比较分析
在这里插入图片描述
数据库产品比较:
MySQL产生年代较早,尽管其没有什么大的改进,但是新兴的互联网使用的最多的数据库
MongoDB是个新生事物,提供更灵活的数据模型、异步提交、地理位置索引等五花十色的功能
HBase是个“仗势欺人”的大象兵。依仗着Hadoop的生态环境,可以有很好的扩展性,需要Hadoop才能驱使他
Redis是键值存储的代表,提供随机数据存储,功能最简单


5.5 NoSQL的三大基石

在这里插入图片描述
所谓的CAP指的是:
C(Consistency)一致性:是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据
A:(Availability)可用性:是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;
P(Tolerance of Network Partition)分区容忍性:是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。

CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。

当处理CAP的问题时,可以有几个明显的选择:
CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然,这种做法会严重影响系统的可扩展性。传统的关系数据库(MySQL、SQL Server和PostgreSQL),都采用了这种设计原则,因此,扩展性都比较差
CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A),当出现网络分区的情况时,受影响的服务需要等待数据一致,因此在等待期间就无法对外提供服务
AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C),允许系统返回不一致的数据

说起BASE(Basically Availble, Soft-state, Eventual consistency),不得不谈到ACID。
在这里插入图片描述一个数据库事务具有ACID四性:
A(Atomicity)原子性:是指事务必须是原子工作单元,对于其数据修改,要么全都执行,要么全都不执行
C(Consistency)一致性:是指事务在完成时,必须使所有的数据都保持一致状态
I(Isolation)隔离性:是指由并发事务所做的修改必须与任何其它并发事务所做的修改隔离
D(Durability)持久性:是指事务完成之后,它对于系统的影响是永久性的,该修改即使出现致命的系统故障也将一直保持

BASE的基本含义是基本可用(Basically Available)、软状态(Soft-state)和最终一致性(Eventual consistency)
基本可用
是指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,即允许分区失败的情形
软状态
软状态(soft-state)”是与“硬状态(hard-state)”相对应的一种提法。数据库保存的数据是“硬状态”时,可以保证数据一致性,即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同步,滞后性
最终一致性
对于强一致性而言,当执行完一次更新操作后,后续的其他读操作就可以保证读到更新后的最新数据;反之,如果不能保证后续访问读到的都是更新后的最新数据,那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例.最常见的实现最终一致性的系统是DNS

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以区分为:
因果一致性:如果进程A通知进程B它已更新了一个数据项,那么进程B的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问,仍然遵守一般的最终一致性规则
“读己之所写”一致性:可以视为因果一致性的一个特例。当进程A自己执行一个更新操作之后,它自己总是可以访问到更新过的值,绝不会看到旧值
单调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以区分为:
会话一致性:它把访问存储系统的进程放到会话(session)的上下文中,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会话
单调写一致性:系统保证来自同一个进程的写操作顺序执行。系统必须保证这种程度的一致性,否则就非常难以编程了

如何实现各种类型的一致性?
对于分布式数据系统:
N — 数据复制的份数
W — 更新数据时需要保证写完成的节点数
R — 读取数据的时候需要读取的节点数
如果W+R>N,写的节点和读的节点重叠,则是强一致性。例如对于典型的一主一备同步复制的关系型数据库,N=2,W=2,R=1,则不管读的是主库还是备库的数据,都是一致的。一般设定是R+W = N+1,这是保证强一致性的最小设定
如果W&#43;R<&#61;N&#xff0c;则是弱一致性。例如对于一主一备异步复制的关系型数据库&#xff0c;N&#61;2,W&#61;1,R&#61;1&#xff0c;则如果读的是备库&#xff0c;就可能无法读取主库已经更新过的数据&#xff0c;所以是弱一致性。

对于分布式系统&#xff0c;为了保证高可用性&#xff0c;一般设置N>&#61;3。不同的N,W,R组合&#xff0c;是在可用性和一致性之间取一个平衡&#xff0c;以适应不同的应用场景。
如果N&#61;W,R&#61;1&#xff0c;任何一个写节点失效&#xff0c;都会导致写失败&#xff0c;因此可用性会降低&#xff0c;但是由于数据分布的N个节点是同步写入的&#xff0c;因此可以保证强一致性。
实例&#xff1a;HBase是借助其底层的HDFS来实现其数据冗余备份的。HDFS采用的就是强一致性保证。在数据没有完全同步到N个节点前&#xff0c;写操作是不会返回成功的。也就是说它的W&#xff1d;N&#xff0c;而读操作只需要读到一个值即可&#xff0c;即R&#xff1d;1。
一些系统允许用户按需要设置N&#xff0c;R&#xff0c;W三个值&#xff0c;即使是设置成W&#xff0b;R<&#61; N也是可以的&#xff0c;也就是说允许用户在强一致性和最终一致性之间自由选择。


5.6 小结

本章介绍了NoSQL数据库的相关知识

NoSQL数据库较好地满足了大数据时代的各种非结构化数据的存储需求&#xff0c;开始得到越来越广泛的应用。但是&#xff0c;需要指出的是&#xff0c;传统的关系数据库和NoSQL数据库各有所长&#xff0c;彼此都有各自的市场空间&#xff0c;不存在一方完全取代另一方的问题&#xff0c;在很长的一段时期内&#xff0c;二者都会共同存在&#xff0c;满足不同应用的差异化需求

NoSQL数据库主要包括键值数据库、列族数据库、文档型数据库和图形数据库等四种类型&#xff0c;不同产品都有各自的应用场合。CAP、BASE和最终一致性是NoSQL数据库的三大理论基石&#xff0c;是理解NoSQL数据库的基础

介绍了融合传统关系数据库和NoSQL优点的NewSQL数据库

本章最后介绍了具有代表性的NoSQL数据库——文档数据库MongoDB






推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先,针对 MySQL 数据库,通过 `pymysql` 模块展示了如何连接和操作数据库,包括建立连接、执行查询和更新等常见操作。接着,文章深入探讨了 Redis 的基本命令和高级功能,如键值存储、列表操作和事务处理。此外,还提供了多个实际案例,帮助读者更好地理解和应用这些技术。 ... [详细]
  • 本文将深入探讨MySQL与MongoDB在游戏账户服务中的应用特点及优劣。通过对比这两种数据库的性能、扩展性和数据一致性,结合实际案例,帮助开发者更好地选择适合游戏账户服务的数据库方案。同时,文章还将介绍如何利用Erlang语言进行高效的游戏服务器开发,提升系统的稳定性和并发处理能力。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文详细介绍了数据库并发控制的基本概念、重要性和具体实现方法。并发控制是确保多个事务在同时操作数据库时保持数据一致性的关键机制。文章涵盖了锁机制、多版本并发控制(MVCC)、乐观并发控制和悲观并发控制等内容。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 在当今的软件开发领域,分布式技术已成为程序员不可或缺的核心技能之一,尤其在面试中更是考察的重点。无论是小微企业还是大型企业,掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中,我们深入探讨了Kafka这一高效的分布式消息系统,它不仅支持发布订阅模式,还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练,学员们对Kafka的应用有了更加深刻的理解。 ... [详细]
  • 在深入掌握Spring框架的事务管理之前,了解其背后的数据库事务基础至关重要。Spring的事务管理功能虽然强大且灵活,但其核心依赖于数据库自身的事务处理机制。因此,熟悉数据库事务的基本概念和特性是必不可少的。这包括事务的ACID属性、隔离级别以及常见的事务管理策略等。通过这些基础知识的学习,可以更好地理解和应用Spring中的事务管理配置。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在CentOS上部署和配置FreeSWITCH
    在CentOS系统上部署和配置FreeSWITCH的过程涉及多个步骤。本文详细介绍了从源代码安装FreeSWITCH的方法,包括必要的依赖项安装、编译和配置过程。此外,还提供了常见的配置选项和故障排除技巧,帮助用户顺利完成部署并确保系统的稳定运行。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
author-avatar
大约在冬季1122_867
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有