热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么_为什么SQL正在击败NoSQL,这对未来的数据意味着什么

篇首语:本文由编程笔记#小编为大家整理,主要介绍了为什么SQL正在击败NoSQL,这对未来的数据意味着什么相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了为什么SQL正在击败NoSQL,这对未来的数据意味着什么相关的知识,希望对你有一定的参考价值。


原文链接:http://database.51cto.com/art/201710/553615.htm

译者注:经过多年的沉寂之后,今天的SQL正在复出。缘由如何? 这对数据社区有什么影响?看看本文的分析。以下为译文。

自从可以利用计算机做事以来,我们一直在收集的数据以指数级的速度在增长,因此对于数据存储、处理和分析技术的要求也越来越高。在过去的十年里,由于SQL无法满足这些要求,软件开发人员就抛弃了它,NoSQL也就因此而渐渐发展起来:MapReduce,Bigtable,Cassandra,MongoDB等等。

然而,如今SQL正在重新复出。云端的主要供应商们现在都提供了广受大众欢迎的托管关系型数据库服务:例如 Amazon RDS , 谷歌Cloud SQL , Azure的PostgreSQL数据库 (Azure将于今年发布)。用亚马逊自己的话来说就是Aurora数据库结合了PostgreSQL和mysql数据库,因此该产品一直是“ AWS历史上增长最快的服务 ”。在Hadoop和Spark之上的SQL接口继续蓬勃发展。就在上个月, Kafka推出了SQL支持 。

在这篇文章中,我们将研究SQL现在为什么会复出的原因,以及这对未来的数据社区工程和分析意味着什么。

第一章:新希望

为了理解为什么SQL会卷土重来,让我们先了解一下最初设计它的原因。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

好的故事都是起源于20世纪70年代

我们的故事始于20世纪70年代早期的IBM研究,那时关系型数据库就诞生了。当时的查询语言依赖于复杂的数学逻辑和符号。Donald Chamberlin和Raymond Boyce两个人刚刚完成哲学博士学位,对关系型数据模型印象深刻,但是发现查询语言将成为其发展的一个主要瓶颈。于是他们便开始设计一种新的查询语言(用他们自己的话说):“ 让那些没有接受过数学和计算机编程方面正规训练的用户更容易使用 ”。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
两个查询语言的比较 ©

仔细想想这件事。在互联网出现之前,在个人电脑出现之前,当编程语言C首次被引入世界时,两位年轻的计算机科学家意识到,“ 计算机行业的成功很大程度上依赖于培养一种除了训练有素的计算机专家以外的用户 。”他们想要的是一种像英语一样易于阅读的查询语言,这也将包括数据库管理和操作。

其结果就是在1974年首次将SQL引入世界。在接下来的几十年里,SQL将被证明是非常受欢迎的。随着诸如System R、Ingres、DB2、Oracle、SQL Server、PostgreSQL、MySQL(等等)关系型数据库接管了软件行业,SQL也成为了与数据库交互的卓越语言,成为了一个日益拥挤、竞争激烈的生态系统的通用语言。

(遗憾的是,Raymond Boyce从来没有机会见证SQL的成功。1个月后 他便死于脑动脉瘤 ,只做了一个最早的SQL演讲,当时他只有26岁,留下了一个妻子和一个年轻的女儿。)

有一段时间,似乎SQL成功地完成了它的任务。但后来互联网发生了。

第二章:NoSQL的反击

在Chamberlin和Boyce都在开发SQL的同时,令他们没有想到的是在加州的第二组工程师正在研究另一个正在萌芽的项目,该项目后来会广泛扩散并威胁到SQL的存在。这个项目就是 阿帕网 ,1969年10月29日, 它诞生了 。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
ARPANET的一些创造者,最终演变成今天的互联网

SQL一直发展的都很好,但是直到1989年,另一个工程师出现并发明了 万维网 。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
发明网络的物理学家

像那些茂密的野草一样,互联网和网络蓬勃发展,极大地扰乱了我们的世界,但对于数据社区来说,它还造成了一个特别的麻烦:跟以前相比,新的数据源以更高的数量和速度生成数据。

随着互联网的不断发展,软件社区发现,当时的关系型数据库无法处理这一新的负载。 因此出现了一阵骚动的力量,就好像一百万个数据库突然过载了。

然后,两个新的互联网巨人取得了突破,并开发了他们自己的非关系型分布式系统来帮助解决这一新的数据冲击:由谷歌发布的 MapReduce ( 2004年出版 )和 Bigtable ( 2006年出版 ),以及亚马逊(Amazon)发布的 Dynamo ( 2007出版 )。这些开创性的论文导致出现了更多的非关系数据库,包括 Hadoop (基于MapReduce文件, 2006 ), Cassandra (受Bigtable和Dynamo文件的启发, 2008年 )和 MongoDB ( 2009 )。因为这些新系统基本上都是从零开始编写的,所以它们也没有使用SQL,导致了NoSQL运动的兴起。

开发者社区的软件工程师们也接受了NoSQL,而且跟SQL当时的出现相比,接受的群众范围更广了。这个原因很容易理解:NoSQL是现在流行的;它承诺了规模和权力;这似乎是项目通往成功的捷径。但后来出现了问题。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
典型的被NoSQL诱惑的软件开发人员。不要学这家伙。

开发人员很快发现,没有SQL实际上是非常有限的。。每个NoSQL数据库都提供了自己独特的查询语言,这意味着:学习更多的语言(并在同事之间传播知识);增加了将数据库连接到应用程序的难度,导致代码之间有很强的耦合性;缺乏第三方生态系统,需要公司开发自己的操作和可视化工具。

这些NoSQL语言是新的,但也没有完全开发出来。例如,关系型数据库已经运行很多年了,像为SQL添加必要的特性(例如JOIN)这些工作早都已经完成了;NoSQL语言的不成熟意味着在应用程序级别就会有更多的复杂性。缺乏JOIN也导致了反规格化,从而又导致数据膨胀和僵化。

一些NoSQL数据库添加了自己的“类sql”查询语言,比如Cassandra的CQL。但这常常会使问题变得更糟。如果使用跟别的东西完全一样的界面,如果越常见,实际上会导致心理产生更多的疑问:工程师压根就不知道支持什么,不支持什么。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
类sql的查询语言就像 《星球大战》假日特别节目 。接受不模仿。

社区中的一些人在早期就看到了NoSQL的问题( 例如德维特和斯通布雷克在2008年就发现了 )。随着时间的推移,通过使用过程中个人经验的辛苦积累,越来越多的软件开发人员也同意了这一点。

第三章:SQL的回归

最初被黑暗势力所诱惑的软件社区开始看到了光明,SQL也上演了英雄回归的一幕。

首先是Hadoop上的SQL接口(Spark之后也是),导致该行业兴起了NoSQL,NoSQL表示“不只是SQL”(Not Only SQL)。

紧接着NewSQL兴起了:完全接纳了SQL的新的可扩展数据库。来自于麻省理工学院(MIT)和布朗大学(Brown)研究人员的 H-Store ( 2008年出版 )是最早的扩展OLTP数据库之一。谷歌再次引领了风向标,根据他们的 Spanner 论文( 出版于2012年 )(其作者包括原始的MapReduce作者)开创了地缘重复的SQL界面的数据库,其次再是 CockroachDB ( 2014 )这样的其他先驱者。

与此同时,PostgreSQL社区开始复苏,添加了一些关键的改进,比如JSON数据类型(2012),以及 PostgreSQL 10 中的新特性的potpourri:对分区和复制更好的本地支持,支持对JSON的全文搜索,以及其它更多的特性(定于今年晚些时候发布的版本)。其他如 CitusDB ( 2016 )以及其他的公司( 今年发布 的 TimescaleDB )找到了新方法从而针对特定数据工作负载的扩展PostgreSQL。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

事实上,我们开发 TimescaleDB 的过程与这个行业的发展轨迹是密切相关。早期的TimescaleDB内部版本使用了我们自己的类sql查询语言“ioQL”。是的,我们也没能抵挡住黑暗一面的诱惑:我们感觉能够构建自己的查询语言应该会非常强大。然而,尽管这似乎是一条简单的道路,但我们很快意识到其实需要做更多的工作。我们还发现自己需要不断地去查找合适的语法,去查询那些已经可以用SQL进行查询的内容。

有一天,我们意识到构建自己的查询语言毫无意义。最关键的还是要接受SQL。这是我们做出的最好的设计决定之一。顿时,一个全新的世界出现了。现在尽管我们的数据库才问世5个月,但是用户却可以在生产环境上使用我们的数据库,还有很多其他的美好事物:可视化工具(Tableau),与常见的ORM的连接器,各种工具和备份选项,丰富的在线教程和语法解释等等。

信谷歌,得永生

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

谷歌已经在数据工程和基础架构领域领先了十多年了。我们应该密切关注他们正在做的事情。

看看谷歌的第二大 Spanner 论文,就在四个月前发布的( Spanner:成为一个SQL系统 ,2017年5月),你会发现它支持我们的发现成果。

例如,谷歌开始的时候是在Bigtable上面构建,但后来发现不用SQL会造成很多问题(强调了我们下面的所有引用):

虽然这些系统提供了数据库系统的某些优点,但它们缺少许多应用程序开发人员经常依赖的传统数据库特性。 举一个关键的例子就是一个健壮的查询语言 ,这意味着开发人员必须编写复杂的代码来处理和聚合应用程序中的数据。 因此,我们决定将Spanner变成一个完整的SQL系统 ,查询执行与Spanner的其他架构特性紧密集成(例如强一致性和全局复制)。

在论文的后面,他们进一步抓住了从NoSQL过渡到SQL的基本原理:



  • Spanner的原始API提供了对单个和交叉表的点查找和范围扫描的NoSQL方法。虽然NoSQL方法提供了一个简单的启动扳手的方法,并且在简单的检索场景中继续有用,但是SQL在表达更复杂的数据访问模式和将计算推到数据上提供了重要的附加价值。


  • 本文还描述了SQL的采用是如何在扳手上不停止的,但实际上扩展到了谷歌的其余部分,这里的多个系统现在共享一个通用的SQL方言:


  • 扳手的SQL引擎共享一个共同的SQL方言,称为“标准SQL”,与其他几个系统在谷歌上钻包括内部系统如F1和小孔(等)和外部系统如BigQuery…


对于谷歌的用户来说,这降低了跨系统工作的障碍。一个开发人员或数据分析人员编写了针对Spanner数据库的SQL,可以将他们对该语言的理解转移到Dremel,而不必担心语法、空处理等细微的差异。

这种方法的成功不言自明。Spanner已经成为主要谷歌系统的“真相之源”,包括AdWords和谷歌游戏,而“潜在的云客户对使用SQL非常感兴趣”。

考虑到谷歌首先帮助发起了NoSQL运动,很值得注意的是,它现在正在接受SQL。(导致一些人最近想:“谷歌在10年的假时间里发送了大数据产业吗?”)

这对数据的未来意味着什么:SQL将变成细腰

在计算机网络中,有一个概念叫做“细腰结构”。

这个想法的出现解决了一个关键问题:在任何给定的网络设备上,想象一个堆栈,底层的硬件层和顶部的软件层。中间可能会存在各种网络硬件;同样,也存在存在各种各样的软件和应用程序。需要某种可以确保无论硬件发生了什么情况,软件仍然可以连接到网络的方法;同样的也能确保无论软件发生什么,网络硬件都知道如何处理网络请求。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

在网络中,细腰的角色由 互联网协议(IP) 扮演,它是为局域网设计的底层联网协议和更高级别的应用程序和传输协议的公共接口。( 这是一个很好的解释 。)而且(在一个广泛的简化中),这个公共接口成为了计算机的通用语言,使网络能够相互连接,设备可以通信,而这种“网络网络”可以发展成为今天丰富多样的互联网。

我们认为SQL已经成为数据分析的细腰。

我们生活的时代,数据正在成为“世界上最有价值的资源”( 《经济学人》,2017年5月 )。因此,我们看到了专业数据库(OLAP、时间序列、文档、图表等),数据处理工具(Hadoop,Spark,Flink),数据总线(Kafka,RabbitMQ)等呈现出了寒武纪大爆发式的情形。我们也有了更多需要依靠这些数据基础设施的应用程序,无论是第三方数据可视化工具(Tableau,Grafana PowerBI,Superset),web框架(Rails,Django)或定制的数据驱动的应用程序。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

像网络一样,我们也有一个复杂的堆栈,底层的基础设施和顶部的应用程序。通常,我们最终会编写大量的胶水代码来完成这个堆栈工作。但是胶水代码可能很脆弱:需要精心的运维。

我们需要的是一个公共接口,允许堆栈的各个部分彼此通信。理想情况下,这个行业已经标准化了。它能让不同层之间的通信阻碍能够降到最小。

这就是SQL的力量。和IP一样,SQL也是一个公共接口。

但SQL实际上比IP复杂得多。因为数据还需要支持人类分析。而且,SQL创建者最初给它设定的目标之一就是可读性要高。

SQL是完美的吗?不,但社区中的大多数人都已经了解了这门语言。虽然已经有工程师在开发更自然的语言界面,但是这些系统最终会连接到哪里?还是SQL。

所以在堆栈的顶部还有一层。那一层就是我们人类。

SQL回归

SQL回来了。不只是因为在组装NoSQL工具时编写胶水代码的做法十分令人反感。不仅仅是因为学习各种各样的新语言是困难的。也不只是因为标准会带来各种优点。

也因为这个世界充满了数据。它包围着我们,束缚着我们。起初,我们依靠人类的感觉神经系统来处理它。现在,软件和硬件系统也变得足够智能,可以帮助我们。随着收集的数据越来越多,我们也可以更好地认识这个世界,系统的复杂性、存储、处理、分析以及对这些数据可视化的需求只会继续增长。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

数据科学家尤达大师

我们可以生活在满大街的系统都是如纸一般脆弱,接口量达到数百万个的世界里。 或者我们可以再次选择SQL,这样我们生活的世界也可能会变得越来越强大。


图书推荐:


《白话深度学习与 TensorFlow 》

简介:基础篇(1-3章):介绍深度学习的基本概念和Tensorflow的基本介绍。原理与实践篇(4-8章):大量的关于深度学习中BP、CNN以及RNN网络等概念的数学知识解析,加以更朴素的语言与类比,使得非数学专业的程序员还是能够比较容易看懂。扩展篇(9-13章):介绍新增的深度学习网络变种与较新的深度学习特性,并给出有趣的深度学习应用。读完本书,基本具备了搭建全套Tensorflow应用环境的能力,掌握深度学习算法和思路,以及进行一般性的文章分类、音频分类或视频分类的能力。



推荐阅读
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • 提升MySQL数据库架构性能的策略与方法
    为了提升MySQL数据库架构的性能,本文探讨了多种策略与方法。首先,分析了影响数据库性能的关键因素,并详细阐述了数据库结构优化的重要性。接着,介绍了数据库设计的基本步骤,包括第一、第二和第三范式的应用,以及反范式化设计的场景。此外,还讨论了数据库物理设计的关键要素,如表定义、索引设计和存储引擎选择,以确保高效的查询响应和数据管理。 ... [详细]
  • 本文介绍如何在将数据库从服务器复制到本地时,处理因外键约束导致的数据插入失败问题。 ... [详细]
  • 本文介绍了在 Spring Boot 中使用 JPA 进行数据删除操作时遇到的 SQL 错误及其解决方法。错误表现为:删除操作失败,原因是无法打开 JPA EntityManager 以进行事务处理。 ... [详细]
  • 在使用 Cacti 进行监控时,发现已运行的转码机未产生流量,导致 Cacti 监控界面显示该转码机处于宕机状态。进一步检查 Cacti 日志,发现数据库中存在 SQL 查询失败的问题,错误代码为 145。此问题可能是由于数据库表损坏或索引失效所致,建议对相关表进行修复操作以恢复监控功能。 ... [详细]
  • 在当今的软件开发领域,分布式技术已成为程序员不可或缺的核心技能之一,尤其在面试中更是考察的重点。无论是小微企业还是大型企业,掌握分布式技术对于提升工作效率和解决实际问题都至关重要。本周的Java架构师实战训练营中,我们深入探讨了Kafka这一高效的分布式消息系统,它不仅支持发布订阅模式,还能在高并发场景下保持高性能和高可靠性。通过实际案例和代码演练,学员们对Kafka的应用有了更加深刻的理解。 ... [详细]
  • Spring框架的核心组件与架构解析 ... [详细]
  • 在过去,我曾使用过自建MySQL服务器中的MyISAM和InnoDB存储引擎(也曾尝试过Memory引擎)。今年初,我开始转向阿里云的关系型数据库服务,并深入研究了其高效的压缩存储引擎TokuDB。TokuDB在数据压缩和处理大规模数据集方面表现出色,显著提升了存储效率和查询性能。通过实际应用,我发现TokuDB不仅能够有效减少存储成本,还能显著提高数据处理速度,特别适用于高并发和大数据量的场景。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
author-avatar
Adrian
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有