热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么_为什么SQL正在击败NoSQL,这对未来的数据意味着什么

篇首语:本文由编程笔记#小编为大家整理,主要介绍了为什么SQL正在击败NoSQL,这对未来的数据意味着什么相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了为什么SQL正在击败NoSQL,这对未来的数据意味着什么相关的知识,希望对你有一定的参考价值。


原文链接:http://database.51cto.com/art/201710/553615.htm

译者注:经过多年的沉寂之后,今天的SQL正在复出。缘由如何? 这对数据社区有什么影响?看看本文的分析。以下为译文。

自从可以利用计算机做事以来,我们一直在收集的数据以指数级的速度在增长,因此对于数据存储、处理和分析技术的要求也越来越高。在过去的十年里,由于SQL无法满足这些要求,软件开发人员就抛弃了它,NoSQL也就因此而渐渐发展起来:MapReduce,Bigtable,Cassandra,MongoDB等等。

然而,如今SQL正在重新复出。云端的主要供应商们现在都提供了广受大众欢迎的托管关系型数据库服务:例如 Amazon RDS , 谷歌Cloud SQL , Azure的PostgreSQL数据库 (Azure将于今年发布)。用亚马逊自己的话来说就是Aurora数据库结合了PostgreSQL和mysql数据库,因此该产品一直是“ AWS历史上增长最快的服务 ”。在Hadoop和Spark之上的SQL接口继续蓬勃发展。就在上个月, Kafka推出了SQL支持 。

在这篇文章中,我们将研究SQL现在为什么会复出的原因,以及这对未来的数据社区工程和分析意味着什么。

第一章:新希望

为了理解为什么SQL会卷土重来,让我们先了解一下最初设计它的原因。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

好的故事都是起源于20世纪70年代

我们的故事始于20世纪70年代早期的IBM研究,那时关系型数据库就诞生了。当时的查询语言依赖于复杂的数学逻辑和符号。Donald Chamberlin和Raymond Boyce两个人刚刚完成哲学博士学位,对关系型数据模型印象深刻,但是发现查询语言将成为其发展的一个主要瓶颈。于是他们便开始设计一种新的查询语言(用他们自己的话说):“ 让那些没有接受过数学和计算机编程方面正规训练的用户更容易使用 ”。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
两个查询语言的比较 ©

仔细想想这件事。在互联网出现之前,在个人电脑出现之前,当编程语言C首次被引入世界时,两位年轻的计算机科学家意识到,“ 计算机行业的成功很大程度上依赖于培养一种除了训练有素的计算机专家以外的用户 。”他们想要的是一种像英语一样易于阅读的查询语言,这也将包括数据库管理和操作。

其结果就是在1974年首次将SQL引入世界。在接下来的几十年里,SQL将被证明是非常受欢迎的。随着诸如System R、Ingres、DB2、Oracle、SQL Server、PostgreSQL、MySQL(等等)关系型数据库接管了软件行业,SQL也成为了与数据库交互的卓越语言,成为了一个日益拥挤、竞争激烈的生态系统的通用语言。

(遗憾的是,Raymond Boyce从来没有机会见证SQL的成功。1个月后 他便死于脑动脉瘤 ,只做了一个最早的SQL演讲,当时他只有26岁,留下了一个妻子和一个年轻的女儿。)

有一段时间,似乎SQL成功地完成了它的任务。但后来互联网发生了。

第二章:NoSQL的反击

在Chamberlin和Boyce都在开发SQL的同时,令他们没有想到的是在加州的第二组工程师正在研究另一个正在萌芽的项目,该项目后来会广泛扩散并威胁到SQL的存在。这个项目就是 阿帕网 ,1969年10月29日, 它诞生了 。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
ARPANET的一些创造者,最终演变成今天的互联网

SQL一直发展的都很好,但是直到1989年,另一个工程师出现并发明了 万维网 。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
发明网络的物理学家

像那些茂密的野草一样,互联网和网络蓬勃发展,极大地扰乱了我们的世界,但对于数据社区来说,它还造成了一个特别的麻烦:跟以前相比,新的数据源以更高的数量和速度生成数据。

随着互联网的不断发展,软件社区发现,当时的关系型数据库无法处理这一新的负载。 因此出现了一阵骚动的力量,就好像一百万个数据库突然过载了。

然后,两个新的互联网巨人取得了突破,并开发了他们自己的非关系型分布式系统来帮助解决这一新的数据冲击:由谷歌发布的 MapReduce ( 2004年出版 )和 Bigtable ( 2006年出版 ),以及亚马逊(Amazon)发布的 Dynamo ( 2007出版 )。这些开创性的论文导致出现了更多的非关系数据库,包括 Hadoop (基于MapReduce文件, 2006 ), Cassandra (受Bigtable和Dynamo文件的启发, 2008年 )和 MongoDB ( 2009 )。因为这些新系统基本上都是从零开始编写的,所以它们也没有使用SQL,导致了NoSQL运动的兴起。

开发者社区的软件工程师们也接受了NoSQL,而且跟SQL当时的出现相比,接受的群众范围更广了。这个原因很容易理解:NoSQL是现在流行的;它承诺了规模和权力;这似乎是项目通往成功的捷径。但后来出现了问题。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
典型的被NoSQL诱惑的软件开发人员。不要学这家伙。

开发人员很快发现,没有SQL实际上是非常有限的。。每个NoSQL数据库都提供了自己独特的查询语言,这意味着:学习更多的语言(并在同事之间传播知识);增加了将数据库连接到应用程序的难度,导致代码之间有很强的耦合性;缺乏第三方生态系统,需要公司开发自己的操作和可视化工具。

这些NoSQL语言是新的,但也没有完全开发出来。例如,关系型数据库已经运行很多年了,像为SQL添加必要的特性(例如JOIN)这些工作早都已经完成了;NoSQL语言的不成熟意味着在应用程序级别就会有更多的复杂性。缺乏JOIN也导致了反规格化,从而又导致数据膨胀和僵化。

一些NoSQL数据库添加了自己的“类sql”查询语言,比如Cassandra的CQL。但这常常会使问题变得更糟。如果使用跟别的东西完全一样的界面,如果越常见,实际上会导致心理产生更多的疑问:工程师压根就不知道支持什么,不支持什么。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么
类sql的查询语言就像 《星球大战》假日特别节目 。接受不模仿。

社区中的一些人在早期就看到了NoSQL的问题( 例如德维特和斯通布雷克在2008年就发现了 )。随着时间的推移,通过使用过程中个人经验的辛苦积累,越来越多的软件开发人员也同意了这一点。

第三章:SQL的回归

最初被黑暗势力所诱惑的软件社区开始看到了光明,SQL也上演了英雄回归的一幕。

首先是Hadoop上的SQL接口(Spark之后也是),导致该行业兴起了NoSQL,NoSQL表示“不只是SQL”(Not Only SQL)。

紧接着NewSQL兴起了:完全接纳了SQL的新的可扩展数据库。来自于麻省理工学院(MIT)和布朗大学(Brown)研究人员的 H-Store ( 2008年出版 )是最早的扩展OLTP数据库之一。谷歌再次引领了风向标,根据他们的 Spanner 论文( 出版于2012年 )(其作者包括原始的MapReduce作者)开创了地缘重复的SQL界面的数据库,其次再是 CockroachDB ( 2014 )这样的其他先驱者。

与此同时,PostgreSQL社区开始复苏,添加了一些关键的改进,比如JSON数据类型(2012),以及 PostgreSQL 10 中的新特性的potpourri:对分区和复制更好的本地支持,支持对JSON的全文搜索,以及其它更多的特性(定于今年晚些时候发布的版本)。其他如 CitusDB ( 2016 )以及其他的公司( 今年发布 的 TimescaleDB )找到了新方法从而针对特定数据工作负载的扩展PostgreSQL。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

事实上,我们开发 TimescaleDB 的过程与这个行业的发展轨迹是密切相关。早期的TimescaleDB内部版本使用了我们自己的类sql查询语言“ioQL”。是的,我们也没能抵挡住黑暗一面的诱惑:我们感觉能够构建自己的查询语言应该会非常强大。然而,尽管这似乎是一条简单的道路,但我们很快意识到其实需要做更多的工作。我们还发现自己需要不断地去查找合适的语法,去查询那些已经可以用SQL进行查询的内容。

有一天,我们意识到构建自己的查询语言毫无意义。最关键的还是要接受SQL。这是我们做出的最好的设计决定之一。顿时,一个全新的世界出现了。现在尽管我们的数据库才问世5个月,但是用户却可以在生产环境上使用我们的数据库,还有很多其他的美好事物:可视化工具(Tableau),与常见的ORM的连接器,各种工具和备份选项,丰富的在线教程和语法解释等等。

信谷歌,得永生

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

谷歌已经在数据工程和基础架构领域领先了十多年了。我们应该密切关注他们正在做的事情。

看看谷歌的第二大 Spanner 论文,就在四个月前发布的( Spanner:成为一个SQL系统 ,2017年5月),你会发现它支持我们的发现成果。

例如,谷歌开始的时候是在Bigtable上面构建,但后来发现不用SQL会造成很多问题(强调了我们下面的所有引用):

虽然这些系统提供了数据库系统的某些优点,但它们缺少许多应用程序开发人员经常依赖的传统数据库特性。 举一个关键的例子就是一个健壮的查询语言 ,这意味着开发人员必须编写复杂的代码来处理和聚合应用程序中的数据。 因此,我们决定将Spanner变成一个完整的SQL系统 ,查询执行与Spanner的其他架构特性紧密集成(例如强一致性和全局复制)。

在论文的后面,他们进一步抓住了从NoSQL过渡到SQL的基本原理:



  • Spanner的原始API提供了对单个和交叉表的点查找和范围扫描的NoSQL方法。虽然NoSQL方法提供了一个简单的启动扳手的方法,并且在简单的检索场景中继续有用,但是SQL在表达更复杂的数据访问模式和将计算推到数据上提供了重要的附加价值。


  • 本文还描述了SQL的采用是如何在扳手上不停止的,但实际上扩展到了谷歌的其余部分,这里的多个系统现在共享一个通用的SQL方言:


  • 扳手的SQL引擎共享一个共同的SQL方言,称为“标准SQL”,与其他几个系统在谷歌上钻包括内部系统如F1和小孔(等)和外部系统如BigQuery…


对于谷歌的用户来说,这降低了跨系统工作的障碍。一个开发人员或数据分析人员编写了针对Spanner数据库的SQL,可以将他们对该语言的理解转移到Dremel,而不必担心语法、空处理等细微的差异。

这种方法的成功不言自明。Spanner已经成为主要谷歌系统的“真相之源”,包括AdWords和谷歌游戏,而“潜在的云客户对使用SQL非常感兴趣”。

考虑到谷歌首先帮助发起了NoSQL运动,很值得注意的是,它现在正在接受SQL。(导致一些人最近想:“谷歌在10年的假时间里发送了大数据产业吗?”)

这对数据的未来意味着什么:SQL将变成细腰

在计算机网络中,有一个概念叫做“细腰结构”。

这个想法的出现解决了一个关键问题:在任何给定的网络设备上,想象一个堆栈,底层的硬件层和顶部的软件层。中间可能会存在各种网络硬件;同样,也存在存在各种各样的软件和应用程序。需要某种可以确保无论硬件发生了什么情况,软件仍然可以连接到网络的方法;同样的也能确保无论软件发生什么,网络硬件都知道如何处理网络请求。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

在网络中,细腰的角色由 互联网协议(IP) 扮演,它是为局域网设计的底层联网协议和更高级别的应用程序和传输协议的公共接口。( 这是一个很好的解释 。)而且(在一个广泛的简化中),这个公共接口成为了计算机的通用语言,使网络能够相互连接,设备可以通信,而这种“网络网络”可以发展成为今天丰富多样的互联网。

我们认为SQL已经成为数据分析的细腰。

我们生活的时代,数据正在成为“世界上最有价值的资源”( 《经济学人》,2017年5月 )。因此,我们看到了专业数据库(OLAP、时间序列、文档、图表等),数据处理工具(Hadoop,Spark,Flink),数据总线(Kafka,RabbitMQ)等呈现出了寒武纪大爆发式的情形。我们也有了更多需要依靠这些数据基础设施的应用程序,无论是第三方数据可视化工具(Tableau,Grafana PowerBI,Superset),web框架(Rails,Django)或定制的数据驱动的应用程序。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

像网络一样,我们也有一个复杂的堆栈,底层的基础设施和顶部的应用程序。通常,我们最终会编写大量的胶水代码来完成这个堆栈工作。但是胶水代码可能很脆弱:需要精心的运维。

我们需要的是一个公共接口,允许堆栈的各个部分彼此通信。理想情况下,这个行业已经标准化了。它能让不同层之间的通信阻碍能够降到最小。

这就是SQL的力量。和IP一样,SQL也是一个公共接口。

但SQL实际上比IP复杂得多。因为数据还需要支持人类分析。而且,SQL创建者最初给它设定的目标之一就是可读性要高。

SQL是完美的吗?不,但社区中的大多数人都已经了解了这门语言。虽然已经有工程师在开发更自然的语言界面,但是这些系统最终会连接到哪里?还是SQL。

所以在堆栈的顶部还有一层。那一层就是我们人类。

SQL回归

SQL回来了。不只是因为在组装NoSQL工具时编写胶水代码的做法十分令人反感。不仅仅是因为学习各种各样的新语言是困难的。也不只是因为标准会带来各种优点。

也因为这个世界充满了数据。它包围着我们,束缚着我们。起初,我们依靠人类的感觉神经系统来处理它。现在,软件和硬件系统也变得足够智能,可以帮助我们。随着收集的数据越来越多,我们也可以更好地认识这个世界,系统的复杂性、存储、处理、分析以及对这些数据可视化的需求只会继续增长。

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

数据科学家尤达大师

我们可以生活在满大街的系统都是如纸一般脆弱,接口量达到数百万个的世界里。 或者我们可以再次选择SQL,这样我们生活的世界也可能会变得越来越强大。


图书推荐:


《白话深度学习与 TensorFlow 》

简介:基础篇(1-3章):介绍深度学习的基本概念和Tensorflow的基本介绍。原理与实践篇(4-8章):大量的关于深度学习中BP、CNN以及RNN网络等概念的数学知识解析,加以更朴素的语言与类比,使得非数学专业的程序员还是能够比较容易看懂。扩展篇(9-13章):介绍新增的深度学习网络变种与较新的深度学习特性,并给出有趣的深度学习应用。读完本书,基本具备了搭建全套Tensorflow应用环境的能力,掌握深度学习算法和思路,以及进行一般性的文章分类、音频分类或视频分类的能力。



推荐阅读
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • PDO MySQL
    PDOMySQL如果文章有成千上万篇,该怎样保存?数据保存有多种方式,比如单机文件、单机数据库(SQLite)、网络数据库(MySQL、MariaDB)等等。根据项目来选择,做We ... [详细]
  • 推荐一个ASP的内容管理框架(ASP Nuke)的优势和适用场景
    本文推荐了一个ASP的内容管理框架ASP Nuke,并介绍了其主要功能和特点。ASP Nuke支持文章新闻管理、投票、论坛等主要内容,并可以自定义模块。最新版本为0.8,虽然目前仍处于Alpha状态,但作者表示会继续更新完善。文章还分析了使用ASP的原因,包括ASP相对较小、易于部署和较简单等优势,适用于建立门户、网站的组织和小公司等场景。 ... [详细]
  • 如何在php中将mysql查询结果赋值给变量
    本文介绍了在php中将mysql查询结果赋值给变量的方法,包括从mysql表中查询count(学号)并赋值给一个变量,以及如何将sql中查询单条结果赋值给php页面的一个变量。同时还讨论了php调用mysql查询结果到变量的方法,并提供了示例代码。 ... [详细]
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • Python SQLAlchemy库的使用方法详解
    本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介,包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式,即SQL表达式语言和ORM。针对不同的需求,给出了选择哪种模式的建议。最后,介绍了连接数据库的方法,包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]
  • 31.项目部署
    目录1一些概念1.1项目部署1.2WSGI1.3uWSGI1.4Nginx2安装环境与迁移项目2.1项目内容2.2项目配置2.2.1DEBUG2.2.2STAT ... [详细]
  • 2018深入java目标计划及学习内容
    本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • 一面自我介绍对象相等的判断,equals方法实现。可以简单描述挫折,并说明自己如何克服,最终有哪些收获。职业规划表明自己决心,首先自己不准备继续求学了,必须招工作了。希望去哪 ... [详细]
  • 事件风暴是软件系统的快速设计技术,涉及技术人员和领域专家业务分析师。它最适合领域驱动设计环境,并倾向 ... [详细]
  • 如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]
  • 环境配置tips
    一、MySQL在Linux下数据库名、表名、列名、别名大小写规则是这样的:  1、数据库名与表名是严格区分大小写的;  2、表的别名是严格区分大小写的& ... [详细]
author-avatar
Adrian
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有