当前位置: 开发笔记 > 后端 > 正文

MySQL的大数据改进_MySQL-mysql教程

作者：飞教书的粉红色 | 来源：互联网 | 2017-05-12 16:11

MySQL的大数据改进

【IT168 专稿】说到大数据，不得不提的就是阿里巴巴。这家全球领先的电子商务企业，每天处理的数据量是其他任何公司都无法比拟的，它也正在转型成为一家真正意义上的数据公司——MySQL就是阿里巴巴转型的重要武器。曾经采访过阿里的一位数据库架构师，他认为阿里将开源MySQL的性能达到最佳状态，超越任何关系型数据库和NoSQL。

　　2009年，甲骨文通过收购Sun获得了MySQL的版权，业界就开始质疑甲骨文的用意，担心MySQL的未来发展。而甲骨文在收购时就曾表态，会比Sun投入更多的精力来开发MySQL。目前看来，至少MySQL社区版和第三方版本的发展并没有受到收购的影响，MySQL的商业版本也在持续的改进和更新中。下面笔者将盘点一下甲骨文推出的MySQL 5.6正式版的一些新功能，及其针对大数据时代的改进。

　　一、MySQL 5.6正式版功能盘点

　　2013年初，甲骨文发布MySQL 5.6正式版，通过提升MySQL优化诊断来提供更好的查询执行时间和诊断功能，通过增强InnoDB存储引擎来提高性能处理量和应用可用性，通过MySQL复制的新功能以提高扩展性和高可用性，并且拥有许多新增强功能，包括地理信息系统、精确的空间操作、增强的IPv6合规性和优化服务器的默认设置。

　　凭借增强的性能、可扩展性、可靠性和可管理性优势，MySQL 5.6可帮助用户满足最苛刻的网络、云和嵌入式的应用需求。通过子查询优化、在线数据定义语言(DDL)操作、NoSQL访问InnoDB、新的性能架构检测以及更好的条件处理，MySQL 5.6可极大提高开发人员的灵活性。

　　四大亮点：

　　1.通过提升MySQL优化诊断来提供更好的查询执行时间和诊断功能

　　·子查询优化：通过在执行之前优化子查询来简化查询开发。新效率体现在查询执行时间内，显著提升结果集的选择、分类并返回交付。

　　·新增的指数条件下推(Index Condition Pushdown)和批量密钥访问(Batch Key Access)功能可提高选择查询量高达280倍。

　　·增强的优化诊断功能：通过EXPLAIN进行INSERT，UPDATE和DELETE操作。EXPLAIN计划以JSON格式输出，提供更精确的优化指标和更好的可读性，优化跟踪(Optimizer Traces)可跟踪优化决策过程。

　　2.通过增强InnoDB存储引擎来提高性能处理量和应用可用性

　　·提升处理和只读量高达230%：通过InnoDB重构，以尽量减少传统线程，冲洗和清理互斥冲突和瓶颈，从而在高负重OLTP系统上，实现更好的并发性，进而针对只读工作负载(2)和处理，显著提高处理量。

　　·提高可用性：在线DDL操作可使数据库管理员添加索引和执行表变更，且应用程序仍可用于更新。

　　·InnoDB全文搜索：允许开发人员在InnoDB表上，建立全文索引，以表示基于文本的内容，并加快单词和短语的应用搜索。

　　·简单、关键值查找：通过熟悉的Memcached API，对InnoDB的灵活NoSQL访问，提供了InnoDB数据的简单、关键值查找。用户可实现在同一个数据库，关键值操作和复杂的SQL查询的“双赢”效应。

　　3.通过MySQL复制的新功能以提高扩展性和高可用性

　　·自我修复功能的复制集群：新增的全球处理识别和使用程序(Global Transaction Identifiers and Utilities)能更方便的实现自动检测并从故障中恢复。碰撞安全复制功能(Crash-Safe Replication)使二进制日志和从动装载，在崩溃和恢复复制的情况下，能自动恢复到在复制流的正确位置上，而无需管理员干预。通过自动检测和警告错误，Checksums可跨集群维护数据的完整性。

　　·高性能复制集群：通过多线程的从动装置(3)，Binlog组提交和基于行复制的优化(Binlog Group Commit and Optimized Row-Based Replication)使复制能力提高了5倍，让用户在向外扩展其跨商品系统的工作负载时，能够最大限度地提高复制性能和效率。.

　　·时间延迟复制：能防止发生在主机的操作失误，如意外删除表格等。

　　4.增强的性能架构(PERFORMANCE_SCHEMA)：新检测让用户能够更好地监控资源最密集的查询、对象、用户和应用程序。也可通过查询、线程、用户、主机和对象来实现新汇总统计信息概要。增强功能允许更简便的默认配置，且只耗费不到5%的成本。

　　二、MySQL针对大数据的改进

　　1、NoSQL功能

　　在甲骨文最新发布的MySQL 5.6正式版中，增加了一些NoSQL特性，即通过Memcached API对InnoDB的灵活NoSQL访问，提供了InnoDB数据的简单、关键值查找。从此可以看出NoSQL对关系数据库的确产生了巨大的影响，MySQL的这一举动可以让开发人员更加方便的使用NoSQL和关系数据库。

　　但有很多技术人员认为MySQL的这一功能略显鸡肋，并不能真正发挥NoSQL的作用。以扩展性为例，NoSQL的一个主要优势就是横向扩展(Scale Out)。例如Cassandra能够简单透明地在多个机器上进行扩展，它们可以是廉价的硬件组成的集群，而无需购买昂贵的服务器或者SAN存储。这一点MySQL 5.6是做不到的。

　　2、支持Hadoop

　　MySQL团队最新推出了MySQL Applier for Hadoop(以下简称Hadoop Applier)，希望解决从非MySQL服务器复制数据的问题。

　　例如，复制事件中的从服务器可能是一个数据仓库系统，如Apache Hive，它使用Hadoop分布式文件系统(HDFS)作为数据存储区。如果你有一个与HDFS相关的Hive元存储，Hadoop Applier就可以实时填充Hive数据表。数据是从MySQL中以文本文件形式导出到HDFS，然后再填充到Hive。

　　操作很简单，只需在Hive运行HiveQL语句'CREATE TABLE'，定义表的结构与MySQL相似，然后运行Hadoop Applier即可开始实时复制数据。

　　在Hadoop Applier之前，还没有任何工具可以执行实时传输。之前的解决方案是通过Apache Sqoop导出数据到HDFS，尽管可以批量传输，但是需要经常将结果重复导入以保持数据更新。在进行大量数据传输时，其他查询会变得很慢。且在数据库较大的情况下，如果只进行了一点更改，Sqoop可能也需要较长时间来加载。

　　而Hadoop Applier则会读取二进制日志，只应用MySQL服务器上发生的事件，并插入数据，不需要批量传输，操作更快，因此并不影响其他查询的执行速度。

　　小结

　　MySQL是业界最优秀的一款开源关系型数据库软件，拥有大批追随者，他们不仅使用MySQL，也为MySQL社区做贡献，形成一个良好的生态系统。对于MySQL而言，对NoSQL和Hadoop的支持只能是对大数据时代的一种迎合，对于技术人员的作用不置可否。

推荐阅读

hive
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
爬虫
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
队列
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
队列
掌握MySQL数据库的基础语法与核心操作

本文详细介绍了MySQL数据库的基础语法与核心操作，涵盖从基础概念到具体应用的多个方面。首先，文章从基础知识入手，逐步深入到创建和修改数据表的操作。接着，详细讲解了如何进行数据的插入、更新与删除。在查询部分，不仅介绍了DISTINCT和LIMIT的使用方法，还探讨了排序、过滤和通配符的应用。此外，文章还涵盖了计算字段以及多种函数的使用，包括文本处理、日期和时间处理及数值处理等。通过这些内容，读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]

蜡笔小新 2024-11-11 23:39:51
队列
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
队列
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
api
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
队列
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25
队列
开发心得：利用 Redis 构建分布式系统的轻量级协调机制

开发心得：利用 Redis 构建分布式系统的轻量级协调机制 ... [详细]

蜡笔小新 2024-10-29 07:37:33
python
Linux学习精华：程序管理、终端种类与命令帮助获取方法综述

Linux学习精华：程序管理、终端种类与命令帮助获取方法综述 ... [详细]

蜡笔小新 2024-10-28 13:45:59
nodejs
逐步掌握游戏账户服务数据库与Erlang服务器开发技巧

本文将深入探讨MySQL与MongoDB在游戏账户服务中的应用特点及优劣。通过对比这两种数据库的性能、扩展性和数据一致性，结合实际案例，帮助开发者更好地选择适合游戏账户服务的数据库方案。同时，文章还将介绍如何利用Erlang语言进行高效的游戏服务器开发，提升系统的稳定性和并发处理能力。 ... [详细]

蜡笔小新 2024-10-25 15:45:30
nodejs
hive和mysql的区别是什么[mysql教程]

hive和mysql的区别有：1、查询语言不同，hive是hql语言，MySQL是sql语句；2、数据存储位置不同，hive把数据存储在hdfs上，MySQL把数据存储在自己的系统 ... [详细]

蜡笔小新 2024-10-17 05:28:28
nodejs
Hadoop之HDFS的概念理解

HDFS是什么？HDFS全称HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]

蜡笔小新 2024-10-12 10:52:32
nodejs
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
lvs
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16

飞教书的粉红色

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章