当前位置: 开发笔记 > 后端 > 正文

大数据表的查询优化方案-mysql教程

作者：燕子yanzi068_476 | 来源：互联网 | 2017-05-12 15:28

如果有一张大表，表中的数据有几百万、几千万甚至上亿，要实现实时查询，查询的结果要在十秒钟之内出来，怎么办？如何做优化?本人现在做的项目中，有个表的数据超过1千万行，超过3G的数据。现在需要对表中的数据进行查询统计，之前由于没做优化，导致此表的

如果有一张大表，表中的数据有几百万、几千万甚至上亿，要实现实时查询，查询的结果要在十秒钟之内出来，怎么办？如何做优化? 本人现在做的项目中，有个表的数据超过1千万行，超过3G的数据。现在需要对表中的数据进行查询统计，之前由于没做优化，导致此表的

如果有一张大表，表中的数据有几百万、几千万甚至上亿，要实现实时查询，查询的结果要在十秒钟之内出来，怎么办？如何做优化?

本人现在做的项目中，有个表的数据超过1千万行，超过3G的数据。现在需要对表中的数据进行查询统计，之前由于没做优化，导致此表的查询效率非常低下，让使用者非常苦恼，于是本人参与了此表的优化。

举个类&＃20284;的例子，比如表中的结构如下，现在要统计某一天出生的人口数，或者统计某一城市的人口数，或者某一城市某一天出生的人口数。

CREATE TABLE `population` (
  `population_id` bigint(64) NOT NULL AUTO_INCREMENT COMMENT &＃39;人口表&＃39;,
  `name` varchar(128) COLLATE utf8_bin DEFAULT NULL COMMENT &＃39;姓名&＃39;,
  `city` varchar(32) COLLATE utf8_bin DEFAULT NULL COMMENT &＃39;城市&＃39;,
  `birthday` date DEFAULT NULL COMMENT &＃39;出生日期&＃39;, 
  PRIMARY KEY (`population_id`)
)

查询某一城市某一天出生的人口数
SELECT COUNT(*) FROM population WHERE city=&＃39;广州&＃39; AND birthday = &＃39;2014-11-02&＃39;
查询某一城市的人口数
SELECT COUNT(*) FROM population WHERE city=&＃39;广州&＃39; 
查询某一天出生的人口数
SELECT COUNT(*) FROM population WHERE birthday = &＃39;2014-11-02&＃39;

提出了两个优化方案，

(1).优化索引

通过添加索引后，查询的效率得到极大的提升，常用查询的查询时间从原来的几十秒下降到几秒。

建立以下两个单列索引

ALTER TABLE `population`   
  ADD  INDEX `fk_city` (`city`),
  ADD  INDEX `fk_birthday` (`birthday`);

也可以建立以下两个组合索引

ALTER TABLE `population`   
  ADD  INDEX `fk_index1` (`city`, `birthday`),
  ADD  INDEX `fk_index2` (`birthday`, `city`);

(2).使用中间表
虽然索引优化可以将查询时间大大减少，但如果数据量达到一定量时，有些情况下索引到的数据达到几百万时，查询仍然会很慢，因此索引优化无法从根本上解决问题。现在表中的数据量越来越大，平均每个月要增加一两百万的数据，索引的优化方法只是暂时的，只能解决小数据量的查询问题，随着数据量的快速增长，索引带来的性能优化很容易达到极限，要寻找其他的解决方案。

我们根据业务需求的特点，创建中间表population_statistics，将表population中的统计数据存放到中间表population_statistics中，查询时直接从中间表population_statistics中查询。注意，在对表population进行增、删、改时，必须同时更新population_statistics中的数据，否则会出现数据不一致的错误！

CREATE TABLE `population_statistics` (
  `population_statistics_id` bigint(64) NOT NULL AUTO_INCREMENT COMMENT &＃39;人口统计表ID&＃39;,
  `city` varchar(128) COLLATE utf8_bin DEFAULT NULL COMMENT &＃39;城市&＃39;,
  `birthday` int(32) DEFAULT NULL COMMENT &＃39;出生日期&＃39;,
  `total_count` int(32) DEFAULT NULL COMMENT &＃39;人口数量&＃39;,
  PRIMARY KEY (`population_statistics_id`),
  KEY `fk_city` (`city`),
  KEY `fk_birthday` (`birthday`)
)
查询某一城市某一天出生的人口数
SELECT total_count FROM population_statistics WHERE city=&＃39;广州&＃39; AND birthday = &＃39;2014-11-02&＃39;;
查询某一城市的人口数
SELECT COUNT(total_count) FROM population_statistics WHERE city=&＃39;广州&＃39;;
查询某一天出生的人口数
SELECT COUNT(total_count) FROM population_statistics WHERE birthday = &＃39;2014-11-02&＃39;;

某个城市某一天的人口在表population中可能有几千甚至万的数据，而在统计表population_statistics中最多只有一条数据，也就是说统计表population_statistics中的数据量只有人口表population的几千分之一，再加上索引的优化，查询的速度会极大提高。

下面总结一下常用的大数据表优化方案.

1. 索引优化

通过建立合理高效的索引,提高查询的速度.

建议阅读本人写的一篇关于索引的博客

http://blog.csdn.net/brushli/article/details/39677387

2. SQL优化

组织优化SQL语句,使查询效率达到最优,在很多情况下要考虑索引的作用.

建议阅读考本人写的一篇关于索引的博客

http://blog.csdn.net/brushli/article/details/39677387

3. 水平拆表

如果表中的数据呈现出某一类特性,比如呈现时间特性,那么可以根据时间段将表拆分成多个。

比如按年划分、按季度划分、按月划分等等，查询时按时间段进行拆分查询，再把查询结果进行合并；

比如按地区将表拆分，不同地区的数据放在不同的表里面，然后对查询进行分拆，对查询结果进行合并。

4. 垂直拆表

将表按字段拆分成多个表，常用的字段放在一个表，不常用的字段或大字段放在另外一个表。由于数据库每次查询都是以块为单位，而每块的容量是有限的，通常是十几K或几十K，将表按字段拆分后，单次IO所能检索到的行数通常会提高很多，查询效率就能提高上去。

比如有成员表，结构如下：

CREATE TABLE `member` (
  `member_id` bigint(64) NOT NULL AUTO_INCREMENT COMMENT &＃39;成员表ID&＃39;,
  `name` varchar(128) COLLATE utf8_bin DEFAULT NULL COMMENT &＃39;成员姓名&＃39;,
  `age` int(32) DEFAULT NULL COMMENT &＃39;成员年龄&＃39;,
  `introduction` text COLLATE utf8_bin COMMENT &＃39;成员介绍&＃39;,
  PRIMARY KEY (`member_id`)
)

introduction是大字段，保存成员的介绍，这个大字段会严重影响查询效率，可以将它独立出来，单独形成一个表。

CREATE TABLE `member` (
  `member_id` bigint(64) NOT NULL AUTO_INCREMENT COMMENT &＃39;成员表ID&＃39;,
  `name` varchar(128) COLLATE utf8_bin DEFAULT NULL COMMENT &＃39;成员姓名&＃39;,
  `age` int(32) DEFAULT NULL COMMENT &＃39;成员年龄&＃39;,
  PRIMARY KEY (`member_id`)
)

CREATE TABLE `member_introduction` (
  `member_introduction_id` bigint(64) NOT NULL AUTO_INCREMENT COMMENT &＃39;成员介绍表ID&＃39;,
  `member_id` bigint(64) DEFAULT NULL COMMENT &＃39;成员ID&＃39;,
  `introduction` text COLLATE utf8_bin COMMENT &＃39;成员介绍&＃39;,
  PRIMARY KEY (`member_introduction_id`),
  KEY `fk_member_id` (`member_id`),
  CONSTRAINT `fk_member_id` FOREIGN KEY (`member_id`) REFERENCES `member` (`member_id`)
)

5. 建立中间表，以空间换时间

在有些情况下，是可以通过建立中间表来加快查询速度的，详情可看文章开头的例子。

6. 用内存缓存数据，以空间换时间

将常用而且不常修改的数据加载到内存中，直接从内存查询则可。

可以使用热门的缓存技术，如Memcache、Redis、Ehcache等。

7. 使用其他辅助技术

Solr:一种基于Lucene的JAVA搜索引擎技术

sql
redis

推荐阅读

分布式
MySQL缓存机制深度解析

本文详细探讨了MySQL的缓存机制，包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术，读者可以更好地优化数据库性能。 ... [详细]

蜡笔小新 2024-12-26 15:15:06
redis
Python入门指南：从零开始的全面学习路线

本文详细介绍了Python编程语言的学习路径，涵盖基础语法、常用组件、开发工具、数据库管理、Web服务开发、大数据分析、人工智能、爬虫开发及办公自动化等多个方向。通过系统化的学习计划，帮助初学者快速掌握Python的核心技能。 ... [详细]

蜡笔小新 2024-12-25 12:54:33
redis
探索libpq：连接PostgreSQL后端的深度解析（一）

本文详细介绍了如何使用libpq库与PostgreSQL后端建立连接。通过探讨PQconnectdb()函数的工作原理及其在实际应用中的使用方法，帮助读者理解并掌握建立高效、稳定的数据库连接的关键步骤。 ... [详细]

蜡笔小新 2024-12-28 10:40:46
redis
使用Windows批处理脚本监控并重启Java应用程序

本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序，确保其持续稳定运行。脚本每30分钟检查一次，并在需要时重启Java程序。同时，它会将任务结果发送到Redis。 ... [详细]

蜡笔小新 2024-12-27 10:44:39
spring
深入解析：阿里实战 SpringCloud 微服务架构与应用

本文将详细介绍 SpringCloud 在微服务架构中的应用，涵盖入门、实战和案例分析。通过丰富的代码示例和实际项目经验，帮助读者全面掌握 SpringCloud 的核心技术和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 03:50:43
x86
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
redis
深入理解Redis的数据结构与对象系统

本文详细探讨了Redis中的数据结构和对象系统的实现，包括字符串、列表、集合、哈希表和有序集合等五种核心对象类型，以及它们所使用的底层数据结构。通过分析源码和相关文献，帮助读者更好地理解Redis的设计原理。 ... [详细]

蜡笔小新 2024-12-25 04:11:22
redis
Redis 持久化机制详解：RDB与AOF的原理、优缺点及选择策略

本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点，帮助读者根据具体需求选择合适的持久化方案。 ... [详细]

蜡笔小新 2024-12-24 18:03:44
redis
Redis Hash 数据结构详解

本文详细介绍了 Redis 中的 Hash 数据类型及其常用命令。Hash 类型用于存储键值对集合，支持多种操作如插入、查询、更新和删除字段值。此外，文章还探讨了 Hash 类型在实际业务场景中的应用，并提供了优化建议。 ... [详细]

蜡笔小新 2024-12-24 13:33:33
redis
科研单位信息系统中的DevOps实践与优化

本文探讨了某科研单位通过引入云原生平台实现DevOps开发和运维一体化，显著提升了项目交付效率和产品质量。详细介绍了如何在实际项目中应用DevOps理念，解决了传统开发模式下的诸多痛点。 ... [详细]

蜡笔小新 2024-12-24 11:46:45
port
Docker环境中单机部署Redis集群的实践

本文详细探讨了如何在Docker环境中实现单机部署Redis集群的方法，提供了详细的步骤和配置示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-24 11:09:04
port
Redis集群架构与演进详解

随着Redis功能的不断增强和稳定性提升，其应用范围日益广泛，成为软件开发人员不可或缺的技能之一。本文将深入探讨Redis集群的部署与优化，包括主从备份机制、哨兵模式以及集群功能，帮助读者全面理解并掌握Redis集群的应用。 ... [详细]

蜡笔小新 2024-12-23 17:36:58
port
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
redis
支持队列式写入并适合持久化的数据库有哪些？

本文探讨了哪些数据库支持队列式的写入操作（即一个键对应一个队列，数据可以连续入队），并且具备良好的持久化特性。这类需求通常出现在需要高效处理和存储大量有序数据的场景中。 ... [详细]

蜡笔小新 2024-12-23 12:21:54
x86
Windows 7 64位系统下Redis的安装与PHP Redis扩展配置

本文详细介绍了在Windows 7 64位操作系统中安装Redis以及配置PHP Redis扩展的方法，包括下载、安装和基本使用步骤。适合对Redis和PHP集成感兴趣的开发人员参考。 ... [详细]

蜡笔小新 2024-12-22 23:56:09

燕子yanzi068_476

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章