热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

redis和mysql数据做混合分页查询_分页查询和redis

当查询结果包含的数据量非常大的时候,往往需要分页查询。本文总结一些分页查询的技巧,及如何用mysqlcassandra和redis等实现分页查询的方案。

当查询结果包含的数据量非常大的时候,往往需要分页查询。本文总结一些分页查询的技巧,及如何用mysql cassandra和redis等实现分页查询的方案。

问题

我在做论坛的是时候遇到了如下的问题。论坛里可以有很多的主题topic,每个topic对应到很多回复reply。现在要查询某个topic下按照replyTime升序排列的第pageNo页的reply,每页pageSize个reply。 reply是存放在mysql中的。以前的实现是利用mysql的limit查询

select * from reply where topicId = ? order by replyTime asc limit (pageNo - 1) * pageSize, pageSize

由于现在有很多的主题的回复很多,当有人查询第几百甚至几千页的时候,mysql性能表现很不好。“select limit offset, size” 只要offset太大,传统的关系型数据库的性能表现都不好。 如果能够利用带索引的查询条件先过滤掉一部分数据,就可以大大提高性能,比如:

select

*

from

reply

where

topicId = ?

and replyId > lastReplyIdOfCurrentPage

order by

replyTime asc

limit

(pageNo - currentPageNo) * pageSize, pageSize

lastReplyIdOfCurrentPage 是当前页的最后一个reply的id。currentPageNo是当前页的页号。这里用replyId过滤条件,把前面页的内容过滤掉,这样减少了offset的大小。但是当用户需要跳转到很远的一个页面的时候,offset还是会很大。比如,当前是第10页,要跳转到第1000页,offset = 990 * pageSize,还是会很大,性能依旧不行。尽管目前很多产品,都不提供这样的跳转能力了,但是我们的产品团队还是认为这个功能在我们的产品里面不可或缺。

迁移到cassandra

后来我们把reply数据全部迁移到了cassandra上。cassandra的数据结构和mysql不一样。我们创建了一个topic_reply 列簇,每一行的行号是topicId,每一列是这个topic的replyId,这样得到类似如下结构 1:1,2,5,33,245,663,780... 2:36,78,89,94,235,345... 在cassandra中列是自然排序的,形成了一个从topic到reply的索引。查询的时候只能查询topicId行的列大于(或小于)replyId的size个replyId,相当于sql: select * from topic_reply where replyId > ? limit size, 不能够 "limit offset, size"。这意味着如果要查询第一千页,而我不知道第一千页开始的replyId是多少,我就得取出这一千页的数据,这显然是行不通的。所以得想办法从靠近我要取的数据的某个replyId处开始取数据。

reids的SortedSet

无论是mysql还是cassandra,都不能很好地解决从一个很长的序列中取出任意一段数据的问题,而造成这一问题的根源在于这些数据是存放在磁盘上的,磁盘不适合做此类的随机读的操作。所以想,如果能有一个程序,管理一些很大很大的放在内存中排序数组就好了,因为对内存中的数组做下标访问,是非常快速的。做了一下调查正好发现,redis提供了此类的功能。 redis将数据存放到内存中,所以既便是随机读写,速度都是非常快。redis支持的SortedSet结构正好适合于做分页查询。SortedSet按照给定的score给member排序,允许通过下标或者score去查询。把同一个topic的replyId作为member,以replyId本身为score存放到SortedSet后,就可以通过下标取值了,例如:

//存入数据

zadd tr:1 1 1

zadd tr:1 2 2

zadd tr:1 5 5

zadd tr:1 33 33

zadd tr:1 245 245

zadd tr:1 663 663

//pageSize = 3 取 第二页,即下标 3 到5的元素

zrange tr:1 3 5

其中 tr:1 是这个SortedSet的key,"tr:"只是用来区分其它key用的前缀,1是topicId。更详细的内容看redis官网 http://redis.io 如此一来,就可以实现任意分页查询了,而且性能非常好。

缓存索引

redis的数据全部存放到内存中,如果把所有topic到reply的关系都放到内存中,要耗费很多内存,而且这么多的内存实际上很多是浪费的,毕竟大部分的topic是不活跃的。再者topic到reply的映射关系是非常重要的,所以我们需要把这种关系持久化。最后我们决定,这个映射关系,或者称为索引还是存放在cassandra里面,只是在需要的时候,才从cassandra里面把索引载入到redis内,然后再利用redis分页查询。如此一来,redis成了一个支持分页查询的强大的缓存。

分片缓存

对于超长的主题,全新载入到redis一次也是相当的耗时的,我们采取分片来解决这个问题。我们把索引每4800个值分成一片,用另外一个数据结构记录索引长度和索引从第二片开始的每片的开始值。

54f5ff24eb52f1ba8d7d054e13002bc0.png更新的索引的时候更新这个分片信息,记录各分片的头部是为了便于从cassandra载入分片。 查询的时候把分页查询转化成某个片上某段索引的值。当分片大小大于pageSize并且能被pageSize整除时,这个转化是很简单的,因为分页正好会全部落在某一个分片中。我们之所以把分片大小设置成4800正是因为这个值能被10 15 20 25 30 40 50 60 80 100 200 等很多常用分页大小整除。分片太大浪费内存,分片太小分片就太多。 只要算出这一页所在的分片,然后把需要的索引段载入到redis,再利用redis的分页查询查出结果。这样,只有活跃的索引分段才会被载入到redis内存中。 如果用mysql来持久化索引效果也是类似的,而且查询更加便利能力更强。

总结

只要产品能接受,就不要使用任意分页,任意跳转。确实需要高速分页查询的时候可以使用redis的SortedSet,但是得注意内存大小和持久化问题。



推荐阅读
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 本文深入探讨了HTTP请求和响应对象的使用,详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外,还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]
  • 本文介绍了如何利用 Spring Boot 和 Groovy 构建一个灵活且可扩展的动态计算引擎,以满足钱包应用中类似余额宝功能的推广需求。我们将探讨不同的设计方案,并最终选择最适合的技术栈来实现这一目标。 ... [详细]
  • 本文详细介绍了优化DB2数据库性能的多种方法,涵盖统计信息更新、缓冲池调整、日志缓冲区配置、应用程序堆大小设置、排序堆参数调整、代理程序管理、锁机制优化、活动应用程序限制、页清除程序配置、I/O服务器数量设定以及编入组提交数调整等方面。通过这些技术手段,可以显著提升数据库的运行效率和响应速度。 ... [详细]
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • 探讨如何从数据库中按分组获取最大N条记录的方法,并分享新年祝福。本文提供多种解决方案,适用于不同数据库系统,如MySQL、Oracle等。 ... [详细]
  • 本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)的特点,帮助读者理解不同存储方式的优势与局限性。 ... [详细]
  • 20100423:Fixes:更新批处理,以兼容WIN7。第一次系统地玩QT,于是诞生了此预备式:【QT版本4.6.0&#x ... [详细]
  • 本文详细介绍超文本标记语言(HTML)的基本概念与语法结构。HTML是构建网页的核心语言,通过标记标签描述页面内容,帮助开发者创建结构化、语义化的Web页面。 ... [详细]
  • 解析SQL查询结果的排序问题及其解决方案
    本文探讨了为什么某些SQL查询返回的数据集未能按预期顺序排列,并提供了详细的解决方案,帮助开发者理解并解决这一常见问题。 ... [详细]
  • PHP 过滤器详解
    本文深入探讨了 PHP 中的过滤器机制,包括常见的 $_SERVER 变量、filter_has_var() 函数、filter_id() 函数、filter_input() 函数及其数组形式、filter_list() 函数以及 filter_var() 和其数组形式。同时,详细介绍了各种过滤器的用途和用法。 ... [详细]
  • 本文介绍了Oracle和IBM DB2数据库管理系统当前的最新版本,包括它们的主要特点、功能改进以及发布日期。文章详细探讨了两个系统在企业级应用中的表现,并提供了对各自版本更新的重点解析。 ... [详细]
  • 算法题解析:最短无序连续子数组
    本题探讨如何通过单调栈的方法,找到一个数组中最短的需要排序的连续子数组。通过正向和反向遍历,分别使用单调递增栈和单调递减栈来确定边界索引,从而定位出最小的无序子数组。 ... [详细]
  • 深入解析Redis内存对象模型
    本文详细介绍了Redis内存对象模型的关键知识点,包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析,帮助读者全面理解Redis内存管理机制。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
author-avatar
灬丶领袖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有