热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

mysql每天计算累积用户的正确方法是什么?

我有一个名为事务的MySQL表,该表具有5列,即id(int),from(int),to(int),value(float),time(datetime).而且,我每天需要计算某个

我有一个名为事务的MySQL表,该表具有5列,即id(int),from(int),to(int),value(float),time(datetime).

而且,我每天需要计算某个特定接收者(“至”)的累积用户(唯一的“来自”的数量).

例如:

+-----+------+-----+-------+----------------------------+
| id | from | to | value | time |
+-----+------+-----+-------+----------------------------+
| 1 | 1 | 223 | 1 | 2019-01-01 01:11:30.000000 |
| 2 | 1 | 224 | 2 | 2019-01-01 21:37:30.000000 |
| 3 | 2 | 25 | 0.1 | 2019-01-02 03:05:30.000000 |
| 4 | 2 | 223 | 0.2 | 2019-01-02 13:26:30.000000 |
| 5 | 3 | 26 | 3 | 2019-01-02 19:29:30.000000 |
| 6 | 3 | 227 | 4 | 2019-01-03 21:37:30.000000 |
| 7 | 1 | 224 | 5 | 2019-01-05 22:03:30.000000 |
| 8 | 4 | 224 | 1 | 2019-01-05 23:48:30.000000 |
| 9 | 5 | 223 | 2 | 2019-01-06 05:41:30.000000 |
| 10 | 6 | 28 | 2 | 2019-01-06 20:19:30.000000 |
+-----+------+-----+-------+----------------------------+

特定于[223,224,227]

那么预期结果是:

2019-01-01: 1 # [1]
2019-01-02: 3 # [1, 2, 3]
2019-01-03: 3 # [1, 2, 3]
2019-01-04: 3 # [1, 2, 3]
2019-01-05: 4 # [1, 2, 3, 4]
2019-01-05: 5 # [1, 2, 3, 4, 5]

直接的方法是使用SQL

SELECT COUNT(DISTINCT(`From`))
FROM `transaction`
FORCE INDEX (to_time_from)
WHERE `time` <'2019-01-0X'
AND `to` IN (223, 224, 227)

但是问题是,事务表很大(每天100万个,大约2年),列出的数据大约是1000个.即使我创建了[to,time,from]和强制使用它.

此外,尽管每日交易量达到约100万,但每日活动用户仅为10,000.所以我正在考虑将DAU列表存储在No-SQL中,例如

2019-01-01: [1]
2019-01-02: [2, 3]
2019-01-03: [3]
2019-01-04: []
2019-01-05: [1, 4]
2019-01-05: [5]

当给定日期d时,我不迟于d检索所有DAU列表并进行联合以获取累积用户.像这样的东西:len(set([dau_list1] [dau_list2] [dau_list3] …))

但是我不知道要使用哪个No-SQL.

> Redis会将所有内容加载到内存中,但是查询时我只需要这些数据.
> MongoDB

>似乎我需要为每个日期创建一个集合,因为我需要在from上创建一个唯一索引.我对吗?
>我知道我可以使用数组字段和$addToSet操作.但这是O(n),非常慢.

那么,什么是正确的方法呢?

解决方法:

在MySQL中,使用类似(no redis,no MongoDB)的方法:

SELECT DATE(`time`),
COUNT(*),
GROUP_CONCAT(`from`)
FROM tbl
WHERE `to` IN (...)
GROUP BY 1; -- shorthand for "DATE(time)"
INDEX(`to`, `from`, `time`) -- if applying to entire table
INDEX(`to`, `time`, `from`) -- if you have `AND time ...`

加上一些格式. (这可以通过凌乱的CONCAT来完成,或者留给应用程序代码.)

由于这似乎也是一个“扩展”问题,因此也许您需要一个“摘要表”,该表每天都会用前一天的条目进行更新,从而使查询速度更快.

CREATE TABLE Daily (
`day` DATE NOT NULL,
`from` ... NOT NULL,
`to` ... NOT NULL,
`ct` SMALLINT UNSIGNED NOT NULL,
PRIMARY KEY(`to`, `day`, `from`)
) ENGINE=InnoDB;

然后查询变为

SELECT `day`,
SUM(ct),
GROUP_CONCAT(DISTINCT `from`)
FROM Daily
WHERE `to` IN (...)`
GROUP BY `day`;

(它可以帮助您提供CREATE TABLE和INSERT来构建测试用例.)


推荐阅读
  • MyBatis多表查询与动态SQL使用
    本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • 如何在php中将mysql查询结果赋值给变量
    本文介绍了在php中将mysql查询结果赋值给变量的方法,包括从mysql表中查询count(学号)并赋值给一个变量,以及如何将sql中查询单条结果赋值给php页面的一个变量。同时还讨论了php调用mysql查询结果到变量的方法,并提供了示例代码。 ... [详细]
  • nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 本文介绍了Perl的测试框架Test::Base,它是一个数据驱动的测试框架,可以自动进行单元测试,省去手工编写测试程序的麻烦。与Test::More完全兼容,使用方法简单。以plural函数为例,展示了Test::Base的使用方法。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了在Vue项目中如何结合Element UI解决连续上传多张图片及图片编辑的问题。作者强调了在编码前要明确需求和所需要的结果,并详细描述了自己的代码实现过程。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • MySQL外键1对多问题的解决方法及实例
    本文介绍了解决MySQL外键1对多问题的方法,通过准备数据、创建表和设置外键关联等步骤,实现了用户分组和插入数据的功能。详细介绍了数据准备的过程和外键关联的设置,以及插入数据的示例。 ... [详细]
author-avatar
翔云飘雪9_694_492
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有