当前位置: 开发笔记 > 后端 > 正文

MySQL在DataWarehouse应用的一些指引

作者：枫的Lilyxj | 来源：互联网 | 2023-07-29 19:06

我想许多公司的研发或者DBA都会碰到一个问题，MySQL在处理海量数据上往往力不从心，硬件是一个因素，自身缺乏对复杂SQL处理，也是一个硬伤。但事实也没有那么糟糕，MySQL对于绝

我想许多公司的研发或者DBA都会碰到一个问题，MySQL在处理海量数据上往往力不从心，硬件是一个因素，自身缺乏对复杂SQL处理，也是一个硬伤。但事实也没有那么糟糕，MySQL对于绝大部分公司来说，也是够用的，如果每个公司都创建自己的一套海量数据分析平台，使用hadoop等各类分析框架/平台/工具，反而难以取得好的收益。我们投入到设计/策略的时间越多，我们越能获得更好的投入/产出比。充分利用现有的技术和标准的产品/组合，往往可以取得更好的效益，除非事实证明，你需要在某个时间点重构你的分析平台了。

许多项目在上线的时候，其实并没有充分想好数据的处理和分析，如果项目进展很快，数据量爆炸式增长，基于原有的数据做分析，往往会出现一些问题，所以在项目上线之前，就考虑好数据的记录和分析是有必要的，并不是要求每个业务，都单独搭建自己的一个统计库/分析平台，但你需要有所准备。

如下是一些OLAP的大的原则和方向，

1、MySQL实例控制在几个2个T以内，是DBA们比较赞同的策略，OLAP数据库可以大到几个T，但是备份之类的操作很耗时，percona工具之xtrabackup可以比较好的备份大数据库；

2、对于数据分析，应该尽量避免重复计算，对于报表之类的应用，最好定期生成统计表，基于统计表，可以快速的查看统计数据，而不需要从原始数据表里去扫描统计大量数据；

3、对于旧数据的归档/清理，需要考虑，理论上来说，如果你的设计比较完善，绝大部分时候，你已经不需要原始数据了，保留统计表数据即可，你可以定期把原始数据清理掉。原始数据也可以以其他的方式，比如日志的方式，存储在其他介质；

4、为了节省空间，我们可能会设计一些代码/映射表，通过在一些大表中仅仅存储代码/数字的方式，我们可以大大减少存储的空间，对于oltp业务，我觉得没有必要这样做，程序/数据的可读性，自然会更重要，但对于OLAP数据库，这样真的可能节省大量磁盘空间；

5、索引的滥用可能会是一个问题，如果你拥有大量的数据，索引带来的大量随机读其实效率很低，也延缓了数据插入的速率。你需要仔细检查，确保仅仅创建需要的索引；

6、使用LOAD DATA 的方式加载数据很快，值的优先考虑，你也可以使用批量insert的方式，one by one的导入大量数据的方式太过低效，不可取。当然使用insert批量插入数据也没有必要一次性插入太多记录，100～1000记录每个语句一般是可以接受的；

7、如何避免导入数据对于线上业务的影响需要考虑，你可能需要中间表，你可能需要额外的从库；

8、对于超大规模的海量数据，单个节点可能难以容纳和处理，使用分区表某种程度上可以加快一些分析/查找，但仍然受限制于单个节点，在单个节点已经无法处理海量数据的时候，你应该考虑sharding的策略。

推荐阅读

session
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
http
软件测试行业深度解析：迈向高薪的必经之路

本文深入探讨了软件测试行业的发展现状及未来趋势，旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]

蜡笔小新 2024-11-21 17:32:44
http
CentOS下ProFTPD的安装与配置指南

本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法，包括基本配置、安全设置及高级功能的启用。 ... [详细]

蜡笔小新 2024-11-21 09:45:56
redis
PHP面试题精选及答案解析

本文精选了新浪PHP笔试题及最新的PHP面试题，并提供了详细的答案解析，帮助求职者更好地准备PHP相关的面试。 ... [详细]

蜡笔小新 2024-11-19 20:00:19
redis
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
redis
mysql数据库json类型数据,sql server json数据类型

mysql数据库json类型数据,sql server json数据类型 ... [详细]

蜡笔小新 2024-11-19 11:05:28
session
Oracle 11g 创建表空间与基础配置

本文详细介绍了Oracle 11g中的创建表空间的方法，以及如何设置客户端和服务端的基本配置，包括用户管理、环境变量配置等。 ... [详细]

蜡笔小新 2024-11-21 18:54:39
django
如何在Django框架中实现对象关系映射（ORM）

本文介绍了Django框架中对象关系映射（ORM）的实现方式，通过ORM，开发者可以通过定义模型类来间接操作数据库表，从而简化数据库操作流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-21 17:17:01
微服务
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
微服务
MySQL InnoDB 存储引擎索引机制详解

本文深入探讨了MySQL InnoDB存储引擎中的索引技术，包括索引的基本概念、数据结构与算法、B+树的特性及其在数据库中的应用，以及索引优化策略。 ... [详细]

蜡笔小新 2024-11-21 12:41:51
微服务
如何将955万数据表的17秒SQL查询优化至300毫秒

本文详细介绍了通过优化SQL查询策略，成功将一张包含955万条记录的财务流水表的查询时间从17秒缩短至300毫秒的方法。文章不仅提供了具体的SQL优化技巧，还深入探讨了背后的数据库原理。 ... [详细]

蜡笔小新 2024-11-21 12:11:54
token
PostgreSQL与MySQL的语法差异详解

本文详细介绍了PostgreSQL与MySQL在SQL语法上的主要区别，包括如何使用COALESCE替代IFNULL、金额格式化的方法、别名处理以及日期处理等关键点。 ... [详细]

蜡笔小新 2024-11-21 07:40:22
redis
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
spring
fleaframedb使用之JPA封装介绍

flea,frame,db,使用,之 ... [详细]

蜡笔小新 2024-11-20 12:00:16
cookie
解决PHP及Web开发中的UTF-8乱码问题

本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案，包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]

蜡笔小新 2024-11-20 10:58:03

枫的Lilyxj

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章