热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【漫画解析】数据已删,存储空间为何未减?揭秘背后真相

在数据迁移过程中,即使删除了原有数据,存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说,使用`mysqldump`命令进行数据导出时,该工具作为MySQL的逻辑备份工具,通过连接数据库并查询所需数据,将其转换为SQL语句。然而,这种操作并不会立即释放存储空间,因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理,以确保数据删除后能够有效回收存储空间。




迁移数据常用


1、导出文件 - mysqldump 命令 

‍mysqldump 是 Mysql 自带的逻辑备份工具。其备份原理是通过协议连接到 Mysql 数据库,将需要备份的数据查询出来转换成对应的 insert 语句。当需要还原这些数据时,只要执行这些 insert 语句,即可将对应的数据还原。 

常用命令:



  • 导出所有数据库



mysqldump -uroot -p123456 --all-databases  >/tmp/all.sql


  • 导出指定数据库



mysqldump -uroot -p123456 --databases db >/tmp/db.sql


  • 导出指定表



mysqldump -uroot -p123456 --databases  db  --tables a >/tmp/a.sql


  • 根据条件导出数据



mysqldump -uroot -p123456 --databases db --tables a --where='id=1' >/tmp/a.sql


  • 只导出表结构



mysqldump -uroot -p123456 --no-data --databases db >/tmp/db.sql

2、导入文件 - source 命令

source 命令可以将导出的 sql 文件导入进指定数据库。

操作步骤:



  • use 数据库;



  • soucre 已导出的 sql 文件。




迁移思路

1. 数据库A历史数据迁移到 hdfs(一种分布式文件系统)上进行归档;

2. 删除数据库A已归档的表,使用 drop 命令;

3. 数据库A上新建表,用于数据库B迁移;

4. 数据库B中除未完成单外都迁移至数据库A;

5. 脚本进行删除数据库B上已迁移数据。 


阿丁开讲

1、参数介绍

在 Innodb 存储引擎中,innodb_file_per_table 参数是用来控制表数据的存储方式的。

当参数为 OFF 的时候,所有数据都存放于默认路径下名为 ibdata* 的共享表空间里,即将数据库所有的表数据及索引文件存放到一个文件中。在删除数据表的时候,ibdata* 文件不会自动收缩。

当参数为 ON 的时候,每一个表都将存储在一个以 .ibd 为后缀的文件中。这样每个表都有了自己独立的表空间,通过 drop table 命令就可以将表空间进行回收。 

从 Mysql 5.6.6 版本开始,innodb_file_per_table 默认为 ON 状态。 


2、参数设置

通过 show variables like '%per_table%' 命令,可以查看 innodb_file_per_table 参数的当前状态:

如果想修改参数的状态,可通过 SET GLOBAL 动态地修改为 ON 或 OFF,也可以在 my.cnf 中做永久性修改。需要注意的是,在 my.cnf 中修改后生效的话需要重启 mysqld 服务。 

疑问:如果之前参数为 OFF 状态,设置为 ON 状态后,表空间如何分配?

答案是仅对后续操作生效。

什么意思呢?修改前的数据还维持原状,也就是说之前的数据继续存放于 ibdata* 文件中,修改后的使用独立表空间。 

所以建议在开始就将该参数设置为 ON 状态。


第二天

 


阿丁二次开讲

在这之前要先介绍下 Innodb 存储数据所用的 B+ 树结构,画个图你理解下:

在图中,P 代表一页数据,R 代表一行数据。

假设我们要删掉 R2 这条记录,InnoDB 引擎只会将其标记为删除状态,并不会真正把这行数据所占的空间释放掉,也就是说这个坑位还留着。如果后续所插入的数据在 R1 与 R3 之间的话,这个空间是可以被使用上的。

假设我们恰好删除了 R1、R2、R3 这三条记录,也就是说 P1 这一页的数据都被删掉了,那么 P1 所在的空间都会被标记为可复用。如果插入的数据需要使用新页的话,P1 的坑位就可以被利用起来了。 

那么你可能会问了,我插入的数据恰好巧妙的避开了这些位置呢。那我还能说啥,骚呗。这样会造成很多空间被浪费,如果删除大量的数据的话,被浪费的空间也会是巨大的。

optimize table 的本质是 ALTER TABLE xxx ENGINE = InnoDB;

在5.5版本之前,重建表的过程是这样的:

然后用临时文件替换旧表,这样便实现了表的重建。


注意

1、控制迁移速度,防止主从延迟导致线上故障;

2、创建大表时,使用下面的建表语句可节省 50% 左右的空间:

ROW_FORMAT=COMPRESSED KEY_BLOCK_SIZE=8

3、使用 optimize table 压缩表时,需要留够一定的空间。


关于作者

作者:大家好,我是莱乌,BAT搬砖工一枚。从小公司进入大厂,一路走来收获良多,想将这些经验分享给有需要的人,因此创建了公众号「IT界农民工」。定时更新,希望能帮助到你。



 



推荐阅读
  • 在过去,我曾使用过自建MySQL服务器中的MyISAM和InnoDB存储引擎(也曾尝试过Memory引擎)。今年初,我开始转向阿里云的关系型数据库服务,并深入研究了其高效的压缩存储引擎TokuDB。TokuDB在数据压缩和处理大规模数据集方面表现出色,显著提升了存储效率和查询性能。通过实际应用,我发现TokuDB不仅能够有效减少存储成本,还能显著提高数据处理速度,特别适用于高并发和大数据量的场景。 ... [详细]
  • 揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节
    揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]
  • 在数据表中,我需要触发一个操作来刷新特定列的数据。例如,对于以下表格:| ID | Name | IsDeleted ||----|-------|-----------|| 1 | test | True || 2 | test2 | False |我希望在点击“更新”按钮时,能够仅刷新选定行的“IsDeleted”列。这将有助于确保数据的实时性和准确性。 ... [详细]
  • 本文详细探讨了MySQL并发参数的优化与调整方法,旨在帮助读者深入了解如何通过合理配置这些参数来提升数据库性能。文章不仅介绍了常见的并发参数及其作用,还提供了实际操作中的调整策略和最佳实践,适合希望提高数据库管理技能的技术人员阅读。 ... [详细]
  • 在尝试使用指定的数据库进行登录时,遇到了权限问题。具体表现为用户 'lzldb'@'%' 无权访问数据库 'lzldb',错误代码为 1044 (42000)。命令行参数 `-D` 指定了数据库名称,但未能成功连接。建议检查用户的权限配置,确保其具有对目标数据库的访问权限。此外,使用密码时应谨慎处理,避免在命令行中明文显示。 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 本文深入探讨了数据库性能优化与管理策略,通过实例分析和理论研究,详细阐述了如何有效提升数据库系统的响应速度和处理能力。文章首先介绍了数据库性能优化的基本原则和常用技术,包括索引优化、查询优化和存储管理等。接着,结合实际应用场景,讨论了如何利用容器化技术(如Docker)来部署和管理数据库,以提高系统的可扩展性和稳定性。最后,文章还提供了具体的配置示例和最佳实践,帮助读者在实际工作中更好地应用这些策略。 ... [详细]
  • 从用户转型为开发者:一场思维升级的旅程 | 专访 StarRocks Committer 周威
    从用户转变为开发者,不仅是一次角色的转换,更是一场深刻的思维升级之旅。本次专访中,StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式,为开源社区贡献自己的力量。 ... [详细]
  • 本文作为探讨PHP依赖注入容器系列文章的开篇,将首先通过具体示例详细阐述依赖注入的基本概念及其重要性,为后续深入解析容器的实现奠定基础。 ... [详细]
  • 如何撰写PHP电商项目的实战经验? ... [详细]
  • 本周,我深入研究了 ECharts 插件的使用方法,整体感觉插件操作较为简便,但后台算法较为复杂。此外,我还学习了 MySQL 函数的新应用,进一步提升了数据库操作的灵活性。同时,分享了自己在 Python 书籍外借过程中的体验,总结了一些实用的借阅技巧和心得。 ... [详细]
  • 如何在Android项目中正确导入和配置MySQL数据库驱动 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • 智能制造数据综合分析与应用解决方案
    在智能制造领域,生产数据通过先进的采集设备收集,并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后,通过可视化数据大屏呈现,为生产车间、生产控制中心以及管理层提供实时、精准的信息支持,助力不同应用场景下的决策优化和效率提升。 ... [详细]
author-avatar
破晓sxy
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有