热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MySQL性能扩展的架构优化方案(三)

这是学习笔记的第 1816篇文章在前几天分享过一个小系列的文章。在后续也做了跟进和补充,从最初的方案到最后的落地,今天总算是做了一个初步的了结。上次聊到关于一个密集型写入的MySQ

这是学习笔记的第 1816篇文章


在前几天分享过一个小系列的文章。



在后续也做了跟进和补充,从最初的方案到最后的落地,今天总算是做了一个初步的了结。

上次聊到关于一个密集型写入的MySQL业务,通过读写分离完成了写入和统计的负载均衡,初步解决了写入的问题,但是统计的问题就开始日趋严重。

严重到整个从库的负载开始难以满足业务的需求,到最后无法满足。

MySQL性能扩展的架构优化方案(三)

这部分的主要瓶颈在IO层面。主要是因为大量的统计语句导致。

在和业务同学讨论的过程中,其实使用Redis方向是一个相对合适的技术方向,对于统计的支持力度还是不错的,但是限于存储成本和程序改造的工作量,业务更倾向于暂时按照已有的方案,通过对比infobright的统计优势和MySQL的协议兼容性,从而得出在目前的情况下选择这种方案是一个比较快捷高效的方案。

在具体落地的过程中,发现有一大堆的事情需要提前搞定。 

比如第一个头疼的问题就是全量的同步,第一次同步肯定是全量的,这么多的数据怎么同步到infobright里面。 

第二个问题随之而来,也是更为关键的,那就是同步策略是怎么设定的,是否可以支持的更加灵活。

第三个问题是基于现有的增量同步方案,需要在时间字段上添加索引。对于线上的操作而言又是一个巨大的挑战。

从目前的业务需求来说,最多能够允许一个小时的统计延迟,如果后期要做大量的运营活动,需要更精确的数据支持,要得到半个小时的统计数据,按照现有的方案是否能够支持。 

这两个主要的问题,任何一个解决不了,数据流转能够落地都是难题,这个问题留给我的时间只有一天。所以我准备把前期的准备和测试做得扎实一些,后期接入的时候就会顺畅得多。 

部分脚本实现如下:


echo  $1 $2
#tab_name=$1
starttime=$1
endtime=$2
/usr/local/mysql/bin/mysql -udba_admin -pDxxxx -h127.0.0.1 -P4306
-Ne "select table_name from information_schema.tables where table_schema='testdata'
and table_name like 'receipt_%' order by table_rows ;"
>/tmp/tablst

function data_sync_to_infobright
{
#rm  /tmp/a.csv
echo "export data...start "`date`
/usr/local/mysql/bin/mysql -udba_admin -pDxxxx -h127.0.0.1 -P4306 <select *from testdata.${tab_name} where create_time between '$2' and '$3'  into outfile '/data/dump_data/${tab_name}.csv' FIELDS TERMINATED BY ' ' ENCLOSED BY '\"';
EOF

echo "export data...done "`date`

echo "load data...start "`date`
/usr/local/mysql/bin/mysql -umsg_data_sync -pxxxx -h10.x.2.0 -P5029 <CREATE TABLE if not exists testdata.${tab_name} (
id int(11) NOT NULL COMMENT '自增主键',
userid int(11) NOT NULL DEFAULT '0' COMMENT '用户ID',
action int(11) NOT NULL DEFAULT '0' COMMENT '动作',
readtimes int(11) NOT NULL DEFAULT '0' COMMENT '阅读次数',
create_time datetime NOT NULL COMMENT '创建时间'
) COMMENT='广播回执接收明细';

load data local infile '/data/dump_data/${tab_name}.csv' into table testdata.${tab_name} FIELDS TERMINATED BY ' ' ENCLOSED BY '"';

EOF

echo "load data...done "`date`
rm -f /data/dump_data/${tab_name}.csv
}

while read line
do
echo $tab_name "$starttime"  "$endtime"
 tab_name=`echo $line|awk '{print $1}'`
data_sync_to_infobright $tab_name "$starttime" "$endtime"
done echo $endtime >/tmp/end_time

脚本的输入参数有两个,一个是起始时间,一个是截止时间。第一次全量同步的时候,可以把起始时间给的很早,这样截止时间是固定的,对于整个脚本的结构来说就不需要做大的变化了。 另外全量同步的时候一定要确保主从延迟已经最低或者暂时停掉查询业务,使得数据全量抽取更加顺利。

考虑到每天落盘的数据量大概在10G左右,日志量在30G左右,所以考虑先使用客户端导入infobright的方式来操作。

从实践来看,涉及的表有600多个,我先导出了一个列表,按照数据量来排序,这样小表就可以快速导入,大表放在最后,整个数据量有150G左右,通过网络传输导入infobright,从导出到导入完成,这个过程大概需要1个小时。

而导入数据到infobright之后的性能提升也是极为明显的。原来的一组查询持续时间在半个小时,现在在70秒钟即可完成。对于业务的体验来说大大提高。完成了第一次同步之后,后续的同步都可以根据实际的情况来灵活控制。所以数据增量同步暂时是手动挡控制。 

从整个数据架构分离之后的效果来看,从库的压力大大降低,而效率也大大提高。

MySQL性能扩展的架构优化方案(三)



推荐阅读
  • 本文详细探讨了虚拟化的基本概念,包括服务器虚拟化、网络虚拟化及其在云计算环境中的应用。特别强调了SDN技术在网络虚拟化和云计算中的关键作用,以及网络虚拟化技术如何提升资源利用效率和管理灵活性。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 优化SQL Server批量数据插入存储过程的实现
    本文介绍了一种改进的SQL Server存储过程,用于生成批量插入语句。该方法不仅提高了性能,还支持单行和多行模式,适用于SQL Server 2005及以上版本。 ... [详细]
  • 本文提供了一套实用的方法论,旨在帮助开发者构建能够应对高并发请求且易于扩展的Web服务。内容涵盖了服务器架构、数据库管理、缓存策略以及异步处理等多个方面。 ... [详细]
  • 一面问题:MySQLRedisKafka线程算法mysql知道哪些存储引擎,它们的区别mysql索引在什么情况下会失效mysql在项目中的优化场景&# ... [详细]
  • 本文将详细探讨Linux pinctrl子系统的各个关键数据结构,帮助读者深入了解其内部机制。通过分析这些数据结构及其相互关系,我们将进一步理解pinctrl子系统的工作原理和设计思路。 ... [详细]
  • 解决SVN图标显示异常问题的综合指南
    本文详细探讨了SVN图标无法正常显示的问题,并提供了多种有效的解决方案,涵盖不同环境下的具体操作步骤。通过本文,您将了解如何排查和修复这些常见的SVN图标显示故障。 ... [详细]
  • 本文深入探讨了SQL数据库中常见的面试问题,包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点,以及事务和存储过程的概念。通过详细的解答和示例,帮助读者更好地理解和应对这些技术问题。 ... [详细]
  • Java项目分层架构设计与实践
    本文探讨了Java项目中应用分层的最佳实践,不仅介绍了常见的三层架构(Controller、Service、DAO),还深入分析了各层的职责划分及优化建议。通过合理的分层设计,可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
  • PostgreSQL 最新动态 —— 2022年4月6日
    了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]
  • 对于许多初学者而言,遇到总线错误(bus error)或段错误(segmentation fault/core dump)是极其令人困扰的。本文详细探讨了这两种错误的成因、表现形式及解决方法,并提供了实用的调试技巧。 ... [详细]
  • 深入解析Hadoop的核心组件与工作原理
    本文详细介绍了Hadoop的三大核心组件:分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制,帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • 利用GitHub热门资源,成功斩获阿里、京东、腾讯三巨头Offer
    Spring框架作为Java生态系统中的重要组成部分,因其强大的功能和灵活的扩展性,被广泛应用于各种规模的企业级应用开发中。本文将通过一份在GitHub上获得极高评价的Spring全家桶文档,探讨如何掌握Spring框架及其相关技术,助力职业发展。 ... [详细]
author-avatar
手机用户2502918445
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有