当前位置: 开发笔记 > 数据库 > 正文

个人经验总结：处理海量数据的经验和技巧_MySQL

作者：手机用户2502923697 | 来源：互联网 | 2017-05-12 16:10

个人经验总结：处理海量数据的经验和技巧

bitsCN.com 在实际的工作环境下，许多人会遇到海量数据这个复杂而艰巨的问题，它的主要难点有以下几个方面：
一、数据量过大，数据中什么情况都可能存在。
如果说有10条数据，那么大不了每条去逐一检查，人为处理，如果有上百条数据，也可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须通过工具或者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了问题，尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止了。
二、软硬件要求高，系统资源占用率高。
对海量的数据进行处理，除了好的方法，最重要的就是合理使用工具，合理分配系统资源。一般情况，如果处理的数据过TB级，小型机是要考虑的，普通的机子如果有好的方法可以考虑，不过也必须加大CPU和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。
这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验的积累，也是个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。
下面我们来详细介绍一下处理海量数据的经验和技巧：
一、选用优秀的数据库工具
现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求比较高，一般使用Oracle或者DB2，微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域：数据库，数据仓库，多维数据库，数据挖掘等相关工具也要进行选择，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，Eassbase等。笔者在实际数据分析项目中，对每天6000万条的日志数据进行处理，使用SQL Server 2000需要花费6小时，而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码，尤其在进行复杂数据处理时，必须使用程序。好的程序代码对数据的处理至关重要，这不仅仅是数据处理准确度的问题，更是数据处理效率的问题。良好的程序代码应该包含好的算法，包含好的处理流程，包含好的效率，包含好的异常处理机制等。
三、对海量数据进行分区操作
对海量数据进行分区操作十分必要，例如针对按年份存取的数据，我们可以按年进行分区，不同的数据库有不同的分区方式，不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小磁盘I/O，减小了系统负荷，而且还可以将日志，索引等放于不同的分区下。
四、建立广泛的索引
对海量的数据处理，对大表建立索引是必行的，建立索引要考虑到具体情况，例如针对大表的分组、排序等字段，都要建立相应索引，一般还可以建立复合索引，对经常插入的表则建立索引时要小心，笔者在处理数据时，曾经在一个ETL流程中，当插入表时，首先删除索引，然后插入完毕，建立索引，并实施聚合操作，聚合完成后，再次插入前还是删除索引，所以索引要用到好的时机，索引的填充因子和聚集、非聚集索引都要考虑。
五、建立缓存机制
当数据量增加时，一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败，例如，笔者在处理2亿条数据聚合操作时，缓存设置为100000条/Buffer，这对于这个级别的数据量是可行的。
六、加大虚拟内存
如果系统资源有限，内存提示不足，则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理，内存为1GB，1个P4 2.4G的CPU，对这么大的数据量进行聚合操作是有问题的，提示内存不足，那么采用了加大虚拟内存的方法来解决，在6块磁盘分区上分别建立了6个4096M的磁盘分区，用于虚拟内存，这样bitsCN.com

推荐阅读

database
我在滴滴数据分析岗实习8个月的收获（文末附内推机会）

我在滴滴数据分析岗实习8个月的收获（文末附内推机会）作者：海潮来源：数据管道大家好，我是宝器！今天分享一下交流群里海潮兄弟的「数据分析岗」求职与工作经验，以下是海潮兄弟的自诉，全文 ... [详细]

蜡笔小新 2024-10-18 11:57:45
数据库
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
数据库
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
数据库
如何将两个具有相同主键的Excel表格合并

本文介绍如何将两个具有相同主键的Excel表格进行合并，通过左连接的方式将表2的数据插入到表1中。具体步骤包括在表1中添加新的列、使用VLOOKUP函数进行数据匹配，以及通过SQL语句实现数据库中的表连接。 ... [详细]

蜡笔小新 2024-11-15 15:52:31
数据库
SSAS入门指南：基础知识与核心概念解析

### SSAS入门指南：基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能（BI）解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据，并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能，Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]

蜡笔小新 2024-11-07 03:53:06
数据库
业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？

业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？ ... [详细]

蜡笔小新 2024-11-06 17:18:07
database
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
数据库
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
数据库
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
数据库
2021年度高效办公软件推荐：实用与专业并重的选择指南

在现代办公环境中，高效的办公软件是提升工作效能的关键。本文将推荐几款实用且专业的办公软件，帮助用户提高工作效率。首先，微软Office套件中的Word、Excel和PowerPoint依然是最常用的工具，它们凭借强大的功能和易用性，成为众多用户的首选。此外，本文还将介绍其他一些创新的办公软件，如Google Workspace和Notion，这些工具在协作和项目管理方面表现出色，值得尝试。 ... [详细]

蜡笔小新 2024-10-26 18:54:40
数据库
吴裕雄数据挖掘实战案例（13）：GBDT模型的深入应用与解析

#导入第三方包importpandasaspdimportmatplotlib.pyplotasplt#读入数据defaultpd.read_excel(r&# ... [详细]

蜡笔小新 2024-10-22 01:29:43
数据库
信息安全工程师五天修炼（第五章 5.4安全设备）

第五章5.4安全设备防火墙防火墙是网络关联的重要设备，用于控制网络之间的语言。外部网络用户的访问必须先经过安全策略过滤，而内部网络用户对外部网络的访 ... [详细]

蜡笔小新 2024-10-21 13:09:14
数据库
数据分析的4个目的3个意义，新手小白一定要看！

数据分析的4个目的3个意义，新手小白一定要看！-如今，很多公司在招聘的时候都不约而同地对应聘者加上了一条“具备数据分析能力”的要求，这也从侧面反映了现在很多公司对数据分析非常重视 ... [详细]

蜡笔小新 2024-10-21 09:38:01
数据库
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
数据库
数据挖掘开源项目立项

项目背景因为最近一直都在搞数据挖掘类的项目，且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法，以前也搞过一个开源的项目 ... [详细]

蜡笔小新 2024-10-19 10:20:56

手机用户2502923697

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章