python读取千万级数据库数据类型_使用python遍历mysql中有千万行数据的大表

作者：望尽天涯 | 来源：互联网 | 2023-07-10 21:59

最近工作中遇到了一个问题：将mysql的数据同步到elasticsearch中，现在有很多方案，logstash-jdbc，

最近工作中遇到了一个问题&＃xff1a;将mysql的数据同步到elasticsearch中&＃xff0c;现在有很多方案&＃xff0c; logstash-jdbc &＃xff0c; elasticsearch-jdbc &＃xff0c; go-mysql-elasticsearch&＃xff0c;本来原来是使用logstash-jdbc的&＃xff0c;但是由于其配置文件是基于ruby语法的&＃xff0c;导致遇到问题需要查很多资料&＃xff0c;加上logstash调试困难&＃xff08;很可能是我用的姿势不对。。。&＃xff09;&＃xff0c;所以决定手动在elasticsearch中建表&＃xff0c;然后写脚本定期更新数据&＃xff0c;那么问题就来了&＃xff1a;第一次插入需要一次性插入以前的所有数据&＃xff0c;以前使用pymysql时用的都是DictCursor游标&＃xff0c;原理是一次性讲数据加载到内存中&＃xff0c;但是现有表中有几张有数千万行&＃xff0c;几个G大小&＃xff0c;一次性读到内存中很不明智&＃xff0c;google后&＃xff0c;发现一篇blog不错&＃xff0c;翻译共享一下&＃xff08;渣英语&＃xff0c;不要笑&＃xff0c;原文链接在文末&＃xff09;。

当使用sql查询的结果有非常多行时&＃xff0c;如果使用默认的cursor&＃xff0c;你的程序在接受数据的的时候很可能卡住或者被杀死&＃xff0c;原因是mysql客户端&＃xff08;Java&＃xff0c;Pyhton&＃xff09;默认在内存里缓存下所有行然后再处理&＃xff0c;如果内存溢出后&＃xff0c;你的程序就会被杀死。

解决方式是实用流式游标&＃xff0c;在Python中&＃xff0c;你可以使用pymysql.cursors.SSCursor&＃xff08;或者SSDictCursor&＃xff09;来解决这个问题

import pymysql

conn &＃61; pymysql.connect(...)

cursor &＃61; pymysql.cursors.SSCursor(conn)

cursor.execute(...)

while True:

row &＃61; cursor.fetchone()

if not row:

break

...

这里有两点需要注意下&＃xff1a;

使用pymysql.cursors.SSCursor代替默认的cursor。可以使用以上代码&＃xff0c;或者这样写&＃xff1a;conn.cursor(pymysql.cursors.SSCursor)

使用fetchone去每次只获得一行&＃xff0c;别使用fetchall。也可以使用fetchmay&＃xff0c;但是这样其实是多次调用fetchone。

对于SSCursor有一个错误的理解&＃xff0c;就是SSCursor是服务端一次性读出所有数据然后一条一条返给客户端&＃xff0c;其实不是这样的&＃xff0c;这个cursor实际上没有缓存下来任何数据&＃xff0c;它不会读取所有所有到内存中&＃xff0c;它的做法是从储存块中读取记录&＃xff0c;并且一条一条返回给你。这里有一个更适合的名字&＃xff1a;流式游标。

因为SSCursor是没有缓存的游标&＃xff0c;这里有几条约束&＃xff1a;

这个connection只能读完所有行之后才能处理其他sql。如果你需要并行执行sql&＃xff0c;在另外一个connection中执行&＃xff0c;否则你会遇到 error 2014 , "Commands out of sync; you can&＃39;t run this command now."

必须一次性读完所有行&＃xff0c;每次读取后处理数据要快&＃xff0c;不能超过60s&＃xff0c;否则mysql将会断开这次连接&＃xff08; error2013 , “Lost connection to MySQL server during query&＃xff09;&＃xff0c;也可以修改 SET NET_WRITE_TIMEOUT &＃61; xx 来增加超时间隔。

推荐阅读

config
3.sybase笔记——监控

启动监控MonitorTables主要存储一些监控信息（当前运行的SQL，IO统计信息，当前进程情况）比如monDevic ... [详细]

蜡笔小新 2024-09-26 12:50:41
select
一个不错的JDBC连接池教程（带具体例子）

1.前言数据库应用，在许多软件系统中经常用到，是开发中大型系统不可缺少的辅助。但如果对数据库资源没有很好地管理(如：没有及时回收数据库的游 ... [详细]

蜡笔小新 2024-09-27 20:22:03
select
hdfs数据节点分发什么协议_HDFS主要节点解说(一)节点功能

HDFS是一个主从(MaterSlave)体系结构。从终于用户的角度来看，它就像传统的文件系统一样，能够通过文件夹路径对文件运行CRUD(Create、 ... [详细]

蜡笔小新 2024-09-27 21:44:59
web
[网页设计]新手做网站必备软件。及下载地址~~~~（06年10月10日修订）

　　1、做网站先要从策划开始msvcp71dll下载。　　MicrosoftOffice2007Beta2简体中文版　　M ... [详细]

蜡笔小新 2024-09-27 14:02:11
config
ASP.NET 页面指令之 @OutputCache

缓存的重要性就不用再强调了，@OutputCache给我们提供了一种声明的方式(对应的还有编程的方式)来控制页面和用户控件的缓存策略，这是一种最简单直接的网站优化方式。还是先来过一遍@ ... [详细]

蜡笔小新 2024-09-27 12:38:16
node.js
Node.js[3] Buffer

JavaScript语言自身只有字符串数据类型，没有二进制数据类型。但在处理像TCP流或文件流时，必须使用到二进制数据。因此在Node.js中&#x ... [详细]

蜡笔小新 2024-09-26 18:44:26
node.js
完成_2020.2月172月23任务完成情况：

篇首语：本文由编程笔记#小编为大家整理，主要介绍了2020.2月17-2月23任务完成情况：相关的知识，希望对你有一定的参考价值。2020.2月17-2月23 ... [详细]

蜡笔小新 2024-09-28 23:12:39
js
Java工作流引擎关于数据加密流程(MD5数据加密防篡改)

关键字：驰骋工作流程快速开发平台工作流程管理系统工作流引擎asp.net工作流引擎java工作流引擎.开发者表单拖拽式表单工作流系统流程数据加密md5数据保密流程数据防篡改软加密适 ... [详细]

蜡笔小新 2024-09-28 18:39:01
config
记一次ssh免密登录踩坑and Debug之路

突然觉得服务器ssh密码登录总是浪费一定量的时间，就想试试用sshKey进行登录。生成服务器sshkey和本地sshkey$ssh-keygen在服务器上生成一个authorize ... [详细]

蜡笔小新 2024-09-28 16:45:48
web
根据时间更改网站背景的脚本。热！

我在网上找到了它，并以自己的方式对其进行了自定义；作者的功劳就在那里。实际上，这是一个用于更改背景颜色的脚本，并且在我看来& ... [详细]

蜡笔小新 2024-09-28 12:47:14
web
《Web前端开发最佳实践》——2.2　前端代码重构

本节书摘来自华章计算机《Web前端开发最佳实践》一书中的第2章，第2.2节,作者:党　建更多章节内容可以访问云栖社区“华章计算机”公众号查看。2.2　前端代码重构代码 ... [详细]

蜡笔小新 2024-09-28 11:34:29
select
oracle text db2,从Oracle 到DB2（一）

在实际的软件项目的开发过程中，特别是在企业的应用系统集成(EAI)项目中广大开发人员经常遇到不同关系型数据库之间的数据移植问题。笔者根据自己在工作中的不同数据库数据移 ... [详细]

蜡笔小新 2024-09-28 10:56:59
header
Linux命令Dig

一、域名解析记录说明记录类型A：用来指定域名的IPv4地址（如：8.8.8.8），如果需要将域名指向一个IP ... [详细]

蜡笔小新 2024-09-28 10:52:03
header
如何实现Percona Mysql Galera多读写集群的部署

本篇文章给大家主要讲的是关于如何实现PerconaMysqlGalera多读写集群的部署的内容，感兴趣的话就一起来看看这篇文章吧，相信看完如何实现PerconaMysq ... [详细]

蜡笔小新 2024-09-27 14:40:41
header
mysql join 算法_【MySQL】之join算法详解

在阿里巴巴的java开发手册有这么一条强制规定：超过三个表禁止join，须要join的字段，数据类型保持绝对一致，多表关联查 ... [详细]

蜡笔小新 2024-09-27 13:57:57

望尽天涯

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章