使用Pandas高效读取SQL脚本中的数据

作者：谢世雯62956 | 来源：互联网 | 2024-12-24 21:56

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。

在实际工作中，有时会遇到需要处理几百MB大小的SQL脚本文件的情况。通常的做法是先将SQL脚本导入数据库，再从数据库中读取数据，但这种方法速度较慢。本文介绍了一种更高效的方法：直接从SQL脚本中读取数据并加载到Pandas DataFrame中。

将SQL脚本文本解析为CSV格式并加载

SQL脚本本质上是一个文本文件，现代计算机可以轻松地将其一次性加载到内存中。通过Python解析SQL脚本并转换为CSV格式，可以快速生成Pandas DataFrame。

注意：本文提供的代码主要针对MySQL数据库（如SQLyog导出的脚本），对于其他类型的数据库，可能需要根据实际情况进行微调。

以下是具体的读取方法：


from io import StringIO
import pandas as pd
import re

def parse_sql_script(sql_file_path, quotechar="'") -> dict:
  insert_pattern = re.compile(r"insert +into +`?(\w+?)`?\(", re.I | re.A)
  with open(sql_file_path, encoding="utf-8") as f:
    sql_cOntent= f.read()
  end_pos = -1
  dataframes = {}
  while True:
    match = insert_pattern.search(sql_content, end_pos + 1)
    if not match:
      break
    table_name = match.group(1)
    start_pos = match.span()[1] + 1
    end_pos = sql_content.find(";", start_pos)
    tmp = re.sub(r"\) (values |,)\(", "\n", sql_content[start_pos:end_pos])
    tmp = re.sub(r"[()`]", "", tmp)
    df = pd.read_csv(StringIO(tmp), quotechar=quotechar)
    dfs = dataframes.setdefault(table_name, [])
    dfs.append(df)
  for table_name, dfs in dataframes.items():
    dataframes[table_name] = pd.concat(dfs)
  return dataframes

参数：

sql_file_path：SQL脚本的文件路径

quotechar：脚本中字符串的引号类型，默认为单引号

返回值：

一个字典，键为表名，值为对应的DataFrame对象。

例如，我们可以用以下代码读取名为index_test的表：


df_dict = parse_sql_script("D:/tmp/test.sql")
df = df_dict['index_test']
df.head(10)

结果如下图所示：

如果只需要读取特定表的数据，可以修改上述函数以支持按表名读取：


def read_specific_table(sql_file_path, table_name, quotechar="'") -> pd.DataFrame:
  insert_pattern = re.compile(r"insert +into +`?(\w+?)`?\(", re.I | re.A)
  with open(sql_file_path, encoding="utf-8") as f:
    sql_cOntent= f.read()
  end_pos = -1
  dfs = []
  while True:
    match = insert_pattern.search(sql_content, end_pos + 1)
    if not match:
      break
    if match.group(1) != table_name:
      continue
    start_pos = match.span()[1] + 1
    end_pos = sql_content.find(";", start_pos)
    tmp = re.sub(r"\) (values |,)\(", "\n", sql_content[start_pos:end_pos])
    tmp = re.sub(r"[()`]", "", tmp)
    df = pd.read_csv(StringIO(tmp), quotechar=quotechar)
    dfs.append(df)
  return pd.concat(dfs)

参数：

sql_file_path：SQL脚本的文件路径

table_name：要读取的表名

quotechar：脚本中字符串的引号类型，默认为单引号

返回值：

指定表对应的DataFrame对象。

读取代码示例：


df = read_specific_table("D:/tmp/test.sql", "index_test")
df.head()

结果如下图所示：

将SQL脚本转换为SQLite格式并通过本地连接读取

另一种方法是将SQL脚本转换为SQLite语法的SQL语句，然后通过SQLite连接读取数据。此方法同样适用于MySQL导出的SQL脚本，但对于其他数据库，可能需要根据具体情况进行调整。


from sqlalchemy import create_engine
import pandas as pd
import re

def convert_and_load_sql_to_sqlite(sql_file_path):
  create_pattern = re.compile("create +table [^;]+;", re.I)
  insert_pattern = re.compile("insert +into [^;]+;", re.I)
  with open(sql_file_path, encoding="utf-8") as f:
    sql_cOntent= f.read()
  engine = create_engine('sqlite:///:memory:')
  pos = -1
  while True:
    match = create_pattern.search(sql_content, pos + 1)
    if match:
      pos = match.span()[1]
      sql = match.group(0).replace("AUTO_INCREMENT", "")
      sql = re.sub(r"\).+;", ");", sql)
      engine.execute(sql)
    match = insert_pattern.search(sql_content, pos + 1)
    if match:
      pos = match.span()[1]
      sql = match.group(0)
      engine.execute(sql)
    else:
      break
  tablenames = [t[0] for t in engine.execute(
    "SELECT tbl_name FROM sqlite_master WHERE type='table';").fetchall()]
  return tablenames, engine.connect()

参数：

sql_file_path：SQL脚本的文件路径

返回值：

一个包含两个元素的元组，第一个元素是表名列表，第二个元素是SQLite内存连接。

测试读取：


tablenames, cOnn= convert_and_load_sql_to_sqlite("D:/tmp/test.sql")
tablename = tablenames[0]
print(tablename)
df = pd.read_sql(f"select * from {tablename};", conn)
df

结果如下图所示：

推荐阅读

ip
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
ip
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
ip
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
input
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
int
浙大陈姥姥版数据结构：第四章二叉搜索树与平衡二叉树

本文深入探讨了二叉搜索树（Binary Search Tree, BST）及其操作，包括查找、插入和删除节点。同时，文章还介绍了平衡二叉树（AVL树）的概念及调整方法，并详细讨论了如何判断两个序列是否构成相同的二叉搜索树。 ... [详细]

蜡笔小新 2024-12-28 13:49:45
version
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
int
Java 中 Writer flush()方法，示例

Java 中 Writer flush()方法，示例 ... [详细]

蜡笔小新 2024-12-28 06:41:52
int
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
int
Java 类成员初始化顺序与数组创建

本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例，详细解释了这些概念及其在实际编程中的使用。 ... [详细]

蜡笔小新 2024-12-27 19:39:42
list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
list
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
list
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
ip
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
ip
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
runtime
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15

谢世雯62956

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章