Python使用DOM和SAX解析XML的应用实例

作者：苏木影子Hc_657 | 来源：互联网 | 2024-11-12 16:10

本文介绍如何使用Python的DOM和SAX方法解析XML文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。

Python 使用 DOM 和 SAX 解析 XML

需求背景：
有一个数据量较大的表，每天需要更新，其字段可以通过 XML 配置文件进行动态配置。每次建表的字段可能会有所不同。

在数据处理过程中，上游系统会根据配置从源文件中提取数据，然后在入库步骤中根据配置创建新的表。

解决方案：
编写一个简单的 XML 配置文件，定义需要的字段及其类型。上游系统读取配置文件中的数据，入库步骤中先删除旧表，再根据配置创建新表。

XML 配置文件示例：

<&＃63;xml version="1.0" encoding="UTF-8"&＃63;>


    id
  
    query
    varchar(200)
    false
    查询内容
  
    pv
    integer
    false
    页面访问量
  
    avg_money
    integer
    false
    平均金额

处理脚本：

#!/usr/bin/python
# -*- coding:utf-8 -*-
# author: wklken
# desc: 用于读取数据库 XML 配置文件
# -----------------------
# 2012-02-18 创建
# ----------------------

import sys, os
from xml.dom import minidom, Node


def read_dbconfig_xml(xml_file_path):
    cOntent= {}

    root = minidom.parse(xml_file_path)
    table = root.getElementsByTagName("table")[0]

    # 读取数据库名和表名
    table_name = table.getAttribute("name")
    db_name = table.getAttribute("db_name")

    if len(table_name) > 0 and len(db_name) > 0:
        db_sql = f"CREATE DATABASE IF NOT EXISTS `{db_name}`; USE {db_name};"
        table_drop_sql = f"DROP TABLE IF EXISTS {table_name};"
        content.update({"db_sql": db_sql})
        content.update({"table_sql": table_drop_sql})
    else:
        print(f"Error: attribute not defined properly! db_name={db_name} ;table_name={table_name}")
        sys.exit(1)

    table_create_sql = f"CREATE TABLE {table_name} ("

    # 读取主键
    primary_key = table.getElementsByTagName("primary_key")[0]
    primary_key_name = primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue

    table_create_sql += f"{primary_key_name} INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,"

    # 读取普通字段
    fields = table.getElementsByTagName("field")
    for field in fields:
        name = field.getElementsByTagName("name")[0].childNodes[0].nodeValue
        type = field.getElementsByTagName("type")[0].childNodes[0].nodeValue
        table_create_sql += f"{name} {type},"
        is_index = field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue

    table_create_sql = table_create_sql.rstrip(',') + ");"
    content.update({"table_create_sql": table_create_sql})

    print(content)

if __name__ == "__main__":
    read_dbconfig_xml(sys.argv[1])

涉及的方法：
root = minidom.parse(xml_file_path) 获取 DOM 对象

root.getElementsByTagName("table") 获取指定标签的节点列表

table.getAttribute("name") 获取属性值

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值

SAX 解析
需求背景：
读取大型 XML 数据文件，并实时处理后插入数据库。

XML 文档示例：

处理思路：
SAX 解析不会像 DOM 一样以节点维度进行读取，而是通过事件驱动的方式处理开始标签、内容和结束标签。

处理代码及注解：

from xml.sax import handler, parseString


class PersonHandler(handler.ContentHandler):
    def __init__(self, db_ops):
        self.db_ops = db_ops
        self.person = {}
        self.current_tag = ""
        self.in_quote = 0

    def startElement(self, name, attrs):
        if name == "person":
            self.person = {}
        self.current_tag = name
        self.in_quote = 1

    def endElement(self, name):
        if name == "person":
            in_fields = tuple([f'"{self.person.get(i, "")}"' for i in fields])
            print(in_sql % in_fields)
            self.db_ops.insert(in_sql % in_fields)
        self.in_quote = 0

    def characters(self, content):
        if self.in_quote:
            self.person[self.current_tag] = content


if __name__ == "__main__":
    f = open("./person.xml", 'r', encoding='gbk')
    db_ops = Db_Connect("127.0.0.1", "root", "root", "test")
    parseString(f.read(), PersonHandler(db_ops))
    f.close()
    db_ops.close()

总结：
本文介绍了如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。这些方法在处理大数据和动态配置场景中非常有用。

推荐阅读

string
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
settings
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
go
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
string
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
go
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
string
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
string
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
string
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
string
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
string
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
go
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
go
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
web
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
ascii
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
version
在Android中排列多行小部件 - Arranging Rows of Widgets in Android

本文介绍如何使用布局文件在Android应用中排列多行TextView和Button，使其占据屏幕的特定比例，并提供示例代码以帮助理解和实现。 ... [详细]

蜡笔小新 2024-12-25 10:33:17

苏木影子Hc_657

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章