热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python使用DOM和SAX解析XML的应用实例

本文介绍如何使用Python的DOM和SAX方法解析XML文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。

Python 使用 DOM 和 SAX 解析 XML

需求背景:
有一个数据量较大的表,每天需要更新,其字段可以通过 XML 配置文件进行动态配置。每次建表的字段可能会有所不同。

在数据处理过程中,上游系统会根据配置从源文件中提取数据,然后在入库步骤中根据配置创建新的表。

解决方案:
编写一个简单的 XML 配置文件,定义需要的字段及其类型。上游系统读取配置文件中的数据,入库步骤中先删除旧表,再根据配置创建新表。

XML 配置文件示例:

<&#63;xml version="1.0" encoding="UTF-8"&#63;>


    id
  
    query
    varchar(200)
    false
    查询内容
  
    pv
    integer
    false
    页面访问量
  
    avg_money
    integer
    false
    平均金额
  

处理脚本:

#!/usr/bin/python
# -*- coding:utf-8 -*-
# author: wklken
# desc: 用于读取数据库 XML 配置文件
# -----------------------
# 2012-02-18 创建
# ----------------------

import sys, os
from xml.dom import minidom, Node


def read_dbconfig_xml(xml_file_path):
    cOntent= {}

    root = minidom.parse(xml_file_path)
    table = root.getElementsByTagName("table")[0]

    # 读取数据库名和表名
    table_name = table.getAttribute("name")
    db_name = table.getAttribute("db_name")

    if len(table_name) > 0 and len(db_name) > 0:
        db_sql = f"CREATE DATABASE IF NOT EXISTS `{db_name}`; USE {db_name};"
        table_drop_sql = f"DROP TABLE IF EXISTS {table_name};"
        content.update({"db_sql": db_sql})
        content.update({"table_sql": table_drop_sql})
    else:
        print(f"Error: attribute not defined properly! db_name={db_name} ;table_name={table_name}")
        sys.exit(1)

    table_create_sql = f"CREATE TABLE {table_name} ("

    # 读取主键
    primary_key = table.getElementsByTagName("primary_key")[0]
    primary_key_name = primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue

    table_create_sql += f"{primary_key_name} INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,"

    # 读取普通字段
    fields = table.getElementsByTagName("field")
    for field in fields:
        name = field.getElementsByTagName("name")[0].childNodes[0].nodeValue
        type = field.getElementsByTagName("type")[0].childNodes[0].nodeValue
        table_create_sql += f"{name} {type},"
        is_index = field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue

    table_create_sql = table_create_sql.rstrip(',') + ");"
    content.update({"table_create_sql": table_create_sql})

    print(content)

if __name__ == "__main__":
    read_dbconfig_xml(sys.argv[1])

涉及的方法:
root = minidom.parse(xml_file_path) 获取 DOM 对象

root.getElementsByTagName("table") 获取指定标签的节点列表

table.getAttribute("name") 获取属性值

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值

SAX 解析
需求背景:
读取大型 XML 数据文件,并实时处理后插入数据库。

XML 文档示例:


  
    100000
    
    
北京,海淀区
437 1989 333 242 null 大学 1 2月14日

处理思路:
SAX 解析不会像 DOM 一样以节点维度进行读取,而是通过事件驱动的方式处理开始标签、内容和结束标签。

处理代码及注解:

from xml.sax import handler, parseString


class PersonHandler(handler.ContentHandler):
    def __init__(self, db_ops):
        self.db_ops = db_ops
        self.person = {}
        self.current_tag = ""
        self.in_quote = 0

    def startElement(self, name, attrs):
        if name == "person":
            self.person = {}
        self.current_tag = name
        self.in_quote = 1

    def endElement(self, name):
        if name == "person":
            in_fields = tuple([f'"{self.person.get(i, "")}"' for i in fields])
            print(in_sql % in_fields)
            self.db_ops.insert(in_sql % in_fields)
        self.in_quote = 0

    def characters(self, content):
        if self.in_quote:
            self.person[self.current_tag] = content


if __name__ == "__main__":
    f = open("./person.xml", 'r', encoding='gbk')
    db_ops = Db_Connect("127.0.0.1", "root", "root", "test")
    parseString(f.read(), PersonHandler(db_ops))
    f.close()
    db_ops.close()

总结:
本文介绍了如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。这些方法在处理大数据和动态配置场景中非常有用。


推荐阅读
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 使用Vultr云服务器和Namesilo域名搭建个人网站
    本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站,包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南,帮助读者顺利完成建站过程。 ... [详细]
  • CentOS7源码编译安装MySQL5.6
    2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网:https:www.cmake.org如此时最新 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • JavaScript中属性节点的类型及应用
    本文深入探讨了JavaScript中属性节点的不同类型及其在实际开发中的应用,帮助开发者更好地理解和处理HTML元素的属性。通过具体的案例和代码示例,我们将详细解析如何操作这些属性节点。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • 本文介绍了在Windows Server 2003环境下,使用XAMPP Lite 1.7.1和DotProject 2.1.3时遇到的日历和甘特图中文乱码问题的解决方案。通过修改相关文件和配置,可以有效解决这些问题。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 优化局域网SSH连接延迟问题的解决方案
    本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置,可以显著缩短SSH连接的时间。 ... [详细]
  • 使用Pandas高效读取SQL脚本中的数据
    本文详细介绍了如何利用Pandas直接读取和解析SQL脚本,提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本,并且能够显著提升数据导入的速度和效率。 ... [详细]
  • 探讨如何从数据库中按分组获取最大N条记录的方法,并分享新年祝福。本文提供多种解决方案,适用于不同数据库系统,如MySQL、Oracle等。 ... [详细]
author-avatar
苏木影子Hc_657
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有