热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python使用DOM和SAX解析XML的应用实例

本文介绍如何使用Python的DOM和SAX方法解析XML文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。

Python 使用 DOM 和 SAX 解析 XML

需求背景:
有一个数据量较大的表,每天需要更新,其字段可以通过 XML 配置文件进行动态配置。每次建表的字段可能会有所不同。

在数据处理过程中,上游系统会根据配置从源文件中提取数据,然后在入库步骤中根据配置创建新的表。

解决方案:
编写一个简单的 XML 配置文件,定义需要的字段及其类型。上游系统读取配置文件中的数据,入库步骤中先删除旧表,再根据配置创建新表。

XML 配置文件示例:

<&#63;xml version="1.0" encoding="UTF-8"&#63;>


    id
  
    query
    varchar(200)
    false
    查询内容
  
    pv
    integer
    false
    页面访问量
  
    avg_money
    integer
    false
    平均金额
  

处理脚本:

#!/usr/bin/python
# -*- coding:utf-8 -*-
# author: wklken
# desc: 用于读取数据库 XML 配置文件
# -----------------------
# 2012-02-18 创建
# ----------------------

import sys, os
from xml.dom import minidom, Node


def read_dbconfig_xml(xml_file_path):
    cOntent= {}

    root = minidom.parse(xml_file_path)
    table = root.getElementsByTagName("table")[0]

    # 读取数据库名和表名
    table_name = table.getAttribute("name")
    db_name = table.getAttribute("db_name")

    if len(table_name) > 0 and len(db_name) > 0:
        db_sql = f"CREATE DATABASE IF NOT EXISTS `{db_name}`; USE {db_name};"
        table_drop_sql = f"DROP TABLE IF EXISTS {table_name};"
        content.update({"db_sql": db_sql})
        content.update({"table_sql": table_drop_sql})
    else:
        print(f"Error: attribute not defined properly! db_name={db_name} ;table_name={table_name}")
        sys.exit(1)

    table_create_sql = f"CREATE TABLE {table_name} ("

    # 读取主键
    primary_key = table.getElementsByTagName("primary_key")[0]
    primary_key_name = primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue

    table_create_sql += f"{primary_key_name} INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,"

    # 读取普通字段
    fields = table.getElementsByTagName("field")
    for field in fields:
        name = field.getElementsByTagName("name")[0].childNodes[0].nodeValue
        type = field.getElementsByTagName("type")[0].childNodes[0].nodeValue
        table_create_sql += f"{name} {type},"
        is_index = field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue

    table_create_sql = table_create_sql.rstrip(',') + ");"
    content.update({"table_create_sql": table_create_sql})

    print(content)

if __name__ == "__main__":
    read_dbconfig_xml(sys.argv[1])

涉及的方法:
root = minidom.parse(xml_file_path) 获取 DOM 对象

root.getElementsByTagName("table") 获取指定标签的节点列表

table.getAttribute("name") 获取属性值

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值

SAX 解析
需求背景:
读取大型 XML 数据文件,并实时处理后插入数据库。

XML 文档示例:


  
    100000
    
    
北京,海淀区
437 1989 333 242 null 大学 1 2月14日

处理思路:
SAX 解析不会像 DOM 一样以节点维度进行读取,而是通过事件驱动的方式处理开始标签、内容和结束标签。

处理代码及注解:

from xml.sax import handler, parseString


class PersonHandler(handler.ContentHandler):
    def __init__(self, db_ops):
        self.db_ops = db_ops
        self.person = {}
        self.current_tag = ""
        self.in_quote = 0

    def startElement(self, name, attrs):
        if name == "person":
            self.person = {}
        self.current_tag = name
        self.in_quote = 1

    def endElement(self, name):
        if name == "person":
            in_fields = tuple([f'"{self.person.get(i, "")}"' for i in fields])
            print(in_sql % in_fields)
            self.db_ops.insert(in_sql % in_fields)
        self.in_quote = 0

    def characters(self, content):
        if self.in_quote:
            self.person[self.current_tag] = content


if __name__ == "__main__":
    f = open("./person.xml", 'r', encoding='gbk')
    db_ops = Db_Connect("127.0.0.1", "root", "root", "test")
    parseString(f.read(), PersonHandler(db_ops))
    f.close()
    db_ops.close()

总结:
本文介绍了如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。这些方法在处理大数据和动态配置场景中非常有用。


推荐阅读
  • 本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异,提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • 由二叉树到贪心算法
    二叉树很重要树是数据结构中的重中之重,尤其以各类二叉树为学习的难点。单就面试而言,在 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 掌握Mosek矩阵运算,轻松应对优化挑战
    本篇文章继续深入探讨Mosek学习笔记系列,特别是矩阵运算部分,这对于优化问题的解决至关重要。通过本文,您将了解到如何高效地使用Mosek进行矩阵初始化、线性代数运算及约束域的设定。 ... [详细]
  • 本题探讨了在大数据结构背景下,如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制,并详细分析了解决方案中的关键步骤。 ... [详细]
  • 目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]
  • 2018-2019学年第六周《Java数据结构与算法》学习总结
    本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容,重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]
  • 如何使用Ping命令来测试网络连接?当网卡安装和有关参数配置完成后,可以使用ping命令来测试一下网络是否连接成功。以winXP为例1、打开XP下DOS窗口具体操作是点击“开始”菜 ... [详细]
  • 1.介绍有时候我们需要一些模拟数据来进行测试,今天简单记录下如何用存储过程生成一些随机数据。2.建表我们新建一张学生表和教师表如下:CREATETABLEstudent(idINT ... [详细]
  • 在高并发需求的C++项目中,我们最初选择了JsonCpp进行JSON解析和序列化。然而,在处理大数据量时,JsonCpp频繁抛出异常,尤其是在多线程环境下问题更为突出。通过分析发现,旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估,我们最终选择了RapidJSON作为替代方案,并实现了显著的性能提升。 ... [详细]
  • 深入解析Spring启动过程
    本文详细介绍了Spring框架的启动流程,帮助开发者理解其内部机制。通过具体示例和代码片段,解释了Bean定义、工厂类、读取器以及条件评估等关键概念,使读者能够更全面地掌握Spring的初始化过程。 ... [详细]
  • MySQL 基础操作与优化
    本文详细介绍了 MySQL 的基础连接、数据库及表的操作,涵盖创建、修改、删除等常用命令,并深入解析了数据类型、列属性、索引、外键和存储引擎等内容。 ... [详细]
  • ElasticSearch 集群监控与优化
    本文详细介绍了如何有效地监控 ElasticSearch 集群,涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]
  • 本章详细介绍SP框架中的数据操作方法,包括数据查找、记录查询、新增、删除、更新、计数及字段增减等核心功能。通过具体示例和详细解析,帮助开发者更好地理解和使用这些方法。 ... [详细]
author-avatar
苏木影子Hc_657
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有