热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Python使用DOM和SAX解析XML的应用实例

本文介绍如何使用Python的DOM和SAX方法解析XML文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。

Python 使用 DOM 和 SAX 解析 XML

需求背景:
有一个数据量较大的表,每天需要更新,其字段可以通过 XML 配置文件进行动态配置。每次建表的字段可能会有所不同。

在数据处理过程中,上游系统会根据配置从源文件中提取数据,然后在入库步骤中根据配置创建新的表。

解决方案:
编写一个简单的 XML 配置文件,定义需要的字段及其类型。上游系统读取配置文件中的数据,入库步骤中先删除旧表,再根据配置创建新表。

XML 配置文件示例:

<&#63;xml version="1.0" encoding="UTF-8"&#63;>


    id
  
    query
    varchar(200)
    false
    查询内容
  
    pv
    integer
    false
    页面访问量
  
    avg_money
    integer
    false
    平均金额
  

处理脚本:

#!/usr/bin/python
# -*- coding:utf-8 -*-
# author: wklken
# desc: 用于读取数据库 XML 配置文件
# -----------------------
# 2012-02-18 创建
# ----------------------

import sys, os
from xml.dom import minidom, Node


def read_dbconfig_xml(xml_file_path):
    cOntent= {}

    root = minidom.parse(xml_file_path)
    table = root.getElementsByTagName("table")[0]

    # 读取数据库名和表名
    table_name = table.getAttribute("name")
    db_name = table.getAttribute("db_name")

    if len(table_name) > 0 and len(db_name) > 0:
        db_sql = f"CREATE DATABASE IF NOT EXISTS `{db_name}`; USE {db_name};"
        table_drop_sql = f"DROP TABLE IF EXISTS {table_name};"
        content.update({"db_sql": db_sql})
        content.update({"table_sql": table_drop_sql})
    else:
        print(f"Error: attribute not defined properly! db_name={db_name} ;table_name={table_name}")
        sys.exit(1)

    table_create_sql = f"CREATE TABLE {table_name} ("

    # 读取主键
    primary_key = table.getElementsByTagName("primary_key")[0]
    primary_key_name = primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue

    table_create_sql += f"{primary_key_name} INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,"

    # 读取普通字段
    fields = table.getElementsByTagName("field")
    for field in fields:
        name = field.getElementsByTagName("name")[0].childNodes[0].nodeValue
        type = field.getElementsByTagName("type")[0].childNodes[0].nodeValue
        table_create_sql += f"{name} {type},"
        is_index = field.getElementsByTagName("is_index")[0].childNodes[0].nodeValue

    table_create_sql = table_create_sql.rstrip(',') + ");"
    content.update({"table_create_sql": table_create_sql})

    print(content)

if __name__ == "__main__":
    read_dbconfig_xml(sys.argv[1])

涉及的方法:
root = minidom.parse(xml_file_path) 获取 DOM 对象

root.getElementsByTagName("table") 获取指定标签的节点列表

table.getAttribute("name") 获取属性值

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值

SAX 解析
需求背景:
读取大型 XML 数据文件,并实时处理后插入数据库。

XML 文档示例:


  
    100000
    
    
北京,海淀区
437 1989 333 242 null 大学 1 2月14日

处理思路:
SAX 解析不会像 DOM 一样以节点维度进行读取,而是通过事件驱动的方式处理开始标签、内容和结束标签。

处理代码及注解:

from xml.sax import handler, parseString


class PersonHandler(handler.ContentHandler):
    def __init__(self, db_ops):
        self.db_ops = db_ops
        self.person = {}
        self.current_tag = ""
        self.in_quote = 0

    def startElement(self, name, attrs):
        if name == "person":
            self.person = {}
        self.current_tag = name
        self.in_quote = 1

    def endElement(self, name):
        if name == "person":
            in_fields = tuple([f'"{self.person.get(i, "")}"' for i in fields])
            print(in_sql % in_fields)
            self.db_ops.insert(in_sql % in_fields)
        self.in_quote = 0

    def characters(self, content):
        if self.in_quote:
            self.person[self.current_tag] = content


if __name__ == "__main__":
    f = open("./person.xml", 'r', encoding='gbk')
    db_ops = Db_Connect("127.0.0.1", "root", "root", "test")
    parseString(f.read(), PersonHandler(db_ops))
    f.close()
    db_ops.close()

总结:
本文介绍了如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。这些方法在处理大数据和动态配置场景中非常有用。


推荐阅读
  • 本文详细探讨了在Web开发中常见的UTF-8编码问题及其解决方案,包括HTML页面、PHP脚本、MySQL数据库以及JavaScript和Flash应用中的乱码问题。 ... [详细]
  • 本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问,特别是对于需要频繁访问的服务,如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本,并提供了对多种服务的统一访问接口。 ... [详细]
  • flea,frame,db,使用,之 ... [详细]
  • 本文详细介绍了 Java 中 org.w3c.dom.Node 类的 isEqualNode() 方法的功能、参数及返回值,并通过多个实际代码示例来展示其具体应用。此方法用于检测两个节点是否相等,而不仅仅是判断它们是否为同一个对象。 ... [详细]
  • mysql数据库json类型数据,sql server json数据类型
    mysql数据库json类型数据,sql server json数据类型 ... [详细]
  • spring(22)JdbcTemplate
    2019独角兽企业重金招聘Python工程师标准###1.导入jar包,必须jar包:c3p0、mysql-connector、beans、con ... [详细]
  • JUnit下的测试和suite
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 本文介绍了如何通过C#语言调用动态链接库(DLL)中的函数来实现IC卡的基本操作,包括初始化设备、设置密码模式、获取设备状态等,并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]
  • CentOS下ProFTPD的安装与配置指南
    本文详细介绍在CentOS操作系统上安装和配置ProFTPD服务的方法,包括基本配置、安全设置及高级功能的启用。 ... [详细]
  • 解决JavaScript中法语字符排序问题
    在开发一个使用JavaScript、HTML和CSS的Web应用时,遇到从SQLite数据库中提取的法语词汇排序不正确的问题,特别是带重音符号的字母未按预期排序。 ... [详细]
  • Android与JUnit集成测试实践
    本文探讨了如何在Android项目中集成JUnit进行单元测试,并详细介绍了修改AndroidManifest.xml文件以支持测试的方法。 ... [详细]
  • 深入理解:AJAX学习指南
    本文详细探讨了AJAX的基本概念、工作原理及其在现代Web开发中的应用,旨在为初学者提供全面的学习资料。 ... [详细]
  • 材料光学属性集
    材料光学属性集概述了材料在不同光谱下的光学行为,包括可见光透射率、太阳光透射率等关键参数。 ... [详细]
  • 使用C#构建动态图形界面时钟
    本篇文章将详细介绍如何利用C#语言开发一个具有动态显示功能的图形界面时钟。文章中不仅提供了详细的代码示例,还对可能出现的问题进行了深入分析,并给出了解决方案。 ... [详细]
  • 本文探讨了在UIScrollView上嵌入Webview时遇到的一个常见问题:点击图片放大并返回后,Webview无法立即滑动。我们将分析问题原因,并提供有效的解决方案。 ... [详细]
author-avatar
苏木影子Hc_657
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有