使用Python处理XML格式数据的方法介绍

作者：水灵ruru | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了Python处理XML格式数据的方法,结合实例形式详细分析了Python针对xml格式文件的编码处理、常见错误及相关操作注意事项,需要的朋友可以参考下

本文实例讲述了Python处理XML格式数据的方法。分享给大家供大家参考，具体如下：

这里的操作是基于Python3平台。

在使用Python处理XML的问题上，首先遇到的是编码问题。

Python并不支持gb2312，所以面对encoding="gb2312"的XML文件会出现错误。Python读取的文件本身的编码也可能导致抛出异常，这种情况下打开文件的时候就需要指定编码。此外就是XML中节点所包含的中文。

我这里呢，处理就比较简单了，只需要修改XML的encoding头部。

#!/usr/bin/env python
import os, sys
import re
def replaceXmlEncoding(filepath, oldEncoding=&＃39;gb2312&＃39;, newEncoding=&＃39;utf-8&＃39;):
  f = open(filepath, mode=&＃39;r&＃39;)
  cOntent= f.read()
  cOntent= re.sub(oldEncoding, newEncoding, content)
  f.close()
  f = open(filepath, mode=&＃39;w&＃39;)
  f.write(content)
  f.close()
if name == "main":
  replaceXmlEncoding(&＃39;./ActivateAccount.xml&＃39;)

接着是使用xml.etree.ElementTree来操作XML文件。

在一个类里面定义call函数可以使得该类可调用，比如下面代码的最后几行，在main函数中。这也很突出地体现了在Python的世界里，一切都是对象，包括对象本身：）

一直觉得main函数用来测试真是蛮好用的。

#!/usr/bin/env python
import os, re
import xml.etree.ElementTree as etree
Locale_Path = "./locale.txt"
class xmlExtractor(object):
  def init(self):
    pass
  def call(self, filepath):
    retDict = {}
    f = open(filepath, &＃39;r&＃39;)
    Line = len(open(filepath, &＃39;r&＃39;).readlines())
    retDict[&＃39;Line&＃39;] = Line
    tree = etree.parse(f)
    root = tree.find("ResItem")
    Id = root.get("ID")
    retDict[&＃39;Title&＃39;] = Id
    resItemCnt = len(list(root.findall("ResItem"))) + 1
    retDict[&＃39;ResItemCount&＃39;] = resItemCnt
    retDict[&＃39;ChineseTip&＃39;] = &＃39;None&＃39;
    for child in root:
      attrDict = child.attrib
      keyword = "Name"
      if(keyword in attrDict.keys() and attrDict[&＃39;Name&＃39;] == "Caption"):
        if len(child.attrib[&＃39;Value&＃39;]) > 1:
          if child.attrib[&＃39;Value&＃39;][0] == &＃39;~&＃39;:
            title = child.attrib[&＃39;Value&＃39;][1:]
          else:
            title = child.attrib[&＃39;Value&＃39;][0:]
          #print(title)
          chs = open(Locale_Path).read()
          pattern = &＃39;[^>]+>&＃39;
          m = re.search(pattern, chs)
          if m != None:
            realTitle = re.sub(&＃39;<[^>]+>&＃39;, &＃39;&＃39;, m.group(0))
            retDict[&＃39;ChineseTip&＃39;] = realTitle
    f.close()
    return retDict
if name == "main":
  fo = xmlExtractor()
  d = fo(&＃39;./ActivateAccount.xml&＃39;)
  print(d)

最后，就是入口文件，导入上面两个文件，使用xml.dom和os.listdir来递归处理XML文件，并生成一个结果集。

一直觉得Python的UnboundLocalError错误挺有意思的，不知道是不是符号表的覆盖问题。

#!/usr/bin/env python
from xmlExtractor import *
from replaceXmlEncoding import *
from xml.dom import minidom,Node
doc = minidom.Document()
extractor = xmlExtractor()
totalLines = 0
totalResItemCnt = 0
totalXmlFileCnt = 0
totalErrorCnt = 0
errorFileList = []
xmlRoot = doc.createElement("XmlResourceFile")
doc.appendChild(xmlRoot)
def myWalkDir(level, path):
  global doc, extractor, totalLines, totalResItemCnt, totalXmlFileCnt
  global totalErrorCnt, errorFileList
  global xmlRoot
  for i in os.listdir(path):
    if i[-3:] == &＃39;xml&＃39;:
      totalXmlFileCnt += 1
      try:
        #先把xml的encoding由gb2312转换为utf-8
        replaceXmlEncoding(path + &＃39;\\&＃39; + i)
        #再提取xml文档中需要的信息
        info = extractor(path + &＃39;\\&＃39; + i)
        #在上述两行代码没有出现异常的基础上再创建节点
        #print(info)
        #print(type(i))
        xmlNode = doc.createElement("XmlFile")
        xmlRoot.appendChild(xmlNode)
        xmlName = doc.createElement("Filename")
        xmlName.setAttribute(&＃39;Value&＃39;, i)
        #xmlName.appendChild(doc.createTextNode(i))
        xmlNode.appendChild(xmlName)
        filePath = doc.createElement("Filepath")
        filePath.setAttribute(&＃39;Value&＃39;, path[34:])
        #filePath.appendChild(doc.createTextNode(path[1:]))
        xmlNode.appendChild(filePath)
        titleNode = doc.createElement("Title")
        titleNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;Title&＃39;]))
        #titleNode.appendChild(doc.createTextNode(str(info[&＃39;Title&＃39;])))
        xmlNode.appendChild(titleNode)
        chsNode = doc.createElement("ChineseTip")
        chsNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;ChineseTip&＃39;]))
        #chsNode.appendChild(doc.createTextNode(str(info[&＃39;Chinese&＃39;])))
        xmlNode.appendChild(chsNode)
        resItemNode = doc.createElement("ResItemCount")
        resItemNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;ResItemCount&＃39;]))
        #resItemNode.appendChild(doc.createTextNode(str(info[&＃39;ResItemCount&＃39;])))
        xmlNode.appendChild(resItemNode)
        lineNode = doc.createElement("LineCount")
        lineNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;Line&＃39;]))
        #lineNode.appendChild(doc.createTextNode(str(info[&＃39;Line&＃39;])))
        xmlNode.appendChild(lineNode)
        descNode = doc.createElement("Description")
        descNode.setAttribute(&＃39;Value&＃39;, &＃39;&＃39;)
        #descNode.appendChild(doc.createTextNode(&＃39;&＃39;))
        xmlNode.appendChild(descNode)
      except Exception as errorDetail:
        totalErrorCnt += 1
        errorFileList.append(path + &＃39;\\&＃39; + i)
        print(path + &＃39;\\&＃39; + i, errorDetail)
    if os.path.isdir(path + &＃39;\\&＃39; + i):
      myWalkDir(level+1, path + &＃39;\\&＃39; + i)
if name == "main":
  path = os.getcwd() + &＃39;\\themes&＃39;
  myWalkDir(0, path)
  print(totalXmlFileCnt, totalErrorCnt)
  #print(doc.toprettyxml(indent = "  "))
  resultXml = open("./xmlResourceList.xml", "w")
  resultXml.write(doc.toprettyxml(indent = "  "))
  resultXml.close()

以上就是使用Python处理XML格式数据的方法介绍的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

char
将XML数据迁移至Oracle Autonomous Data Warehouse (ADW)

随着Oracle ADW的推出，数据迁移至ADW成为业界关注的焦点。特别是XML和JSON这类结构化数据的迁移需求日益增长。本文将通过一个实际案例，探讨如何高效地将XML数据迁移至ADW。 ... [详细]

蜡笔小新 2024-11-23 20:27:56
char
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38
stream
Python网络编程：深入探讨TCP粘包问题及解决方案

本文详细探讨了TCP协议下的粘包现象及其产生的原因，并提供了通过自定义报头解决粘包问题的具体实现方案。同时，对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]

蜡笔小新 2024-11-23 15:55:15
io
计算数值平方根的方法与实现

本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法，我们能够精确地得到所需的结果。 ... [详细]

蜡笔小新 2024-11-23 13:50:24
io
LaTeX高级应用技巧

本文分享了作者在使用LaTeX过程中的几点心得，涵盖了从文档编辑、代码高亮、图形绘制到3D模型展示等多个方面的内容。适合希望深入了解LaTeX高级功能的用户。 ... [详细]

蜡笔小新 2024-11-23 12:47:16
io
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
python
最适合初学者的编程语言

本文探讨了适合编程新手的最佳语言选择，包括Python、JavaScript等易于上手且功能强大的语言，以及如何通过有效的学习方法提高编程技能。 ... [详细]

蜡笔小新 2024-11-22 16:17:04
js
在Notepad++中配置Markdown语法高亮及实时预览功能

本文详细介绍了如何在Notepad++中配置Markdown语法高亮和实时预览功能，包括必要的插件安装和设置步骤。 ... [详细]

蜡笔小新 2024-11-22 13:03:49
io
Android 中的布局方式之线性布局

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-11-22 11:20:34
io
ABAP与大数据：哪个职业道路更光明？

作为一名即将步入职场的应届毕业生，我在选择职业路径时面临两个选项：SAP的ABAP开发或大数据技术。对于SAP领域，我的目标是成为一名顾问。面对这两个方向，哪一个具有更好的发展前景，哪一个更容易上手？希望各位前辈能提供一些见解。 ... [详细]

蜡笔小新 2024-11-23 19:37:12
io
狮子数学：第六百零五章阿贝尔定理（第九十九讲）

本章节深入探讨了阿贝尔定理的核心内容及其在数学分析中的应用，通过具体的例子和详细的证明过程，帮助读者更好地理解和掌握这一重要理论。 ... [详细]

蜡笔小新 2024-11-23 19:13:13
io
Adversarial Personalized Ranking for Recommendation

目录概主要内容基础对抗扰动对抗训练细节代码HeX.,HeZ.,DuX.andChuaT.Adversarialpersonalizedrankingforrecommendatio ... [详细]

蜡笔小新 2024-11-23 18:18:17
int
PHP 数组操作与回调函数详解

本文详细介绍了PHP中几个常用的数组回调函数，包括array_filter、array_map、array_walk和array_reduce。通过具体的语法、参数说明及示例，帮助开发者更好地理解和使用这些函数。 ... [详细]

蜡笔小新 2024-11-23 18:10:06
io
C/C++ 应用程序的安装与卸载解决方案

本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序，包括自动检测并安装所需的运行库，确保应用能够顺利安装和卸载。 ... [详细]

蜡笔小新 2024-11-23 13:44:53
io
LeetCode 102 - 二叉树层次遍历详解

本文详细解析了LeetCode第102题——二叉树的层次遍历问题，提供了C++语言的实现代码，并对算法的核心思想和具体步骤进行了深入讲解。 ... [详细]

蜡笔小新 2024-11-23 12:14:28

水灵ruru

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章