关于dom4j无法解析xmlns问题及生成非UTF-8字符集乱码问题的解决

作者：唯一的你b | 来源：互联网 | 2022-12-17 13:44

dom4j无法解析xml命名空间的问题近日得以解决，如果这个问题也正在困扰你，看看下文也许能给你一些启发<?xmlversion"1.0"encoding"

dom4j无法解析xml命名空间的问题近日得以解决，如果这个问题也正在困扰你，看看下文也许能给你一些启发

<?xml version="1.0" encoding="UTF-8"?><MyXML xmlns="http://www.ttt.com/ttt-TrdInfo-1-0" xmlns:x="http://www.ttt.com/ttt/metadata.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="res286.xsd"><Hdr><ReqId>001</ReqId><Tid>1002</Tid><Cid>500</Cid><user>cuishen</user><Mname>supermarket</Mname> <pwd>543200210</pwd></Hdr><Car><Flg>T</Flg><Cod>ccc</Cod><Door>kkk</Door><mktId>b01</mktId><Key><KeyID>t01</KeyID></Key></Car></MyXML>

解析代码

import java.io.File;import java.util.List;import java.util.Map;import java.util.HashMap;import org.dom4j.Document;import org.dom4j.Element;import org.dom4j.XPath;import org.dom4j.Attribute;import org.dom4j.io.SAXReader;import org.dom4j.DocumentException;public class ReadMyXML{public static void main(String args[]){File xmlFile = new File("c:/myXML.xml");SAXReader xmlReader = new SAXReader();try{Document document = xmlReader.read(xmlFile);///*测试代码适用于读取xml的节点HashMap xmlMap = new HashMap();xmlMap.put("mo","http://www.ttt.com/ttt-TrdInfo-1-0");XPath x = document.createXPath("//mo:ReqId");x.setNamespaceURIs(xmlMap);Element valueElement = (Element)x.selectSingleNode(document);System.out.println(valueElement.getText());//*/}catch(DocumentException e){e.printStackTrace();}}}

上面就是运用dom4j解析带命名空间的xml文件的节点的例子，只要给XPath设置默认的命名空间就行了，这个xml文件尽管定义了其他命名空间，但是没有用到它，所以不必管它，那个HashMap里的键是随便定义的字符串，值就是默认的命名空间对应的字符串。document.createXPath()里传的参数是要读取的节点的XPath，即“//”+ HashMap里的键名 +“:”+ 要读取的节点名组成的字符串，简单吧，后面怎么做我就不用说了吧^_^
如果要读取的是xml文件里的属性该怎么办呢，不用急，看看下面的例子你就明白了，原理一样，只要在造XPath字符串的时候在属性前加个“@”就行了。

XML

<?xml version="1.0" encoding="UTF-8"?><MyXML xmlns="http://www.ttt.com/ttt-TrdInfo-1-0" xmlns:x="http://www.ttt.com/ttt/metadata.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="res286.xsd"><Hdr ReqId="001" Tid="1002" Cid="500" user="cuishen" Mname="supermarket" pwd="543200210"/><Car Flg="T" Cod="ccc" Door="kkk" mktId="b01"><Key KeyID="t01"/></Car></MyXML>

解析代码

import java.io.File;import java.util.List;import java.util.Map;import java.util.HashMap;import org.dom4j.Document;import org.dom4j.Element;import org.dom4j.XPath;import org.dom4j.Attribute;import org.dom4j.io.SAXReader;import org.dom4j.DocumentException;public class ReadMyXML2{public static void main(String args[]){File xmlFile = new File("c:/myXML2.xml");SAXReader xmlReader = new SAXReader();try{Document document = xmlReader.read(xmlFile);///*测试代码解析xml的属性HashMap xmlMap = new HashMap();xmlMap.put("mo","http://www.ttt.com/ttt-TrdInfo-1-0");XPath x = document.createXPath("//mo:Hdr/@ReqId");x.setNamespaceURIs(xmlMap);Attribute valueAttribute = (Attribute)x.selectSingleNode(document);System.out.println(valueAttribute.getText());//*/}catch(DocumentException e){e.printStackTrace();}}}

使用DOM4J的XMLWriter输出UTF-8编码的XML文件时，出现乱码。

首先，设置输出的编码，在这我们使用UTF-8

OutputFormat format = OutputFormat.createPrettyPrint(); format.setEncoding("utf-8");

输出代码

try { output = new XMLWriter(new FileWriter("entity.xml"), format); output.write(document); output.close(); } catch (IOException e) { e.printStackTrace(); }

上面的输出如果有中文，可以会出现乱码的问题，将上面的FileWriter改成FileOutputStream便可以了。

try {output = new XMLWriter(new FileOutputStream("entity.xml"), format);output.write(document);output.close(); } catch (IOException e) {e.printStackTrace(); }

另附一篇编码解决方法

这几天开始学习dom4j，在网上找了篇文章就开干了，上手非常的快，但是发现了个问题就是无法以UTF-8保存xml文件，保存后再次读出的时候会报“Invalid byte 2 of 2-byte UTF-8sequence.”这样一个错误，检查发现由dom4j生成的这个文件，在使用可正确处理XML编码的任何的编辑器中中文成乱码，从记事本查看并不会出现乱码会正确显示中文。让我很是头痛。试着使用GBK、gb2312编码来生成的xml文件却可以正常的被解析。因此怀疑的dom4j没有对utf-8编码进行处理。便开始查看dom4j的原代码。终于发现的问题所在，是自己程序的问题。
　　在dom4j的范例和网上流行的《DOM4J 使用简介》这篇教程中新建一个xml文档的代码都类似如下
　　 public void createXML(String fileName) {
　　 document．nbspdoc = org.dom4j.document．elper.createdocument．);
　　 Element root = doc.addElement("book");
　　 root.addAttribute("name", "我的图书");
　　 Element childTmp;
　　 childTmp = root.addElement("price");
　　 childTmp.setText("21.22");
　　 Element writer = root.addElement("author");
　　 writer.setText("李四");
　　 writer.addAttribute("ID", "001");
　　 try {
　　 org.dom4j.io.XMLWriter xmlWriter = new org.dom4j.io.XMLWriter(
　　 new FileWriter(fileName));
　　 xmlWriter.write(doc);
　　 xmlWriter.close();
　　 }
　　 catch (Exception e) {
　　 System.out.println(e);
　　 }
　　 }
　　在上面的代码中输出使用的是FileWriter对象进行文件的输出。这就是不能正确进行文件编码的原因所在，java中由Writer类继承下来的子类没有提供编码格式处理，所以dom4j也就无法对输出的文件进行正确的格式处理。这时候所保存的文件会以系统的默认编码对文件进行保存，在中文版的window下java的默认的编码为GBK，也就是所虽然我们标识了要将xml保存为utf-8格式但实际上文件是以GBK格式来保存的，所以这也就是为什么能够我们使用GBK、GB2312编码来生成xml文件能正确的被解析，而以UTF-8格式生成的文件不能被xml解析器所解析的原因。
　　好了现在我们找到了原因所在了，我们来找解决办法吧。首先我们看看dom4j是如何实现编码处理的
　　 public XMLWriter(OutputStream out) throws UnsupportedEncodingException {
　　 //System.out.println("In OutputStream");
　　 this.format = DEFAULT_FORMAT;
　　 this.writer = createWriter(out, format.getEncoding());
　　 this.autoFlush = true;
　　 namespaceStack.push(Namespace.NO_NAMESPACE);
　　 }
　　 public XMLWriter(OutputStream out, OutputFormat format) throws UnsupportedEncodingException {
　　 //System.out.println("In OutputStream,OutputFormat");
　　 this.format = format;
　　 this.writer = createWriter(out, format.getEncoding());
　　 this.autoFlush = true;
　　 namespaceStack.push(Namespace.NO_NAMESPACE);
　　 }
　　 /**
　　 * Get an OutputStreamWriter, use preferred encoding.
　　 */
　　 protected Writer createWriter(OutputStream outStream, String encoding) throws UnsupportedEncodingException {
　　 return new BufferedWriter(
　　 new OutputStreamWriter( outStream, encoding )
　　 );
　　 }
　　由上面的代码我们可以看出dom4j对编码并没有进行什么很复杂的处理，完全通过java本身的功能来完成。所以我们在使用dom4j的来生成我们的XML文件时不应该直接为在构建XMLWriter时，不应该直接为其赋一个Writer对象，而应该通过一个OutputStream的子类对象来构建。也就是说在我们上面的代码中，不应该用FileWriter对象来构建xml文档，而应该使用FileOutputStream对象来构建所以将代码修改入下：
　　 public void createXML(String fileName) {
　　 document．nbspdoc = org.dom4j.document．elper.createdocument．);
　　 Element root = doc.addElement("book");
　　 root.addAttribute("name", "我的图书");
　　 Element childTmp;
　　 childTmp = root.addElement("price");
　　 childTmp.setText("21.22");
　　 Element writer = root.addElement("author");
　　 writer.setText("李四");
　　 writer.addAttribute("ID", "001");
　　 try {
　　 //注意这里的修改
　　 org.dom4j.io.XMLWriter xmlWriter = new org.dom4j.io.XMLWriter(
　　 new FileOutputStream(fileName));
　　 xmlWriter.write(doc);
　　 xmlWriter.close();
　　 }
　　 catch (Exception e) {
　　 System.out.println(e);
　　 }
　　 }
　　
　　至此DOM4J的问题编码问题算是告一段落，希望对此文章对其他朋友有用。

推荐阅读

bit
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
int
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
char
Java反射机制详解及应用场景

本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例，帮助读者更好地理解和使用Java反射。 ... [详细]

蜡笔小新 2024-11-13 16:08:08
instance
自定义 Android 圆形进度条视图，支持显示数字和中心文字

本文介绍了一种自定义的Android圆形进度条视图，支持在进度条上显示数字，并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现，详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]

蜡笔小新 2024-11-10 13:04:42
int
在C#中开发MP3播放器时，如何选择字典或数组来处理元数据？

在C#中开发MP3播放器时，我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构，如字典或数组，对于优化性能至关重要。字典能够提供快速的键值对查找，而数组则在连续存储和遍历方面表现优异。根据具体需求，合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-11-05 12:43:40
instance
技术分享：深入解析GestureDetector手势识别机制

技术分享：深入解析GestureDetector手势识别机制 ... [详细]

蜡笔小新 2024-11-04 13:54:00
const
WCF类型共享的最佳实践

在使用WCF服务时，经常会遇到同一个实体类型在不同服务中被生成为不同版本的问题。本文将介绍几种有效的类型共享方法，以解决这一常见问题。 ... [详细]

蜡笔小新 2024-11-14 17:56:14
char
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
instance
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29
bit
解决多个命令产生相同文件的问题（与Info.plist无关）

本文介绍了如何处理在Xcode构建过程中出现的多个命令生成相同文件的问题，特别是当这些文件与Info.plist无关时。 ... [详细]

蜡笔小新 2024-11-14 05:59:55
bit
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
bit
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
char
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
require
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
char
C#中数值结果的格式化展示方法与技巧

在C#编程中，数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧，如使用格式说明符、自定义格式字符串等，以实现对数值结果的精确控制。通过实例演示，展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]

蜡笔小新 2024-11-11 09:27:57

唯一的你b

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章