当前位置: 开发笔记 > 前端 > 正文

XML解析---dom解析和sax解析

作者：説悢沵xb | 来源：互联网 | 2017-05-12 15:28

目前XML解析的方法主要用两种：1、dom解析：（DocumentObjectModel，即文档对象模型）是W3C组织推荐的解析XML的一种方式。使用dom解析XML文档，该解析器会先把XML文档加载到内存中，生成该XML文档对应的document对象，然后把XML文档中的各个标签元素变成

目前XML解析的方法主要用两种： 1、dom解析：（Document Object Model，即文档对象模型）是W3C组织推荐的解析XML的一种方式。使用dom解析XML文档，该解析器会先把XML文档加载到内存中，生成该XML文档对应的document对象，然后把XML文档中的各个标签元素变成

目前XML解析的方法主要用两种：

1、dom解析：（Document Object Model，即文档对象模型）是W3C组织推荐的解析XML的一种方式。
使用dom解析XML文档，该解析器会先把XML文档加载到内存中，生成该XML文档对应的document对象，然后把XML文档中的各个标签元素变成相应的Element对象，文本会变成Text对象，属性会变成Attribute对象，并按这些标签、文本、属性在XML文档中的关系保存这些对象的关系。

缺点：消耗内存，所以使用dom解析XML文档时不能解析太大的XML文档，否则有可能会造成内存溢出。
优点：使用dom解析XML文档可以很方便的执行增删改查操作（可以直接根据节点对应的对象进行操作）。

2、sax解析：Simple API for XML，不是官方标准，但它是XML社区事实上的标准，几乎所有的XML解析器都支持它。

使用sax解析XML文档，该解析器会从上往下读，读一行，解析一行；

优点：因为它解析XML文档是采取读一行，解析一行的方式，所以它不会对内存造成压力。
缺点：不适合执行增删改查的操作（也是因为它解析XML文档时采取的读一行解析一行的方式，所以它不能往回操作），只适合对XML文档进行读取操作。

======================================================================================================

补充：

XML解析开发包：Jaxp（sun）、Jdom、dom4j；

======================================================================================================

调整JVM内存大小：

当我们要解析的XML文档内存比较大、而且要对该XML中的节点数据进行相关的操作时，使用这两种解析方式显然都会不方便，这时就需要调整JVM内存的大小了。

JVM默认的允许最大内存容量是64M（根据jdk的版本不同，默认的最大容量值不一样，jdk5.0版本的是64MB，jdk7版本的是170MB）。

调整JVM内存大小的方法（相应的命令为：-Xmx内存大小值单位）：

在Eclipse中的项目导航框中右击相应的Java程序》》Run As》》Open Run Dialog...》》打开Run对话框》》选择Arguments选项，在开窗口中有两个输入框，第一个是程序的参数输入框，第二个是VM的参数输入框，在第二个VM的参数输入框中输入Xmx200M》》点击右下角的Run按钮，执行相应的Java程序，就不会报OutOfMemoryError的错误了。

======================================================================================================

XML解析开发包：
1、JAXP：JAXP开发包是J2SE的一部分，它由javax.xml、org.w3c.dom、org.xml.sax包及其子包组成。
在javax.xml.parsers包中，定义了几个工厂类，程序员调用这些工厂类，可以得到XML文档的dom或sax的解析器，从而实现对XML文档的解析。

首先、创建工厂：
DocumentBuilderFactory factory = DocumentBuilderFactroy.newInstance();//因为DocumentBuilderFactory类是抽象类，不能new出它的对象只能调用它的静态方法获取它的对象。
其次、得到dom解析器：
DocumentBuilder builder = factory.newDocumentBuilder();
然后、加载XML文档，得到代表文档的Document对象：
Document document = builder.parse("*.xml");
拿到代表XML文档的document对象就可以操作XML文档中的各个节点了。

======================================================================================================

补充：
dom解析下，XML文档的每一个组成部分都会用一个对象表示，例如标签用Element，属性用Attribute，但不管什么对象，都是Node的子类，所以在开发中可以把获取到的任意节点都当作Node对待。

XML编程（CRUD）
create、read、update、delete
添加、查询、更新、删除；

除了这两种解析方法外，还有另外的解析方法。。。
======================================================================================================

在对XML文档进行添加、修改和删除操作时，不仅要更新document对象还要更新XML文档（把更新后的document对象重写到XML文档中）。

javax.xml.transform包中的Transformer类用于把代表XML文档的Document对象转换为某种格式后输出，例如把XML文档应用样式表后转换成一个HTML文档。利用这个对象，当然也可以把Document对象又重新写入到一个XML文档中。源和目的地。可以通过：
javax.xml.transform.dom.DOMSource类来关联要转换的document对象，
用javax.xml.transform.stream.StreamResult对象来表示数据的目的地。
Transformer对象通过TransformerFactory获得。
Transformer类通过transform方法完成转换操作，该方法接收个
（工厂对象（TransformerFactory）》》》转换器对象（Transformer）》》》转换方法(transform（DOMSource 源，StreamResult 目的地）;)）
======================================================================================================

SAX解析：

SAX解析采用事件处理的方式解析XML文件，利用SAX解析XML文档，涉及两个部分：解析器和事件处理器：
解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个指定部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的XML文件内容作为方法的参数传递给事件处理器。
事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松的得到SAX解析器解析到的数据，从而可以决定如何对数据进行处理。

1、创建解析工厂；
SAXParserFactory fac = SAXParserFactory.newInstance();

2、获取解析器；
SAXParser sp = fac.newSAXParser();

3、得到读取器；
XMLReader re = sp.getXMLReader();

4、设置内容处理器；
re.setContentHandler(new ContentHandler(){ /*实现接口的代码块*/});
(或者：re.setContentHandler(new DefaultHandler());/*参数为DefaultHandler类的子类*/)
第一种方法是解析整个XML文档，第二种方法可以只解析某个标签；
其实还有一种内容处理器，也是先继承DefaultHandler类，然后把解析的内容封装到bean对象中。

5、读取XML文档内容；
re.parse("*.xml");

======================================================================================================

XML解析开发包：

2、dom4j：

SAXReader saxReader = new SAXReader();
Document doc = saxReader.read(new File());

OutputFormat format = OutputFormat.createPrettyPrint();//该对象标明格式按漂亮的格式进行输出；另外还有一个对象是按紧凑的格式进行输出；
format.setEncoding("UTF-8");

XMLWriter xmlWriter = new XMLWriter(new FileOutputStream(),format);
xmlWriter.write(doc);//如果xmlWriter对象采用的流是字节流，那么该对象会先把doc对象按format对象给定的编码格式转换成字节，然后把数据交给字节流进行操作。
writer.close();//最后要关闭资源

======================================================================================================

XPath:
使用XPath可以快速定位到某个节点；
List list = document.selectNodes("//foo/bar");//获取foo节点下的所有bar节点；

Node node = document.selectSingleNode("//foo/bar");//获取foo节点下的第一个bar节点；

单斜杠是绝对路径即从根节点开始；
双斜杠是相对路径即从所有当前节点开始；

星号“*”表示选择所有由星号之前的路径所定位的元素；
例如：
/aa/bb/*表示选择所有路径依附于/aa/bb的元素；
/*/*/*/bbb表示选择所有的有3个祖先元素的bbb元素；
//bb[@*]表示选择有任意属性的bb元素；
//bb[not(@*)]表示选择没有属性的bb元素；
//bb[@id=&＃39;b1&＃39;]表示选择含有属性id=&＃39;b1&＃39;的bb元素；

推荐阅读

html
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
html
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
html
程序员妻子吐槽：丈夫北漂8年终薪3万，存款情况令人意外

一位程序员的妻子在网上分享了她丈夫在北京工作八年的经历，月薪仅3万元，存款情况却出乎意料。本文探讨了高学历人才在大城市的职场现状及生活压力。 ... [详细]

蜡笔小新 2024-12-28 11:14:15
html
深入理解Java泛型：JDK 5的新特性

本文详细介绍了Java泛型的概念及其在JDK 5中的应用，通过具体代码示例解释了泛型的引入、作用和优势。同时，探讨了泛型类、泛型方法和泛型接口的实现，并深入讲解了通配符的使用。 ... [详细]

蜡笔小新 2024-12-26 11:15:56
html
TechStride 网站

TechStride 成立于2014年初，致力于互联网前沿技术、产品创意及创业内容的聚合、搜索、学习与展示。我们旨在为互联网从业者提供更高效的新技术搜索、学习、分享和产品推广平台。 ... [详细]

蜡笔小新 2024-12-24 20:04:54
html
Eclipse 开发环境配置与插件安装指南

本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件，包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-24 19:47:22
html
HTTP请求与响应机制详解

本文深入探讨了HTTP请求和响应对象的使用，详细介绍了如何通过响应对象向客户端发送数据、处理中文乱码问题以及常见的HTTP状态码。此外，还涵盖了文件下载、请求重定向、请求转发等高级功能。 ... [详细]

蜡笔小新 2024-12-23 20:40:08
html
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
html
Python 学习是否需要先掌握 C 语言？

Python 是一门非常适合编程入门的语言，很多人疑惑是否需要先学习 C 语言才能更好地掌握 Python。本文将详细探讨这个问题，并为初学者提供专业的建议。 ... [详细]

蜡笔小新 2024-12-23 18:22:45
view
Struts与Spring框架的集成指南

本文详细介绍了如何将Struts和Spring两个流行的Java Web开发框架进行整合，涵盖从环境配置到代码实现的具体步骤。 ... [详细]

蜡笔小新 2024-12-23 17:46:59
view
Java编程的核心要素与关键技术

本文探讨了Java编程的核心要素，特别是其面向对象的特性，并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]

蜡笔小新 2024-12-23 12:58:30
json
深入理解ExtJS：从入门到精通

本文详细介绍了ExtJS的功能及其在大型企业前端开发中的应用。通过实例和详细的文件结构解析，帮助初学者快速掌握ExtJS的核心概念，并提供实用技巧和最佳实践。 ... [详细]

蜡笔小新 2024-12-21 15:41:04
js
Eclipse 中 JSP 开发环境配置指南

本文详细介绍了如何在 Eclipse 集成开发环境中配置 JSP 运行环境，包括必要的软件下载、Tomcat 服务器的配置以及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-12-18 19:54:43
js
初探Java编程：从入门到实践

本文旨在为初学者提供Java编程的基础知识，涵盖程序、算法、流程图的概念，以及JDK环境的配置和Eclipse的使用方法。 ... [详细]

蜡笔小新 2024-12-18 15:08:47
html
Java EE SDK 安装指南及常见问题解决

本文详细介绍了如何正确安装Java EE SDK，并解决在安装过程中可能遇到的问题，特别是关于servlet代码在Apache Tomcat 10中无法运行的情况。 ... [详细]

蜡笔小新 2024-12-18 12:09:19

説悢沵xb

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章