热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

java中openoffice_巧用Java读取OpenOffice文档

由于项目的需要,我们需要在Java程序读取OpenOffice文档,并对数据进行处理。本文介绍了如何使用ODFToolkit去读取OpenOfficeS

由于项目的需要,我们需要在Java程序读取OpenOffice文档,并对数据进行处理。本文介绍了如何使用ODF Toolkit去读取OpenOffice SpreadSheet的内容。

1. OpenOffice Spreedsheet 文档

假设我们需要读取如下图所示的OpenOffice Spreedsheet 文档:

672ccdc038a3c0db008e4bcd399d2579.png

上面的文档也包含在本文的源代码中。

OpenOffice文档其实是以XML格式存储的,其中包含了文档内容和格式控制等。

如果使用unzip工具解压缩,你会发现解压缩后,一个OpenOffice文档其实包含如下的内容:

1defee26ca689106ae5ce7f6ad20360b.png

2. 下载 ODF4j

Odf4j 是用于读取OpenOffice 文档(ODF)的纯Java的工具包。目前虽然还没有正式发布,但是已经具备了处理OpenOffice文档的基本功能。

使用Odf4j,Java程序员可以非常容易地创建,修改OpenOffice 文档。

3. 使用 ODF4j 读取 OpenOffice 文档

使用ODF4j读取OpenOffice文档包括两个层次:Package Layer和Document Layer。

Package Layer

在Package Layer,OpenOffice文档里的各种资源是作为一个命名的资源来处理。在这个层次一般用于操作二进制文件,比如图片等。

Document Layer

在Document Layer,主要正对文档的内容进行操作。在这个层次,文档内容是作为层次结构被操作的,因为文档的内容是以XML文件方式保存,所以可以非常方便的以 DOM方式来操作。下面的示例中,将以Document Layer来读取一个OpenOffice Spreadsheet文档。

4. 读取 OpenOffice Spreadsheet 文档

import org.openoffice.odf.OdfPackage;

import org.openoffice.odf.OpenDocumentFactory;

import org.openoffice.odf.spreadsheet.SpreadsheetDocument;

import org.w3c.dom.Document;

import org.w3c.dom.Element;

import org.w3c.dom.NodeList;

......

OdfPackage odfPackage;

odfPackage = (SpreadsheetDocument) OpenDocumentFactory.load(path);

Document doc = odfPackage.getDocument(OdfPackage.STREAMNAME_CONTENT);

Element root = doc.getDocumentElement();

......

Source code

当获得root Element后,我们就可以像读取xml文件一样读取OpenOffice文档中的内容。

5. 程序运行结果

下载本文的源代码,进入NetBean Project的根目录,然后运行:ant run。运行结果如下图所示:

96787ab424f3c0fca2e7c9cd96b2fff0.png

参考资料: Element

1. ODF4j: http://wiki.services.openoffice.org/wiki/Odf4j

2. 本文的Source code。

标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,尊重他人劳动成果

a6e1590ae4b228073faff3806334194e.png0

好文不易,鼓励一下吧!



推荐阅读
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件,通过解压可以访问其中的图片资源。此外,我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • Android LED 数字字体的应用与实现
    本文介绍了一种适用于 Android 应用的 LED 数字字体(digital font),并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景,能够增强视觉效果。 ... [详细]
  • 掌握远程执行Linux脚本和命令的技巧
    本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令,帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释,让初学者也能轻松上手。 ... [详细]
  • 本文探讨了 Objective-C 中的一些重要语法特性,包括 goto 语句、块(block)的使用、访问修饰符以及属性管理等。通过实例代码和详细解释,帮助开发者更好地理解和应用这些特性。 ... [详细]
  • 本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ... [详细]
  • andr ... [详细]
  • Scala 实现 UTF-8 编码属性文件读取与克隆
    本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件,并实现属性文件的克隆功能。通过这种方式,可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]
  • Python 异步编程:深入理解 asyncio 库(上)
    本文介绍了 Python 3.4 版本引入的标准库 asyncio,该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio,以及它如何简化并发编程的复杂性,并详细介绍其核心概念和使用方法。 ... [详细]
  • 本文详细介绍了如何使用Spring Boot进行高效开发,涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]
author-avatar
手机用户2502858701
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有