热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PDF中的内嵌字体问题

写过论文的人大都清楚,最终提交的cameraready版本中的字体必须是Type1或TrueType的,而且所有字体都要内嵌到pdf文件中。最近正好遇到这样一个问题,camerar

写过论文的人大都清楚,最终提交的cameraready版本中的字体必须是Type 1或True Type的,而且所有字体都要内嵌到pdf文件中。最近正好遇到这样一个问题,cameraready提交后,编辑发现一些字体没内嵌,只能退回来修改。支持查看字体是否内嵌的工具很多,比如Adobe Reader、Evince、Foxit Reader等等,通常在“文件->属性->字体”这样的菜单下。下图是Evince的截图,可以看到Fonts标签里显示了字体列表,包括字体的类型和是否内嵌。

《PDF中的内嵌字体问题》

要找到哪些字体没有内嵌是非常容易的,但要搞清楚这些字体对应哪些内容就不容易了。经验有时候能起些作用,比如采用常用的Latex工具(例如CTex套件、TexEditor、TexStudio、Sublime-Text Latex Tools等等)编译出来的pdf中,正文部分的字体往往都是内嵌的,真正容易出问题的是那些图片,尤其是用Visio等工具生成的图片,这些工具导出pdf的时候,不一定会把字体内嵌。所以,可以打开论文的图片文件夹,把pdf图片挨个点开看看。

如果还是找不到还可以利用一些工具,比如xpdf(http://www.foolabs.com/xpdf/)中的pdffonts。在命令行输入:pdffonts xxx.pdf就能打印出pdf文件使用的所有字体,以及它们是否被内嵌了(下图中emb列)。除此以外,还有一个重要的信息,就是字体对应的编号(下图中的object列)。这个数字描述了在pdf文档中字体的唯一编号,所以通过该数字可以找到使用该字体的内容。

《PDF中的内嵌字体问题》

图中显示的Times New Roman字体没有内嵌,并且对应的object编号为161。用文本编辑器(如Vim、Sublime Text、Notepad++等)打开pdf文件后搜索“161 0 obj”,会看到类似下图的结果。在pdf中,obj和endobj之间的部分构成了一个最基本的object单元。要想更多了解pdf的结构,可以参考这篇文章,相比其它文章,作者写得更加浅显易懂。

《PDF中的内嵌字体问题》

上图中的object只是定义了字体本身,要找到使用该字体的内容还需要在pdf文档中搜索“161 0 R”,看看引用”161 0 obj”的object是什么。按照这个方法,在pdf中找到的内容如下图所示(由于object内容太长,引用的部分没有显示在图中),很容易就能发现字体其实用在图片中。

《PDF中的内嵌字体问题》

如果这些字体出现在正文里,可能需要一些额外的步骤,因为pdf的正文(记作stream object)一般是压缩过的(通常采用zlib中的flatecode),所以看到的都是乱码。为了看到这些内容,可以用pdftk或qpdf提供的工具来解压,对应的命令分别为:

pdftk test.pdf output test-d.pdf uncompress

qpdf --stream-data=uncompress input.pdf output.pdf

我在linux下发现pdftk工作不正常,最终是用qpdf解压的,stackoverflow上说可能是由bug造成的,不过用什么工具其实无所谓的。

后记:在了解pdf格式的过程中,发现其实pdf的设计非常灵活,或者说有点灵活过了头,导致编写parser成为一个极其复杂无趣的过程。那些成熟的pdf阅读器都是经过相当长的演化,不断修改才能兼容各种奇葩的pdf格式定义。为什么不把格式定的“死板”一些呢?这样对文件处理很有好处的呀,哪怕牺牲那么点效率。


推荐阅读
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • 怎么在PHP项目中实现一个HTTP断点续传功能发布时间:2021-01-1916:26:06来源:亿速云阅读:96作者:Le ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 抽空写了一个ICON图标的转换程序
    抽空写了一个ICON图标的转换程序,支持png\jpe\bmp格式到ico的转换。具体的程序就在下面,如果看的人多,过两天再把思路写一下。 ... [详细]
  • PHP连接MySQL的2种方法小结以及防止乱码【PHP】
    后端开发|php教程PHP,MySQL,乱码后端开发-php教程PHP的MySQL配置报错信息:ClassmysqlinotfoundinAnswer:1.在confphp.ini ... [详细]
  • 本文实例讲述了Android编程实现读取工程中的txt文件功能。分享给大家供大家参考,具体如下:1.众所周知,Android的res文件夹 ... [详细]
  • Sublime Text 3 + LiveReload + Chrome
    安装LiveReload在SublimeText3中安装LiveReload。macOS快捷键⌘+⇧+P,输入InstallPackage,搜索LiveReload并回车安装。(W ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • zabbix中文乱码的问题
    在使用zabbix时,有时候会出现中文乱码的问题,如下:因为zabbix自身对中文简体的支持不完善,需要我们手动的去上传新的字体进行替换:1、在windows获取字体库文件在Windows上的 ... [详细]
  • mysql字符集和表字符集_Mysql数据库表引擎与字符集
    Mysql数据库表引擎与字符集1.服务器处理客户端请求其实不论客户端进程和服务器进程是采用哪种方式进行通信,最后实现的效果都是:客户端进程向服务器进程发送一段文本(MySQL语句) ... [详细]
  • SublimeText2(后面简称为subl)是一个很强大的跨平台代码编辑器,要让它更强大起来还需要一番配置。本文涉及的配置如下:设置subl支持命令行启动安装PackageCon ... [详细]
author-avatar
等待的承诺灬_231
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有