热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

网页转文字版pdf

因为想把网页转化成文字版pdf供注释,高亮等操作,我尝试了很多的方法,现总结于此:(1)adobe,福昕阅读器等虚拟打印生成pdf:这种方法是我最先想到的,但是打印出来的是图片版本的pdf,不

因为想把网页转化成文字版pdf供注释,高亮等操作,我尝试了很多的方法,现总结于此:

(1)adobe,福昕阅读器等虚拟打印生成pdf:

这种方法是我最先想到的,但是打印出来的是图片版本的pdf,不可编辑及注释,其实虚拟打印我早预料到不是文字版pdf可能性很大。

(2)网页另存为pdf:

这个根据浏览器和操作系统的不同操作稍微有些差异,不过大同小异。保存的确实是文字版pdf,但是对于充斥着大量数学公式的网页(维基百科),生成的pdf效果及其糟糕,基本上公式都挂掉了,在pdf中是空置的区域。不过我注意到图表在生成的pdf中还算凑合,显示正常,分辨率略低。这种方法,似乎对于一般的文字+普通图片的网页都够用了,如维基百科这样的网页相关的公式应该都是用类似LaTex的引擎生成的吧,所以普通图片生成成功,而它(公式)不可以。

(3)html 在线转化pdf:

我尝试了几个搜索引擎排在前面的网站,要么是页眉页脚打广告(文字版超级链接),要么是对于数学公式处理算不上完美(我用www.htmlpdf.com有一处,公式没有成功,出现马赛克)

PS: www.htmlpdf.com 这个网站还是不错的~,生成速度快,效果也还可以,没有推广广告的页眉页脚,不用软件~~~

 

(4)adobe acrobat:

我用的是adobe acrobat Pro DC,通过创建pdf(用网页链接来创建).用默认的设置,我的例子(维基百科)中,会出现一些问题:

  i)图片的公式过大,矢量的文字过小,这个可以在acrobat软件中:在创建pdf前的html的高级设置里通过调整文字的相关属性来解决。

      PS:此处还没有预览功能,“预览”只在最后决定要不要这个效果的pdf时才可见,这个文字调节大小只能是摸石头过河了,而且这个一般默认就得啦,我尝试了,这个调节大小也只是调节acrobatic它所认定的部分,和我们所想的还不是一回事,如果贸然调节,可能会出现参差不齐的文字效果!!!在这一点上,还是www.htmlpdf.com这个网站的效果好!!

  2)每一页pdf的页眉页脚会给出“源网页”的“文字”超链接,这个效果就和(3)中的有些软件给出的推广文字链接一样,这个也可以在acrobat高级设置里进行设置!!


推荐阅读
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 本文详细探讨了网站流量统计中常用的三个关键指标:页面浏览量(PV)、独立访客数(UV)和独立IP数(IP)。通过分析这些指标的定义、计算方法及其应用场景,帮助网站运营者更好地理解用户行为,优化网站内容与用户体验。 ... [详细]
  • 本文介绍了MindManager在项目管理中的强大功能,特别是其内置的甘特图工具。通过该工具,用户可以轻松创建和管理项目计划,优化任务分配,并与其他软件无缝集成。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 本文详细介绍了HTML中标签的使用方法和作用。通过具体示例,解释了如何利用标签为网页中的缩写和简称提供完整解释,并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • Babylon.js 实例展示
    探索 Babylon.js 的强大功能,通过全屏演示体验其卓越性能。本文提供在线文档链接和默认渲染管线的源码调试地址,帮助您深入了解 Babylon.js 的工作原理。 ... [详细]
  • 本次考试于2016年10月25日上午7:50至11:15举行,主要涉及数学专题,特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目,并提供解题思路和代码实现。 ... [详细]
  • 网易严选Java开发面试:MySQL索引深度解析
    本文详细记录了网易严选Java开发岗位的面试经验,特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文,读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 中科院学位论文排版指南
    随着毕业季的到来,许多即将毕业的学生开始撰写学位论文。本文介绍了使用LaTeX排版学位论文的方法,特别是针对中国科学院大学研究生学位论文撰写规范指导意见的最新要求。LaTeX以其精确的控制和美观的排版效果成为许多学者的首选。 ... [详细]
  • 本文详细介绍了福昕软件公司开发的Foxit PDF SDK ActiveX控件(版本5.20),并提供了关于其在64位Windows 7系统和Visual Studio 2013环境下的使用方法。该控件文件名为FoxitPDFSDKActiveX520_Std_x64.ocx,适用于集成PDF功能到应用程序中。 ... [详细]
author-avatar
cf15ron
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有