使用JavaScript实现对PDF的全文索引

作者：抬头看着海 | 来源：互联网 | 2023-05-18 21:49

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd

我曾今在一个售卖法律和财务数据库访问方案（他们称之为“智能信息”）的公司工作。大多数法庭记录都是通过PACER以PDF形式提供的，一个站点被特地开发出来用于发布法庭记录。基于这个数据集的一个意义重大的数据库产品需要建立一条处理管道，它能够从超过两亿分份PDF文档中提取文本并对其进行索引，展示美国超过20年的诉讼记录。这些处理过程将花费数月的机器时间，使得软件工作组在构建它们时的面临很大的压力。在这一处理过程中的早期有个一步骤是从电子文档化的PDF中提取出内容，其在稍后的将会被送入一个NLP处理阶段——显示关键字，标注部分词类，识别实体，而然后发出报告（如果你对此感兴趣，可以检索 Python中的自然语言处理作为入门 - 再读一读这里我的评论）

Mozilla实验室最近已经收到了许多为一个项目做出的尝试，这一项目的野心令人印象深刻：在一个浏览器中仅仅使用Javascript来对PDF进行渲染。PDF文档的结构令人难以置信的复杂，因此要祝pdf.js工作组的兄弟们好运了！在另外一条不同的尝试道路上，Oliver Nightingale使用Javascript实现了一个的Javascript全文索引装置——将这两个项目结合起来，就可以在web浏览器中完全再现PDF处理管道。

站在一名新手的角度来看，全文索引能用户可以搜索非结构化的文档，也可以依据由词频决定的相关度分值来对结果文档进行排名。索引装置会计算每一个份文档中每一个词出现的次数，并且对文本进行最轻微的修改，以移除内容中跟搜索无关的一些文本语法特性。例如，它可能会提取出“-ing”，将元音部分变更为一般的表示形式。如果一个词语频繁出现在整个文档集中，索引装置会自动将其识别为不那么重要的关键词，而它对排名结果的影响将会被最小化。这同Google PageRank背后的基本概念是不同的，后者是基于一个引征图来提升文档排名的。

大多数数据库软件都提供了对全文索引的支持，但如果是大规模安装的话，通常会使用功能更加强大的工具来进行处理。开源产品中主要是Solr/Lucene，Solr是围绕Lucene库封装的一个web应用。它们都是用Java编写的。

构造一个Javascript全文索引装置使得搜索在诸如Phonegap引用，终端用户机或者加密存储的用户数据这些之前很难实现搜索功能的地方成为可能。有一整个领域只研究加密的搜索指数，而在客户机上对数据进行索引和加密看上去像是围绕这个天生具有挑战性的问题想出的一个好办法。

为了测试这个处理管道，我们首先来看看如何从PDF中提取文本，这些文本将在稍后被插入到一个全文索引中。pdf.js的代码是很有启发性的，其中Mozilla的开发者们使用了一些并不常用的浏览器特性，举个例子，Web工作者，会要你设置后台的处理线程。

pdf.js 的 API大量使用约定来持有代码中未完成操作的引用。你会使用回调来对它们进行操作：

var pdf = PDFJS.getDocument('http://www.pacer.gov/documents/pacermanual.pdf');

var pdf = PDFJS.getDocument('pacermanual.pdf');
pdf.then(function(pdf) {
// this code is called once the PDF is ready
});

这样的API看起还不怎么成熟——理想情况下你应该能够写出 promise.then(f(x)).then(g(x)).then(h(x)) 等等代码，但现在那还是不可用的。

约定模式在渲染PDF方面起了很大的作用，因为它为并行的渲染处理留下了空间。对于只是从一份PDF中提取出文本感觉上好像有大量的工作要做——你必须相信你的回调会按照秩序运行并且跟踪到哪个是在最后。

下面的示例代码演示了提取PDF内容,并在浏览器中控制台日志中输出:

‘use strict’;
var pdf = PDFJS.getDocument('http://www.pacer.gov/documents/pacermanual.pdf');

var pdf = PDFJS.getDocument('pacermanual.pdf');
pdf.then(function(pdf) {
var maxPages = pdf.pdfInfo.numPages;
for (var j = 1; j <= maxPages; j++) {
var page = pdf.getPage(j);

// the callback function - we create one per page
var processPageText = function processPageText(pageIndex) {
return function(pageData, content) {
return function(text) {
// bidiTexts has a property identifying whether this
// text is left-to-right or right-to-left
for (var i = 0; i str += text.bidiTexts[i].str;
}

if (pageData.pageInfo.pageIndex ===
maxPages - 1) {
// later this will insert into an index
console.log(str);
}
}
}
}(j);

var processPage = function processPage(pageData) {
var cOntent= pageData.getTextContent();

content.then(processPageText(pageData, content));
}

page.then(processPage);
}
});

这并不会识别页眉和图片.如何识别这些内容需要使用渲染代码,需要非常理解PDF命令(PDF可能使用流渲染命令,类似于RTF)

Lunr

创建一个Lunr函数直接添加字段-所有的API都使用JSON类型,以下是一个简单的AIP示例

doc1 = {
id: 1,
title: 'Foo',
body: 'Foo foo foo!'
};

doc2 = {
id: 2,
title: 'Bar',
body: 'Bar bar bar!'
}

doc3 = {
id: 3,
title: 'gary',
body: 'Foo Bar bar bar!'
}

index = lunr(function () {
this.field('title', {boost: 10})
this.field('body')
this.ref('id')
})

// Add documents to the index
index.add(doc1)
index.add(doc2)
index.add(doc3)

更多详情请继续阅读第2页的内容：2013-10/91375p2.htm

推荐阅读

get
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
web
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
default
如何解决TS1219：实验性装饰器功能可能在未来版本中更改的问题

本文介绍了两种方法来解决TS1219错误：通过VSCode设置启用实验性装饰器，或在项目根目录下创建配置文件（jsconfig.json或tsconfig.json）。 ... [详细]

蜡笔小新 2024-11-15 11:43:46
get
获取父类参数类型工具类

packagecom.panchan.tsmese.utils;importjava.lang.reflect.ParameterizedType;importjava.lang. ... [详细]

蜡笔小新 2024-11-15 09:33:44
get
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
get
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
get
Python多线程详解与示例

本文介绍了Python中的多线程编程，包括僵尸进程和孤儿进程的概念，并提供了具体的代码示例。同时，详细解释了0号进程和1号进程在系统中的作用。 ... [详细]

蜡笔小新 2024-11-14 12:47:24
get
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
get
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
default
WPF项目学习.一

WPF项目搭建版权声明：本文为博主初学经验，未经博主允许不得转载。一、前言记录在学习与制作WPF过程中遇到的解决方案。使用MVVM的优点是数据和视图分离，双向绑定，低耦合，可重用行 ... [详细]

蜡笔小新 2024-11-15 11:38:43
get
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
default
Linux常用命令解析：ipcs与ipcrm

本文详细介绍了Linux系统中用于管理IPC（Inter-Process Communication）资源的两个重要命令：ipcs和ipcrm。通过这些命令，用户可以查看和删除系统中的消息队列、共享内存和信号量。 ... [详细]

蜡笔小新 2024-11-14 11:42:14
get
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
get
NX二次开发：UFUN点收集器UF_UI_select_point_collection详解

本文介绍了如何在NX中使用UFUN库进行点收集器的二次开发，包括必要的头文件包含、初始化和选择点集合的具体实现。 ... [详细]

蜡笔小新 2024-11-14 10:18:35

抬头看着海

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章