纸质文件虽然翻阅方便,但归档保存不方便,也不利于后续的查找使用。因此,一些有历史价值、研究意义的纸质文件,通常要进行数字化处理,将其保存为电子文档。
那么,该如何对纸质文档进行数字化处理?本文会结合使用专业的文本识别软件ABBYY FineReader PDF 15来详细讲解文档数字化处理的技巧。
一、将纸质文件转换为文档
ABBYY FineReader PDF 15为我们提供了两种纸质文档数字化处理的方法,第一种是运用扫描仪,将纸质文档扫描为所需的文件类型。
图1:扫描功能
第二种是运用拍摄的方法,将纸质文件拍摄为图像,然后再通过ABBYY FineReader PDF 15的智能OCR文本识别功能,识别图像中的文本。
接下来,我们会重点介绍第二种方法。
图2:OCR高级图像识别功能
二、通过OCR识别图像
我们将拍摄的纸质文档图像导入到ABBYY FineReader PDF 15的OCR编辑器后,可先使用其“编辑图像”功能,对文件的版式进行处理。
图3:编辑图像功能
如图4所示,编辑图像功能是应用ABBYY FineReader PDF 15的图像编辑器对图像进行处理的功能。
建议先使用其中的“建议预处理”功能,对图像进行预处理。
图4:预处理图像
然后,再结合图像的实际情况使用其他的处理功能。比如,当前图像的左边出现一些书边,可使用“修剪”功能,将书边裁剪掉。
图5:修剪图像
然后,由于拍摄的失误,图像的左下角出现了相机的影子,在这种情况下,可使用“漂白背景”功能,让书本的背景呈现为白色。同时,结合使用“消除运动模糊”功能,纠正拍摄时的抖动模糊。
图6:漂白背景
最后,书脊部分文本有一点歪曲,可使用“矫直文本行”功能,纠正歪曲。
图7:矫直文本行
如图8所示,我们已经完成了图像的处理。
图8:完成文本行矫直
三、另存为文档
完成图像的处理后,我们就可以使用ABBYY FineReader PDF 15的另存为功能,将图像保存为所需的电子文档保存。
图9:另存为文档
四、小结
综上所述,我们既可以应用ABBYY FineReader PDF 15的扫描功能,将纸质文件扫描为电子文件,也可以应用ABBYY FineReader PDF 15的高级OCR文本识别功能,对拍摄的纸质文件图像进行文本识别,然后再保存为电子文件格式。