项目构想——使用NLP

作者：高远PASTOR | 来源：互联网 | 2023-09-24 15:07

项目构想——使用NLP从旧报纸上搜索新闻原文:https

项目构想——使用 NLP

从旧报纸上搜索新闻

原文:https://www . geesforgeks . org/project-idea-search-news-from-old-press-use-NLP/

我们知道报纸是丰富的知识来源。当一个人需要某个特定话题或主题的一些信息时，他会在网上搜索，但很难从地区地方报纸上获得与我们搜索相关的所有旧新闻文章。因为不是每个地方报纸都提供在线搜索。在这篇文章中，我们将提出一个解决这个问题的想法。

什么项目？

本项目使用旧区域报纸的图像或报纸图像的 pdf 作为数据库的输入。

该模型将使用 Pytesseract 从图像中提取文本。

《侏儒怪》中的文字将会被 NLP 的实践所清理，以简化和消除对我们没有帮助的词语(停止词语)。

数据将以键值对的形式保存，其中键有图像路径，值在图像中有关键字。

搜索:当用户访问网站时，他会在搜索框中键入主题名称或实体名称，然后报纸的图像会加载到屏幕上。

为什么是 NLP？

报纸文章包含许多文章、介词和其他对我们没有用的停止词，所以 NLP 帮助我们删除那些停止词。这也有助于获得独特的词汇。

使用的技术:

我是 NLTK

计算机编程语言

使用的工具:

Google colab

使用的库:

侏儒:图像转文字。

NLTK: 文本预处理，过滤。

熊猫:储存数据帧。

用例图

逐步实施:

库安装

首先，在 colab 上安装所需的库。

Python 3

!pip install nltk !pip install pytesseract !sudo apt install tesseract-ocr # to check if it installed properly # !which tesseract # pytesseract.pytesseract.tesseract_cmd = ( # r'/usr/bin/tesseract' # )

让我们导入所有必要的库:

Python 3

import io import glob import os from PIL import Image import cv2 import pytesseract # /usr/bin/tesseract import pandas as pd import nltk nltk.download('popular') nltk.download('stopwords') nltk.download('wordnet') from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords from nltk.stem.wordnet import WordNetLemmatizer from IPython.display import Image from google.colab.patches import cv2_imshow

前置功能

这将清理文本以获得重要的名称、关键词等。停止词和重复词被下面的函数删除。

Python 3

def pre(text): text = text.lower() tokenizer = RegexpTokenizer(r'\w+') new_words = tokenizer.tokenize(text) stop_words = list(stopwords.words("english")) filtered_words = [] for w in new_words: if w not in stop_words: filtered_words.append(w) unique = [] for w in filtered_words: if w not in unique: unique.append(w) res = ' '.join([str(elem) for elem in unique]) res = res.lower() return res

to_df 函数

当给定图像路径作为参数时，它返回文本变量中的预处理文本。然后，该文本作为参数传递给 pre()。这个函数返回带有文件名和重要文本的字典。

计算机编程语言

def to_df(imgno): text = pytesseract.image_to_string(imgno) out = pre(text) data = {'filename':imgno, 'text':out} return data

推荐阅读

import
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
io
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
import
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
import
Django Admin 管理后台使用指南

本文详细介绍了如何在 Django 项目中使用 Admin 管理后台，包括创建超级用户、启动项目、管理数据模型和修改用户密码等步骤。 ... [详细]

蜡笔小新 2024-11-12 13:27:04
io
使用Netzob逆向未知协议的技术指南

本文详细介绍如何使用Netzob工具逆向未知通信协议，涵盖从基本安装到高级模糊测试的全过程。通过实例演示，帮助读者掌握Netzob的核心功能。 ... [详细]

蜡笔小新 2024-11-14 18:24:15
import
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
jsp
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
import
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
import
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
case
使用Shell脚本高效部署MHA高可用集群

本文介绍了如何利用Shell脚本高效地部署MHA（MySQL High Availability）高可用集群。通过详细的脚本编写和配置示例，展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程，还提高了系统的稳定性和可用性。 ... [详细]

蜡笔小新 2024-11-10 10:15:46
import
iOS 不定参数详解

iOS 不定参数详解 ... [详细]

蜡笔小新 2024-11-14 17:12:05
jsp
解决Parallels Desktop错误15265的方法

本文详细介绍了在使用Parallels Desktop时遇到错误15265的多种解决方案，包括检查网络连接、关闭代理服务器和修改主机文件等步骤。 ... [详细]

蜡笔小新 2024-11-12 05:14:12
select
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
go
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
go
解决CentOS 6.4系统中sda磁盘包含BIOS RAID元数据的问题及专业应对策略

解决CentOS 6.4系统中sda磁盘包含BIOS RAID元数据的问题及专业应对策略 ... [详细]

蜡笔小新 2024-11-04 10:58:23

高远PASTOR

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章