热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Pythonnewspaper3k模块

我们大多数人往往对阅读完整的报纸甚至一篇完整的文章不感兴趣。在这种情况下,我们只想知道文章的关键词、标题或许多这样的小东西,这样我们就不必花那么多时间阅读

我们大多数人往往对阅读完整的报纸甚至一篇完整的文章不感兴趣。在这种情况下,我们只想知道文章的关键词、标题或许多这样的小东西,这样我们就不必花那么多时间阅读一篇完整的文章。当我们只想阅读精选的文章,却不知道如何为自己挑选有用的文章时,这也变得很有用。我们都必须意识到什么是网页抓取以及它是如何工作的。我们也知道网络报废有多重要,以及从一个源网站中提取所有有用的信息对我们有多大帮助。我们也可以在报纸网站上执行这一操作,从那里我们可以获取一篇文章的链接,并从该文章中提取有用的信息。我们可以通过使用 Python 程序来执行所有这些,对于这个任务,Python 为我们提供了一个非常有用的模块,即newspaper3k模块。在本教程中,我们将学习 Python 的newspaper3k模块,我们将学习如何使用该模块使用 Python 程序执行报纸报废和管理。

Python 中的newspaper3k模块

Python 模块中的报纸,基本上是为了从报纸文章中精选有用的信息而设计的。因此,我们可以使用 Python 的newspaper3k模块,通过在 Python 程序中对文章的网络链接进行问题来对文章进行废弃和处理。我们可以从一篇文章中检索所有有用的信息,如标题、关键词等。,通过使用newspaper3k模块的功能。Python 的newspaper3k模块使用了具有网页废弃功能的高级算法,因此可以从报纸网站中提取所有有用的文本。newspaper3k模块在我们日常生活中通常使用的在线报纸网站上工作非常令人惊讶。

注意:我们应该注意到,newspaper3k模块在网上报纸网站上执行网络报废流程。这就是为什么,如果我们同时从一个网站发出多个请求,可能会导致该网站的阻止。因此,每当我们实际需要使用这个模块时,我们都必须相应地使用它。


newspaper3k模块:安装

newspaper3k模块不是 Python 中的内置模块,因此,我们必须首先在系统中安装这个模块,只有在此之后,我们才能从文章的网络链接中收集有用的信息。我们可以使用多种方法从多个来源安装这个newspaper3k模块,但是我们建议的方法是使用画中画安装程序。通过 pip 安装程序,我们可以在命令提示符终端使用以下命令非常容易地安装newspaper3k模块:


pip install newspaper3k

一旦我们将上面给出的命令写入我们设备的终端 Shell,我们就应该按回车键开始安装过程,然后我们必须等待一段时间才能完成安装过程。一旦该newspaper3k模块的安装过程完成,它将在终端 Shell 中向我们显示以下安装成功消息窗口:

Python Newspaper Module
Python Newspaper Module

我们可以看到,Python 的newspaper3k模块已经成功安装在我们的系统中,现在,我们可以通过将其导入 Python 程序来使用newspaper3k模块中的功能来执行报纸报废。

newspaper3k模块:支持的语言

Python 的newspaper3k模块支持它,这就是为什么它变得更加流行的原因,因为人们可以从他们选择的语言中删除新闻文章。newspaper3k模块支持以下语言,并附带其输入代码:

| -你好。不,不。 | 语言 | 语言的输入代码 |
| one | 阿拉伯语 | 阿肯色州 |
| Two | 中国人 | 中文 |
| three | 希腊的 | -他 |
| four | 丹麦的 | 这 |
| five | 意大利的 | 它 |
| six | 德国人 | 需要(demand 的缩写) |
| seven | ...还有更多 | .... |

当我们在程序中为一篇文章的网络链接创建一个实例时,我们必须提供一种语言的输入代码。我们在程序中提供的语言代码将帮助newspaper3k模块执行并使用其特定语言的特定算法集来从文章中抓取和精选。

newspaper3k模块:实施

我们已经在系统中安装了newspaper3k模块,现在我们都想执行它的实现,这样我们就可以理解这个模块是如何工作的。newspaper3k模块的实现也将帮助我们学习如何从文章中挑选多个关键词和有用的信息。但是,在 Python 程序中使用newspaper3k模块 will 之前,我们应该注意到,我们必须首先为文章链接创建一个实例。我们创建的文章实例将使用newspaper3k模块的功能从文章中获取所有信息。因此,首先,我们应该了解文章实例的语法以及其中使用了哪些参数。

创建实例的语法:

按照下面的语法,我们必须在程序中使用来为文章创建一个实例:


instanceName = Article(urlOfArticle, language = "language input code according to the article's language")

从上面写的语法中我们可以看到,我们使用了以下两个参数:


  1. 在这里,我们必须提供文章的网络链接,我们将从这里收集文章中的有用信息。

  2. 语言:我们要提供文章所用语言的输入代码。

我们现在已经学习了创建文章实例的语法,现在可以继续newspaper3k模块的实现部分了。我们将使用下面的示例程序来理解这个newspaper3k模块的实现。

NLTK 模块:NLTK 模块在进行报纸报废的时候也是非常重要的,我们要将这个模块和newspaper3k模块配合使用,才能成功的对一篇文章进行报纸报废。nltk 模块用于对文章的链接执行 NLP,如果不执行 NLP,我们就无法从文章中收集有用的信息。因此,在使用示例中的newspaper3k模块时,我们还必须使用 nltk 模块,并使用程序中的下载(' punkt ')功能下载 nltk 数据。我们还应该确保 ntlk 模块安装在我们的系统中,如果它没有安装在我们的系统中,我们可以使用以下命令来安装它:


pip install nltk

Python Newspaper Module

在完成 ntlk 模块的安装过程后,我们可以继续newspaper3k模块的实现部分,并将其用作执行报纸报废的示例程序。

例 1: 看看下面的 Python 程序,我们用了一篇 TOI 的文章,用newspaper3k模块进行报纸报废:


# Import article from the newspaper module
from newspaper import Article
# Import nltk module
import nltk
# Download ntlk data
nltk.download('punkt')
# URL of the TOI's news article
urlOfArticle = "http:// timesofindia.indiatimes.com/world/china/chinese-expert-warns-of-troops-entering-kashmir/articleshow/59516912.cms"
# Creating instance for the article
instanceOfArticle = Article(urlOfArticle, language="en") # en is for English
# Downloading the article piece from the program
instanceOfArticle.download()
# Parsing the article
instanceOfArticle.parse()
# Performing NLP on the article piece
instanceOfArticle.nlp()
# Extracting title of the article
print("Title of the article:", instanceOfArticle.title)
print("n")
# Extracting texts from the article
print("Text from the article:", instanceOfArticle.text)
print("n")
# Extract summary of the article
print("Summary of the article piece:", instanceOfArticle.summary)
print("n")
# Extracting important keywords of the article
print("Important Keywords of the article:", instanceOfArticle.keywords)
print("n")
print ("We have successfully performed scrapping from the piece of article's link given in the code!")

输出:

Python Newspaper Module

我们已经成功地从代码中给出的文章链接中执行了报废!

说明:

我们首先从程序中的newspaper3k模块和 nltk 模块导入文章,这样我们就可以使用这两个模块的功能来执行报纸报废。之后,我们在 URL 变量中给出了一篇文章的链接(一篇 TOI 的最新文章)。然后,我们使用 article()函数初始化了文章的实例,并在其中给出了初始化后的 URL 作为参数。此外,我们还在 article()函数中提供了带有 URL 变量的语言输入代码。之后,我们使用 download()函数下载程序中的文章,然后使用 parse()函数解析文章。之后,我们在 NLP()函数的帮助下对解析后的文章片段执行自然语言处理。现在,在对解析后的文章执行 NLP 之后,我们能够打印文章中的有用信息。因此,首先,我们使用了”。title "函数打印文章的标题,然后,我们使用。文本”功能。接下来,我们使用打印文章的摘要”。总结”功能,之后,我们使用打印了文章的重要关键词。关键词”功能。

注:我们应该注意到,TOI 不时删除他们的一些文章,因此,示例中给出的 TOI 的这篇文章链接在将来可能不会起作用。因此,在使用这个例子时,我们必须使用另一篇文章的新链接。


newspaper3k模块:一些有用的功能

当我们使用newspaper3k模块执行文章链接的废弃时,我们使用了一些重要的功能来成功完成该任务。这些功能对于执行报纸报废和处理以及在输出中打印重要信息非常有用。在本节中,我们将了解newspaper3k模块的重要功能,如下所示:

| 不,先生 | 函数名 | 功能正常工作 |
| one | 第()条 | 首先,我们必须创建一个文章实例,以便从示例中给出的文章链接中收集任何有用的信息,我们可以使用 article()函数来创建一个。 |
| Two | 下载() | 借助下载()函数,我们可以下载我们在程序中提供的网址的文章。 |
| three | 解析() | 下载文章后,我们必须解析文章,我们可以使用 parse()函数来实现。 |
| four | nlp() | 在从文章中收集任何有用的信息之前,我们还必须对解析后的文章执行 nlp,我们可以使用 NLP()函数来做到这一点。 |
| five | 实例名称.title | 它用来打印文章的标题。 |
| six | instance name . text-执行处理名称.文字 | 如果我们想打印文章的文本,我们可以使用这个函数。 |
| seven | instanceName .关键字 | 这个函数非常有用,因为它打印了文章中所有重要的关键词。 |
| eight | instanceName.summary | 如果我们想打印文章的摘要,可以使用这个功能。 |

这些都是newspaper3k模块的重要功能,我们可以根据自己选择的信息类型(如关键词、标题等)来使用。)我们想从文章中。

结论

我们不可能都阅读完整的报纸,因此,我们只想从文章中获得有用的信息。newspaper3k模块为我们提供了一个选项,我们只能通过对文章执行报纸报废来获取文章的有用信息。我们可以在 Python 程序中使用newspaper3k模块的功能来执行报纸报废,并在输出中打印来自文章链接的所有有用信息。



推荐阅读
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • 本文介绍了一种自定义的Android圆形进度条视图,支持在进度条上显示数字,并在圆心位置展示文字内容。通过自定义绘图和组件组合的方式实现,详细展示了自定义View的开发流程和关键技术点。示例代码和效果展示将在文章末尾提供。 ... [详细]
  • 为了确保iOS应用能够安全地访问网站数据,本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程,可以确保应用始终使用HTTPS协议,从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法,帮助读者快速上手并成功部署SSL证书。 ... [详细]
  • 深入解析Android 4.4中的Fence机制及其应用
    在Android 4.4中,Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中,确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景,本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • 在处理 XML 数据时,如果需要解析 `` 标签的内容,可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式,适用于流式数据处理。具体实现中,可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率,还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容,并提供一个示例代码,帮助开发者快速解决问题。 ... [详细]
  • 在Java Web服务开发中,Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力,以及更简便的部署方式,成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发,包括环境搭建、服务发布和客户端调用等关键步骤,为开发者提供一个全面的实践指南。 ... [详细]
  • 在开发过程中,我最初也依赖于功能全面但操作繁琐的集成开发环境(IDE),如Borland Delphi 和 Microsoft Visual Studio。然而,随着对高效开发的追求,我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe,我构建了一个高度定制化的开发环境,不仅提高了代码编写效率,还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件,使我在日常开发中能够更加得心应手。 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • Python进阶笔记:深入理解装饰器、生成器与迭代器的应用
    本文深入探讨了Python中的装饰器、生成器和迭代器的应用。装饰器本质上是一个函数,用于在不修改原函数代码和调用方式的前提下为其添加额外功能。实现装饰器需要掌握闭包、高阶函数等基础知识。生成器通过 `yield` 语句提供了一种高效生成和处理大量数据的方法,而迭代器则是一种可以逐个访问集合中元素的对象。文章详细解析了这些概念的原理和实际应用案例,帮助读者更好地理解和使用这些高级特性。 ... [详细]
  • 动态壁纸 LiveWallPaper:让您的桌面栩栩如生(第二篇)
    在本文中,我们将继续探讨如何开发动态壁纸 LiveWallPaper,使您的桌面更加生动有趣。作为 2010 年 Google 暑期大学生博客分享大赛 Android 篇的一部分,我们将详细介绍 Ed Burnette 的《Hello, Android》第三版中的相关内容,并分享一些实用的开发技巧和经验。通过本篇文章,您将了解到如何利用 Android SDK 创建引人入胜的动态壁纸,提升用户体验。 ... [详细]
  • 在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu,并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南,帮助读者正确配置虚拟环境,确保所有第三方库都能被正确识别和使用。此外,还提供了一些实用的技巧,如如何检查环境变量配置是否正确,以及如何在多个虚拟环境之间切换。 ... [详细]
  • 本文详细解析了使用C++实现的键盘输入记录程序的源代码,该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用,还为开发者提供了强大的调试和监控工具。通过具体实例,本文深入探讨了C++键盘记录程序的设计与实现,适合需要相关技术的开发者参考。 ... [详细]
  • 【问题】在Android开发中,当为EditText添加TextWatcher并实现onTextChanged方法时,会遇到一个问题:即使只对EditText进行一次修改(例如使用删除键删除一个字符),该方法也会被频繁触发。这不仅影响性能,还可能导致逻辑错误。本文将探讨这一问题的原因,并提供有效的解决方案,包括使用Handler或计时器来限制方法的调用频率,以及通过自定义TextWatcher来优化事件处理,从而提高应用的稳定性和用户体验。 ... [详细]
author-avatar
SATT2389
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有