首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:JavaWebCrawler库

作者：如哽在喉_495 | 来源：互联网 | 2023-10-11 11:03

篇首语：本文由编程笔记#小编为大家整理，主要介绍了JavaWebCrawler库相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java Web Crawler库相关的知识，希望对你有一定的参考价值。

我想为实验制作一个基于Java的网络爬虫。我听说如果这是你第一次使用Java制作一个Web爬虫是可行的方法。但是，我有两个重要问题。

我的程序如何“访问”或“连接”到网页？请简要说明一下。（我理解从硬件到软件的抽象层的基础知识，这里我对Java抽象感兴趣）

我应该使用哪些库？我想我需要一个用于连接网页的库，一个用于HTTP / HTTPS协议的库和一个用于html解析的库。

答案

这是您的程序如何“访问”或“连接”到网页。

URL url; InputStream is = null; DataInputStream dis; String line; try { url = new URL("http://stackoverflow.com/"); is = url.openStream(); // throws an IOException dis = new DataInputStream(new BufferedInputStream(is)); while ((line = dis.readLine()) != null) { System.out.println(line); } } catch (MalformedURLException mue) { mue.printStackTrace(); } catch (IOException ioe) { ioe.printStackTrace(); } finally { try { is.close(); } catch (IOException ioe) { // nothing to see here } }

这将下载html页面的源代码。

对于HTML解析，请参阅this

还可以看看jSpider和jsoup

另一答案

我认为jsoup比其他人更好，jsoup运行Java 1.5及更高版本，Scala，android，OSGi和Google App Engine。

另一答案

以下是可用爬虫的列表：

https://java-source.net/open-source/crawlers

但我建议使用Apache Nutch

另一答案

Crawler4j是最适合您的解决方案，

Crawler4j是一个开源Java爬虫，它为爬网提供了一个简单的界面。您可以在5分钟内设置多线程Web爬虫！

还有visit.更多基于Java的网络爬虫工具和每个的简要说明。

另一答案

对于解析内容，我使用的是Apache Tika。

另一答案

现在有一个包含许多基于Java的HTML解析器，支持访问和解析HTML页面。

Jsoup

Jaunt API

HtmlCleaner

JTidy

NekoHTML

TagSoup

Here's是基本比较的HTML解析器的完整列表。

另一答案

我建议你使用HttpClient library。你可以找到here的例子。

另一答案

我更喜欢crawler4j。 Crawler4j是一个开源Java爬虫，它为爬网提供了一个简单的界面。您可以在几个小时内设置多线程Web爬网程序。

另一答案

如果您想了解如何完成这些项目，请查看这些现有项目：

Apache Nutch

crawler4j

gecco

Norconex HTTP Collector

vidageek crawler

webmagic

Webmuncher

典型的爬虫过程是一个循环，包括提取，解析，链接提取和输出处理（存储，索引）。虽然魔鬼在细节，即如何“礼貌”和尊重robots.txt，元标记，重定向，速率限制，URL规范化，无限深度，重试，重访等。

Norconex HTTP Collector flow diagram

流程图由Norconex HTTP Collector提供。

另一答案

你可以探索.apache droid或apache nutch来获得基于java的爬虫的感觉

另一答案

虽然主要用于单元测试Web应用程序，但HttpUnit遍历网站，单击链接，分析表格和表单元素，并为您提供有关所有页面的元数据。我用它来进行Web爬行，而不仅仅是单元测试。 - http://httpunit.sourceforge.net/

推荐阅读

java
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
version
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
java
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
stream
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
java
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
object
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
javascript
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
java
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
php
解决PHP与MySQL连接时出现500错误的方法

本文详细探讨了当使用PHP连接MySQL数据库时遇到500内部服务器错误的多种解决方案，提供了详尽的操作步骤和专业建议。无论是初学者还是有经验的开发者，都能从中受益。 ... [详细]

蜡笔小新 2024-12-27 15:48:52
web
2023年全球运营商网络设备市场预计突破202亿美元

尽管某些细分市场如WAN优化表现不佳，但全球运营商路由器和交换机市场持续增长。根据最新研究，该市场预计在2023年达到202亿美元的规模。 ... [详细]

蜡笔小新 2024-12-27 12:44:44
java
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
java
如何顺利使用Eclipse进行Struts开发

作为一名新手，您可能会在初次尝试使用Eclipse进行Struts开发时遇到一些挑战。本文将为您提供详细的指导和解决方案，帮助您克服常见的配置和操作难题。 ... [详细]

蜡笔小新 2024-12-27 09:57:58
format
ImmutableX Poised to Pioneer Web3 Gaming Revolution

ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]

蜡笔小新 2024-12-27 08:55:17
java
Java正则表达式提取特定值的方法与技巧

本文介绍如何使用Java中的正则表达式来提取字符串中的特定值。通过示例代码和详细解释，帮助开发者掌握正则表达式的使用方法，尤其是如何匹配和提取复杂模式中的数据。 ... [详细]

蜡笔小新 2024-12-27 08:50:31
format
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40

如哽在喉_495

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章