最简单的网络爬虫(用到了htmlparser,httpClient)

作者：大叔丶你好哇塞 | 来源：互联网 | 2023-05-19 07:15

目录结构第一步：com.webcrawler.util.Queue.javapackagecom.webcrawler.util;importjava.util.LinkedList;@Supp

目录结构

第一步：

com.webcrawler.util.Queue.java

package com.webcrawler.util;import java.util.LinkedList;@SuppressWarnings("unchecked")public class Queue {private LinkedList queue = new LinkedList(); public void enQueue(Object t) {queue.add(t);}public Object deQueue() {return queue.removeFirst();}public boolean contains(Object t) {return queue.contains(t);}public boolean empty() {return queue.isEmpty();}}

第二步：

com.webcrawler.util.LinkQueue.java

package com.webcrawler.util;import java.util.HashSet;import java.util.Set;public class LinkQueue {@SuppressWarnings("unchecked")private static Set visitedUrl = new HashSet();private static Queue unVisitedUrl = new Queue();public static Queue getUnVisitedUrl() {return unVisitedUrl;}public static void addVisitedUrl(String url) {visitedUrl.remove(url);}public static void removeVisitedUrl(String url) {visitedUrl.remove(url);}public static Object unVisitedUrlDeQueue() {return unVisitedUrl.deQueue();}public static void addUnvisitedUrl(String url) {if(url != null && !url.trim().equals("")&& !visitedUrl.contains(url)&& !unVisitedUrl.contains(url)) {unVisitedUrl.enQueue(url);}}public static int getVisitedUrlNum() {return visitedUrl.size();}public static boolean unVisitedUrlsEmpty() {return unVisitedUrl.empty();}}

第三步：

com.webcrawler.util.LinkFilter.java

package com.webcrawler.util;public interface LinkFilter {public boolean accept(String url);}

第四步：

com.webcrawler.util.HtmlParserTool.java

package com.webcrawler.util;import java.util.HashSet;import java.util.Set;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.NodeClassFilter;import org.htmlparser.filters.OrFilter;import org.htmlparser.tags.LinkTag;import org.htmlparser.util.NodeList;import org.htmlparser.util.ParserException;public class HtmlParserTool {@SuppressWarnings("serial")public static Set<String> extracLinks(String url, LinkFilter filter) {Set<String> links = new HashSet<String> ();try {Parser parser = new Parser(url);parser.setEncoding("UTF-8");NodeFilter frameFilter = new NodeFilter() {@Overridepublic boolean accept(Node node) {if(node.getText().startsWith("frame src=")) {return true;}return false;}};OrFilter linkFilter = new OrFilter(new NodeClassFilter(LinkTag.class), frameFilter);NodeList list = parser.extractAllNodesThatMatch(linkFilter);for(int i=0; i<list.size(); i++) {Node tag = list.elementAt(i);if( tag instanceof LinkTag) {LinkTag link = (LinkTag) tag;String linkUrl = link.getLink();if(filter.accept(url)) {links.add(linkUrl);} else {String frame = tag.getText();int start = frame.indexOf("src=");if( start != -1) {frame = frame.substring(start);}int end = frame.indexOf(" ");String frameUrl = "";if(end == -1) {end = frame.indexOf(">");if(end-1 > 5) { frameUrl = frame.substring(5, end - 1);}}if(filter.accept(frameUrl)) {links.add(frameUrl);}}}}} catch (ParserException e) {e.printStackTrace();} return links;}}

第五步：

com.webcrawler.util.DownloadFile.java

package com.webcrawler.util;import java.io.DataOutputStream;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.HttpException;import org.apache.commons.httpclient.HttpStatus;import org.apache.commons.httpclient.methods.GetMethod;import org.apache.commons.httpclient.params.HttpMethodParams;public class DownloadFile {public String getFileNameByUrl(String url, String contentType) {url = url.substring(7);if(contentType.indexOf("html") != -1) {url = url.replaceAll("[//?/:*|<>/"]", "_") + ".html";return url;} else {return url.replaceAll("[//?/:*|<>/"]","_") + "." +contentType.substring(contentType.lastIndexOf("/") + 1);}}private void saveToLocal(byte[] data, String filePath) {try {DataOutputStream out = new DataOutputStream(new FileOutputStream(new File(filePath)));for(int i=0; i<data.length; i++) {out.write(data[i]);}out.flush();out.close();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}}public String downLoadFile(String url) {String filePath = null;HttpClient httpClient = new HttpClient();//set time out httpClient.getHttpConnectionManager() .getParams() .setConnectionTimeout(5000);GetMethod getMethod = new GetMethod(url);getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler()); //retry//execute HTTP GET requesttry {getMethod.addRequestHeader("Content-Type", "text/html; charset=UTF-8"); int statusCode = httpClient.executeMethod(getMethod);if(statusCode != HttpStatus.SC_OK) {System.out.println("Method failed:" + getMethod.getStatusLine());filePath = null;}//execute HTTP contentbyte[] respOnseBody= getMethod.getResponseBody();File file = new File("temp");if(!file.exists()) {file.mkdir();}filePath = "temp//" + getFileNameByUrl(url, getMethod.getResponseHeader("Content-Type").getValue());System.out.println("---------"+url+"-------");saveToLocal(responseBody, filePath);} catch (HttpException e) {System.out.println("Please check you provided http address!");} catch (IOException e) {} catch (RuntimeException e) {System.out.println("error");}finally {getMethod.releaseConnection();}return filePath;}}

第六步：

com.webcrawler.test.MainCrawler.java

package com.webcrawler.test;import java.util.Set;import com.webcrawler.util.DownloadFile;import com.webcrawler.util.HtmlParserTool;import com.webcrawler.util.LinkFilter;import com.webcrawler.util.LinkQueue;public class MainCrawler {private void initCrawlerWithSeeds(String[] seeds) {for(int i=0; i<seeds.length; i++) {LinkQueue.addUnvisitedUrl(seeds[i]);}}public void crawling(String[] seeds) {LinkFilter filter = new LinkFilter() {@Overridepublic boolean accept(String url) {if(url.startsWith("http://www.zcib.edu.cn")) {return true;}return false;}};initCrawlerWithSeeds(seeds);while(!LinkQueue.unVisitedUrlsEmpty() && LinkQueue.getVisitedUrlNum()<=1000) {String visitUrl = (String) LinkQueue.unVisitedUrlDeQueue();if(visitUrl == null) {continue;}DownloadFile downLoader = new DownloadFile();downLoader.downLoadFile(visitUrl);LinkQueue.addVisitedUrl(visitUrl);Set<String> links = HtmlParserTool.extracLinks(visitUrl, filter);for(String link:links) {LinkQueue.addUnvisitedUrl(link);}}}public static void main(String[] args) {MainCrawler crawler = new MainCrawler();crawler.crawling(new String[]{"http://www.zcib.edu.cn"});}}

That's all.

所有jar包在

http://download.csdn.net/source/3136181

推荐阅读

import
Flutter与Angular的对比分析

本文探讨了Flutter和Angular这两个流行框架的主要区别，包括它们的设计理念、适用场景及技术实现。 ... [详细]

蜡笔小新 2024-11-28 13:19:52
import
Java 中静态和非静态嵌套类的区别

Java 中静态和非静态嵌套类的区别 ... [详细]

蜡笔小新 2024-11-28 11:32:56
import
Windows Terminal 自定义配置：提升 PowerShell 7 使用体验

本文将指导你如何通过自定义配置，使 Windows Terminal 中的 PowerShell 7 更加高效且美观。我们将移除默认的广告和提示符，设置快捷键，并添加实用的别名和功能。 ... [详细]

蜡笔小新 2024-11-28 07:25:46
import
Spring框架下可配置的定时任务实现

本文介绍了如何在Spring框架中配置和使用定时任务，包括初始化配置和动态启动定时器的方法。通过示例代码展示了如何利用Spring的TaskScheduler接口来创建和管理定时任务。 ... [详细]

蜡笔小新 2024-11-27 15:03:20
int
MVC框架下使用DataGrid实现时间筛选与枚举填充

本文介绍如何在ASP.NET MVC项目中利用DataGrid组件增强搜索功能，具体包括使用jQuery UI的DatePicker插件添加时间筛选条件，并通过枚举数据填充下拉列表。 ... [详细]

蜡笔小新 2024-11-27 11:02:33
int
[置顶] 性能测试java协议使用httpclient方法引发的思考

最近手上在进行一个性能测试项目，脚本是java语言使用httpClient实现http请求。并发用户数线程只有40个，但是服务器端启动的线程出现了400多个，是哪里平白无故出现这么多线程呢？肯定是有问 ... [详细]

蜡笔小新 2023-09-08 01:33:04
php
hibernate报错

这个报错出现在userDao里面，sessionfactory没有注入。解决办法：spring整合Hibernate使用test测试时要把spring.xml和spring-hib ... [详细]

蜡笔小新 2024-11-28 16:52:44
int
匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上）

匠心|传统_2021年度总结 | 葡萄城软件开发技术回顾（上） ... [详细]

蜡笔小新 2024-11-28 16:47:46
import
Java代理模式详解：静态代理、JDK动态代理与Cglib动态代理

本文详细介绍了Java中的代理模式，包括静态代理、JDK动态代理和Cglib动态代理的实现方式。通过一个火车票销售系统的实例，对比分析了三种代理模式的特点及其应用场景。 ... [详细]

蜡笔小新 2024-11-28 00:09:29
import
将数组的所有元素递增 1 的 Java 程序

将数组的所有元素递增 1 的 Java 程序 ... [详细]

蜡笔小新 2024-11-27 21:36:55
import
Python流程控制与条件判断详解

本文详细介绍了Python中的流程控制与条件判断技术，包括数据导入、数据变换、统计描述、假设检验、可视化以及自定义函数的创建等方面的内容。 ... [详细]

蜡笔小新 2024-11-27 20:04:59
less
精选Eclipse插件概览

本文介绍了多种Eclipse插件，包括XML Schema Infoset Model (XSD)、Graphical Editing Framework (GEF)、Eclipse Modeling Framework (EMF)等，涵盖了从Web开发到图形界面编辑的多个方面。 ... [详细]

蜡笔小新 2024-11-26 16:20:20
import
Python网络编程：深入探讨TCP粘包问题及解决方案

本文详细探讨了TCP协议下的粘包现象及其产生的原因，并提供了通过自定义报头解决粘包问题的具体实现方案。同时，对比了TCP与UDP协议在数据传输上的不同特性。 ... [详细]

蜡笔小新 2024-11-23 15:55:15
request
如何优雅地管理iOS应用中的多种状态界面？

在开发iOS应用时，面对不同状态（如数据加载成功、无数据、未登录、网络异常等）的界面管理，如何实现既高效又美观的用户体验？本文探讨了几种最佳实践方法。 ... [详细]

蜡笔小新 2024-11-20 10:39:04
request
c#中httpclient设置超时的最佳实践

HttpClient作为官方推荐的http客户端，相比之前的WebClient和WebRequest好用了很多，但默认无法为每个请求单独设置超时，只能给HttpClient设置默认 ... [详细]

蜡笔小新 2023-09-10 10:02:12

大叔丶你好哇塞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章