当前位置: 开发笔记 > 编程语言 > 正文

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图

作者：sjxs198422 | 来源：互联网 | 2023-05-18 19:12

虫子的功能很简单，抓取到”煎蛋网xxoo”网页(http:jandan.netooxxpage-1537)，解析出其中的妹子图，保存至本地。从程序来讲，分为三个步骤：1、发起一个http请求，

虫子的功能很简单，抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537)，解析出其中的妹子图，保存至本地。

从程序来讲，分为三个步骤：

1、发起一个http请求，获取返回的response内容；

2、解析内容，分离出有效图片的url；

3、根据这些图片的url，生成图片保存至本地。

开始详细说明：

准备工作：HttpClient的Jar包，访问http://hc.apache.org/ 自行下载。

主程序内容：

public class SimpleSpider {
    //起始页码
    private static final int page = 1538;
    public static void main(String[] args) {
        //HttpClient 超时配置
        RequestConfig globalCOnfig= RequestConfig.custom().setCOOKIESpec(COOKIESpecs.STANDARD).setConnectionRequestTimeout(6000).setConnectTimeout(6000).build();
        CloseableHttpClient httpClient = HttpClients.custom().setDefaultRequestConfig(globalConfig).build();
        System.out.println("5秒后开始抓取煎蛋妹子图……");
        for (int i = page; i > 0; i--) {
            //创建一个GET请求
            HttpGet httpGet = new HttpGet("http://jandan.net/ooxx/page-" + i);
            httpGet.addHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36");
            httpGet.addHeader("COOKIE","_gat=1; nsfw-click-load=off; gif-click-load=on; _ga=GA1.2.1861846600.1423061484");
            try {
                //不敢爬太快
                Thread.sleep(5000);
                //发送请求，并执行
                CloseableHttpResponse respOnse= httpClient.execute(httpGet);
                InputStream in = response.getEntity().getContent();
                String html = Utils.convertStreamToString(in);
                //网页内容解析
                new Thread(new JianDanHtmlParser(html, i)).start();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
}

HttpClient是一个非常强大的工具，属于apache下项目。如果只是创建一个默认的httpClient实例，代码很简单，官网手册上有详细说明。

可以看到在创建一个GET请求时，加入了请求头。第一个User-Agent代表所使用浏览器。有些网站需要明确了解用户所使用的浏览器，而有些不需要。个人猜测，部分网站根据用户使用浏览器不同显示不一样。这里的煎蛋网，就必须得加入请求头。第二个COOKIE则代表了一些用户设置，可以没有。使用chrome的开发者工具就能清楚看到。如果是https加密后的，则需要特殊的抓包工具。

网页内容解析

import java.util.ArrayList;
import java.util.List;

public class JianDanHtmlParser implements Runnable {
private String html;
private int page;
public JianDanHtmlParser(String html,int page) {
this.html = html;
this.page = page;
}
@Override
public void run() {
System.out.println("==========第"+page+"页============");
List list = new ArrayList();
html = html.substring(html.indexOf("commentlist"));
String[] images = html.split("li>");
for (String image : images) {
String[] ss = image.split("br");
for (String s : ss) {
if (s.indexOf("list.add(s.substring(i, s.indexOf("\"", i + 1)));
}catch (Exception e) {
System.out.println(s);
}

}
}
}
for(String imageUrl : list){
if(imageUrl.indexOf("sina")>0){
new Thread(new JianDanImageCreator(imageUrl,page)).start();
}
}
}
}

这段代码看起来凌乱，但实际上却特别简单。简单说便是，将response返回的html字符串解析，截取，找到真正需要的内容（图片url），存入到临时容器中。

生成图片类

public class JianDanImageCreator implements Runnable {
    private static int count = 0;
    private String imageUrl;
    private int page;
     //存储路径，自定义
    private static final String basePath = "E:/jiandan"; 
    public JianDanImageCreator(String imageUrl,int page) {
        this.imageUrl = imageUrl;
        this.page = page;
    }
    @Override
    public void run() {
        File dir = new File(basePath);
        if(!dir.exists()){
            dir.mkdirs();
            System.out.println("图片存放于"+basePath+"目录下");
        }
        String imageName = imageUrl.substring(imageUrl.lastIndexOf("/")+1);
        try {
            File file = new File( basePath+"/"+page+"--"+imageName);
            OutputStream os = new FileOutputStream(file);
            //创建一个url对象
            URL url = new URL(imageUrl);
            InputStream is = url.openStream();
            byte[] buff = new byte[1024];
            while(true) {
                int readed = is.read(buff);
                if(readed == -1) {
                    break;
                }
                byte[] temp = new byte[readed];
                System.arraycopy(buff, 0, temp, 0, readed);
                //写入文件
                os.write(temp);
            }
            System.out.println("第"+(count++)+"张妹子:"+file.getAbsolutePath());
            is.close(); 
            os.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

根据每个图片的src地址创建一个URL对象，再使用字节流，生成本地文件。

url工具类：

import java.io.BufferedReader;

import java.io.File;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
public class Utils {
public static void writeToFile(InputStream in, String path){
File file = new File(path);
System.out.println("是否为文件："+file.isFile());
try {
FileOutputStream out = new FileOutputStream(file);
byte[] buffer = new byte[1024];
int len;
while((len=in.read(buffer))>0){
out.write(buffer, 0, len);
}
} catch (Exception e) {
e.printStackTrace();
System.out.println("================文件写入失败==================");
}
}
/*
*
*/
public static String convertStreamToString(InputStream in) {
BufferedReader reader = new BufferedReader(new InputStreamReader(in));
StringBuilder sb = new StringBuilder();
String line = null;
try {
while ((line = reader.readLine()) != null) {
sb.append(line + "/n");
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
in.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return sb.toString();

}
}

这个程序相对来说比较简单，纯属娱乐。如果能让那些不了解HttpClient的同学对这个库产生兴趣，则功德无量。

github地址：https://github.com/nbsa/SimpleSpider

PS:这个博客只提供抓取图片的方法，图片版权属于原网站及其网友。请大家尊重原网劳动成果，避免分发、传播图片内容。

推荐阅读

regex
Android 示例代码：实现网页信息抓取与图片下载

本文提供了一个Android应用中用于抓取网页信息并下载图片的示例代码。通过该代码，开发者可以轻松实现从指定URL获取网页内容及其中的图片资源。 ... [详细]

蜡笔小新 2024-11-28 17:04:36
substring
搜索引擎架构设计

本文详细介绍了搜索引擎的主要组成部分，包括爬虫模块、索引模块和搜索模块。其中，索引模块采用了高效的二元分词技术进行数据存储，而搜索模块则基于ASP.NET框架实现了一个用户友好的界面和高效的搜索算法。 ... [详细]

蜡笔小新 2024-11-28 13:45:27
command
Java 中静态和非静态嵌套类的区别

Java 中静态和非静态嵌套类的区别 ... [详细]

蜡笔小新 2024-11-28 11:32:56
command
使用EF Core在.Net Core控制台应用中操作SQLite数据库

本文介绍如何利用Visual Studio 2019和Windows 10环境，通过Entity Framework Core（EF Core）实现对SQLite数据库的读写操作。项目源代码可从百度网盘下载。 ... [详细]

蜡笔小新 2024-11-28 11:01:19
utf-8
PHP中处理HTTP头部信息的方法与技巧

本文详细介绍了在PHP中如何获取和处理HTTP头部信息，包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时，还探讨了PHP中$_SERVER变量的使用，以获取客户端和服务器的相关信息。 ... [详细]

蜡笔小新 2024-11-24 16:12:27
window
Android实用方法汇总

本文总结了几个常用的Android开发技巧，包括检测设备上是否安装特定应用、获取应用的版本名称、设置状态栏透明以及如何从一个应用跳转至另一个应用的方法。 ... [详细]

蜡笔小新 2024-11-28 17:32:27
window
Java 中的 LinkedTransferQueue isEmpty()方法

Java 中的 LinkedTransferQueue isEmpty()方法 ... [详细]

蜡笔小新 2024-11-28 16:23:32
include
解决在父类向量中访问子类特有属性的问题

探讨如何在C++中，当子类实例存储在父类类型的向量中时，正确访问子类特有的成员变量或方法。 ... [详细]

蜡笔小新 2024-11-28 16:17:15
ip
Java实现AC自动机进行高效多模式匹配

本文介绍如何使用Java实现AC自动机（Aho-Corasick算法），以实现高效的多模式字符串匹配。文章涵盖了Trie树和KMP算法的基础知识，并提供了一个详细的代码示例，包括构建Trie树、设置失败指针以及执行搜索的过程。 ... [详细]

蜡笔小新 2024-11-28 14:52:17
include
PHP 5.4.8 编译安装指南

本文详细介绍了如何在Linux环境下编译安装PHP 5.4.8，并配置为FastCGI模式运行。包括所需依赖包的安装、源代码下载、编译配置及启动服务等步骤。 ... [详细]

蜡笔小新 2024-11-28 10:19:51
js
为何第三个div会影响其他两个div？

探讨了在使用内联块（inline-block）元素布局时，第三个div如何影响前两个div的位置，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 16:33:53
js
深入理解XSS漏洞及其防范措施

本文详细介绍了跨站脚本攻击（XSS）的基本概念、工作原理，并通过实际案例演示如何构建XSS漏洞的测试环境，以及探讨了XSS攻击的不同形式和防御策略。 ... [详细]

蜡笔小新 2024-11-24 21:14:20
window
selenium通过JS语法操作页面元素

做过web测试的小伙伴们都知道，web元素现在很多是JS写的，那么既然是JS写的，可以通过JS语言去操作页面，来帮助我们操作一些selenium不能覆盖的功能。问题来了我们能否通过 ... [详细]

蜡笔小新 2024-11-24 03:05:20
window
JavaScript 跨域解决方案详解

本文详细介绍了JavaScript在不同域之间进行数据传输或通信的技术，包括使用JSONP、修改document.domain、利用window.name以及HTML5的postMessage方法等跨域解决方案。 ... [详细]

蜡笔小新 2024-11-22 16:27:56
ip
APOC 函数详解：路径查询方法

本文将深入探讨 APOC 库中的路径查询功能，特别是如何利用 `apoc.path.expand` 函数实现灵活的路径查询，包括动态设置最大路径长度等高级特性。 ... [详细]

蜡笔小新 2024-11-28 10:10:52

sjxs198422

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章