利用Java开发百度图片爬虫，实现高效下载功能

作者：爷们疯子2_593_278 | 来源：互联网 | 2024-10-24 18:25

为了满足大量图像素材的需求以支持机器学习项目，本文介绍了一种基于Java语言开发的百度图片爬虫工具，该工具能够高效地抓取并下载百度图片中的资源。文章首先展示了爬虫运行的效果图，并详细阐述了其工作原理和技术实现路径，重点解析了如何通过分析百度图片的网页结构来实现精准抓取。此外，还讨论了在实际应用中可能遇到的问题及解决方案。

因为最近需要很多图片素材做机器训练，所以写一个爬虫来下载百度图片里的一些图片，用作机器学习。

先看看效果图：

实现思路：根据百度图片的Ajax请求，用Chrome获取到URL，然后通过改变URL参数，获得百度图片Ajax请求的JSON。解析获得每一张图片的URL。

爬虫启动后，新建两百个线程，用来并发下载图片，充分利用带宽。

使用ConcurrentLinkedQueue创建队列，将第一步中解析出的链接添入。

第二步启动的两百个线程监听上面的队列，从中取出图片链接并下载。

因为ConcurrentLinkedQueue是线程安全的，所以不用担心下载重复了。

项目一共有三个核心文件，一个Main函数启动文件。代码如下。

Download.javaimport java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import java.net.URLConnection;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱：1172875805@qq.com

public class Download {

private String urlString;

private String savePath;

private String filename;

public Download(String urlString,String savePath,String filename){

this.urlString = urlString;

this.savePath = savePath;

this.filename = filename;

}

public void downloadCore(){

File sf=new File(this.savePath);

try{

// 构造URL

URL url = new URL(this.urlString);

// 打开连接

URLConnection con = url.openConnection();

//设置请求超时为5s

con.setConnectTimeout(5*1000);

// 输入流

InputStream is = con.getInputStream();

// 1K的数据缓冲

byte[] bs = new byte[1024];

// 读取到的数据长度

int len;

// 输出的文件流

if(!sf.exists()){

sf.mkdirs();

}

OutputStream os = new FileOutputStream(sf.getPath()+"\\"+this.filename);

// 开始读取

while ((len = is.read(bs)) != -1) {

os.write(bs, 0, len);

}

// 完毕，关闭所有链接

os.close();

is.close();

}catch (Exception e){

// e.printStackTrace();

if(sf.exists()){

sf.delete();

}

System.out.println("问题图片！跳过！");

}

DownloadGirl.javaimport org.codehaus.jackson.JsonNode;

import org.codehaus.jackson.map.ObjectMapper;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱：1172875805@qq.com

public class DownloadGirl {

private static ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();

private static int threadNum = 0;

public static void startThread(){

//启动两百个线程，监听队列

while(threadNum<200){

Thread thread = new Thread(new DownloadThread(queue));

thread.start();

threadNum++;

}

public static void getImgUrl(){

int begin=0;

while (true){

String url = "http://p_w_picpath.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=%E4%B8%9D%E8%A2%9C%E7%BE%8E%E5%A5%B3&cg=girl&pn="+begin+"&rn=30&itg=0&z=0&fr=&lm=-1&ic=0&s=0&st=-1&gsm=4d0d0000005a";

try{

Connection con = Jsoup.connect(url);

Document doc = con.ignoreContentType(true).timeout(30000).get();

String json = doc.text();

ObjectMapper mapper = new ObjectMapper();

JsonNode node = mapper.readTree(json);

JsonNode imgs = node.get("imgs");

if(imgs.size()==0){

break;

}

for(JsonNode item:imgs){

String temp_url = item.get("objURL").asText();

if(!temp_url.equals("")){

queue.offer(temp_url);

}else{

System.out.println("空连接！！！！");

}

begin=begin+30;

System.out.println("完成一百！");

if (!queue.isEmpty()){

Thread.sleep(1000);

System.out.println("等待一秒！！！");

}

}catch (Exception e){

// e.printStackTrace();

System.out.println(url);

begin=begin+30;

}

DownloadThread.javaimport java.util.UUID;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱：1172875805@qq.com

public class DownloadThread implements Runnable {

private ConcurrentLinkedQueue queue;

public DownloadThread(ConcurrentLinkedQueue queue){

this.queue = queue;

}

public void run(){

while (true){

String url = queue.poll();

while(url == null){

try{

Thread.sleep(1000);

}catch (Exception e){

e.printStackTrace();

}

finally {

url = queue.poll();

}

String uuid = UUID.randomUUID().toString();

String index = uuid.substring(0,2);

Download download = new Download(url, "./data/"+index+"/", uuid+".jpg");

download.downloadCore();

}

最后的文件是Main文件，用来启动该程序！

Test.java/**

* Created by 杨小龙 on 2016/7/3.

* 邮箱：1172875805@qq.com

public class Test {

public static void main(String[] args) throws Exception{

DownloadGirl.startThread();

DownloadGirl.getImgUrl();

}

推荐阅读

post
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
数组
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
list
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
char
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
char
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
jsp
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
list
深入解析 Android IPC 中的 Messenger 机制

本文详细介绍了 Android 中基于消息传递的进程间通信（IPC）机制——Messenger。通过实例和源码分析，帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]

蜡笔小新 2024-12-21 11:11:40
jsp
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
list
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
char
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
split
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
list
POJ 3259 Bellman-Ford算法实现

本文提供了使用Java实现Bellman-Ford算法解决POJ 3259问题的代码示例，详细解释了如何通过该算法检测负权环来判断时间旅行的可能性。 ... [详细]

蜡笔小新 2024-12-25 20:03:22
post
理解JavaScript中的异步$.post()回调函数执行时机

探讨在循环中调用$.post()时，回调函数为何会在循环结束后才开始执行，并提供解决方案和优化建议。 ... [详细]

蜡笔小新 2024-12-25 16:55:14
config
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
config
浏览器同源策略与跨域解决方案

本文详细介绍了浏览器的同源策略及其重要性，并探讨了多种实现跨域访问的方法。同源策略是浏览器的一项核心安全机制，确保不同源的客户端脚本无法在未经授权的情况下读取或修改其他来源的资源。例如，a.com下的JavaScript代码通过AJAX请求获取b.com的数据将被阻止。 ... [详细]

蜡笔小新 2024-12-22 21:31:04

爷们疯子2_593_278

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章