热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用Java开发百度图片爬虫,实现高效下载功能

为了满足大量图像素材的需求以支持机器学习项目,本文介绍了一种基于Java语言开发的百度图片爬虫工具,该工具能够高效地抓取并下载百度图片中的资源。文章首先展示了爬虫运行的效果图,并详细阐述了其工作原理和技术实现路径,重点解析了如何通过分析百度图片的网页结构来实现精准抓取。此外,还讨论了在实际应用中可能遇到的问题及解决方案。

因为最近需要很多图片素材做机器训练,所以写一个爬虫来下载百度图片里的一些图片,用作机器学习。

先看看效果图:

22832e51-8220-489c-b69e-0fbf5dc43e99.jpg

实现思路:根据百度图片的Ajax请求,用Chrome获取到URL,然后通过改变URL参数,获得百度图片Ajax请求的JSON。解析获得每一张图片的URL。

爬虫启动后,新建两百个线程,用来并发下载图片,充分利用带宽。

使用ConcurrentLinkedQueue创建队列,将第一步中解析出的链接添入。

第二步启动的两百个线程监听上面的队列,从中取出图片链接并下载。

因为ConcurrentLinkedQueue是线程安全的,所以不用担心下载重复了。

项目一共有三个核心文件,一个Main函数启动文件。代码如下。

Download.javaimport java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import java.net.URLConnection;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class Download {

private String urlString;

private String savePath;

private String filename;

public Download(String urlString,String savePath,String filename){

this.urlString = urlString;

this.savePath = savePath;

this.filename = filename;

}

public void downloadCore(){

File sf=new File(this.savePath);

try{

// 构造URL

URL url = new URL(this.urlString);

// 打开连接

URLConnection con = url.openConnection();

//设置请求超时为5s

con.setConnectTimeout(5*1000);

// 输入流

InputStream is = con.getInputStream();

// 1K的数据缓冲

byte[] bs = new byte[1024];

// 读取到的数据长度

int len;

// 输出的文件流

if(!sf.exists()){

sf.mkdirs();

}

OutputStream os = new FileOutputStream(sf.getPath()+"\\"+this.filename);

// 开始读取

while ((len = is.read(bs)) != -1) {

os.write(bs, 0, len);

}

// 完毕,关闭所有链接

os.close();

is.close();

}catch (Exception e){

//            e.printStackTrace();

if(sf.exists()){

sf.delete();

}

System.out.println("问题图片!跳过!");

}

}

}

DownloadGirl.javaimport org.codehaus.jackson.JsonNode;

import org.codehaus.jackson.map.ObjectMapper;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadGirl {

private static ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();

private static int threadNum = 0;

public static void startThread(){

//启动两百个线程,监听队列

while(threadNum<200){

Thread thread = new Thread(new DownloadThread(queue));

thread.start();

threadNum++;

}

}

public static void getImgUrl(){

int begin=0;

while (true){

String url = "http://p_w_picpath.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=%E4%B8%9D%E8%A2%9C%E7%BE%8E%E5%A5%B3&cg=girl&pn="+begin+"&rn=30&itg=0&z=0&fr=&lm=-1&ic=0&s=0&st=-1&gsm=4d0d0000005a";

try{

Connection con = Jsoup.connect(url);

Document doc = con.ignoreContentType(true).timeout(30000).get();

String json = doc.text();

ObjectMapper mapper = new ObjectMapper();

JsonNode node = mapper.readTree(json);

JsonNode imgs = node.get("imgs");

if(imgs.size()==0){

break;

}

for(JsonNode item:imgs){

String temp_url = item.get("objURL").asText();

if(!temp_url.equals("")){

queue.offer(temp_url);

}else{

System.out.println("空连接!!!!");

}

}

begin=begin+30;

System.out.println("完成一百!");

if (!queue.isEmpty()){

Thread.sleep(1000);

System.out.println("等待一秒!!!");

}

}catch (Exception e){

//                e.printStackTrace();

System.out.println(url);

begin=begin+30;

}

}

}

}

DownloadThread.javaimport java.util.UUID;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadThread implements Runnable {

private ConcurrentLinkedQueue queue;

public DownloadThread(ConcurrentLinkedQueue queue){

this.queue = queue;

}

public void run(){

while (true){

String url = queue.poll();

while(url == null){

try{

Thread.sleep(1000);

}catch (Exception e){

e.printStackTrace();

}

finally {

url = queue.poll();

}

}

String uuid = UUID.randomUUID().toString();

String index = uuid.substring(0,2);

Download download = new Download(url, "./data/"+index+"/", uuid+".jpg");

download.downloadCore();

}

}

}

最后的文件是Main文件,用来启动该程序!

Test.java/**

* Created by 杨小龙 on 2016/7/3.

* 邮箱:1172875805@qq.com

*/

public class Test {

public static void main(String[] args) throws Exception{

DownloadGirl.startThread();

DownloadGirl.getImgUrl();

}

}



推荐阅读
  • 本文详细探讨了HTML表单中GET和POST请求的区别,包括它们的工作原理、数据传输方式、安全性及适用场景。同时,通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]
  • 本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例,涵盖从入门到进阶的各个阶段,帮助读者全面提升JavaScript编程能力。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 深入解析 Android IPC 中的 Messenger 机制
    本文详细介绍了 Android 中基于消息传递的进程间通信(IPC)机制——Messenger。通过实例和源码分析,帮助开发者更好地理解和使用这一高效的通信工具。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • 本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例,帮助开发者更好地理解和应用该方法。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 本文详细介绍了中央电视台电影频道的节目预告,并通过专业工具分析了其加载方式,确保用户能够获取最准确的电视节目信息。 ... [详细]
  • 本文提供了使用Java实现Bellman-Ford算法解决POJ 3259问题的代码示例,详细解释了如何通过该算法检测负权环来判断时间旅行的可能性。 ... [详细]
  • 探讨在循环中调用$.post()时,回调函数为何会在循环结束后才开始执行,并提供解决方案和优化建议。 ... [详细]
  • 本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数,重点分析了内置服务器(如 Tomcat、Jetty 和 Undertow)的默认设置及其对性能的影响。 ... [详细]
  • 本文详细介绍了浏览器的同源策略及其重要性,并探讨了多种实现跨域访问的方法。同源策略是浏览器的一项核心安全机制,确保不同源的客户端脚本无法在未经授权的情况下读取或修改其他来源的资源。例如,a.com下的JavaScript代码通过AJAX请求获取b.com的数据将被阻止。 ... [详细]
author-avatar
爷们疯子2_593_278
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有