热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用Java开发百度图片爬虫,实现高效下载功能

为了满足大量图像素材的需求以支持机器学习项目,本文介绍了一种基于Java语言开发的百度图片爬虫工具,该工具能够高效地抓取并下载百度图片中的资源。文章首先展示了爬虫运行的效果图,并详细阐述了其工作原理和技术实现路径,重点解析了如何通过分析百度图片的网页结构来实现精准抓取。此外,还讨论了在实际应用中可能遇到的问题及解决方案。

因为最近需要很多图片素材做机器训练,所以写一个爬虫来下载百度图片里的一些图片,用作机器学习。

先看看效果图:

22832e51-8220-489c-b69e-0fbf5dc43e99.jpg

实现思路:根据百度图片的Ajax请求,用Chrome获取到URL,然后通过改变URL参数,获得百度图片Ajax请求的JSON。解析获得每一张图片的URL。

爬虫启动后,新建两百个线程,用来并发下载图片,充分利用带宽。

使用ConcurrentLinkedQueue创建队列,将第一步中解析出的链接添入。

第二步启动的两百个线程监听上面的队列,从中取出图片链接并下载。

因为ConcurrentLinkedQueue是线程安全的,所以不用担心下载重复了。

项目一共有三个核心文件,一个Main函数启动文件。代码如下。

Download.javaimport java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import java.net.URLConnection;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class Download {

private String urlString;

private String savePath;

private String filename;

public Download(String urlString,String savePath,String filename){

this.urlString = urlString;

this.savePath = savePath;

this.filename = filename;

}

public void downloadCore(){

File sf=new File(this.savePath);

try{

// 构造URL

URL url = new URL(this.urlString);

// 打开连接

URLConnection con = url.openConnection();

//设置请求超时为5s

con.setConnectTimeout(5*1000);

// 输入流

InputStream is = con.getInputStream();

// 1K的数据缓冲

byte[] bs = new byte[1024];

// 读取到的数据长度

int len;

// 输出的文件流

if(!sf.exists()){

sf.mkdirs();

}

OutputStream os = new FileOutputStream(sf.getPath()+"\\"+this.filename);

// 开始读取

while ((len = is.read(bs)) != -1) {

os.write(bs, 0, len);

}

// 完毕,关闭所有链接

os.close();

is.close();

}catch (Exception e){

//            e.printStackTrace();

if(sf.exists()){

sf.delete();

}

System.out.println("问题图片!跳过!");

}

}

}

DownloadGirl.javaimport org.codehaus.jackson.JsonNode;

import org.codehaus.jackson.map.ObjectMapper;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadGirl {

private static ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();

private static int threadNum = 0;

public static void startThread(){

//启动两百个线程,监听队列

while(threadNum<200){

Thread thread = new Thread(new DownloadThread(queue));

thread.start();

threadNum++;

}

}

public static void getImgUrl(){

int begin=0;

while (true){

String url = "http://p_w_picpath.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=%E4%B8%9D%E8%A2%9C%E7%BE%8E%E5%A5%B3&cg=girl&pn="+begin+"&rn=30&itg=0&z=0&fr=&lm=-1&ic=0&s=0&st=-1&gsm=4d0d0000005a";

try{

Connection con = Jsoup.connect(url);

Document doc = con.ignoreContentType(true).timeout(30000).get();

String json = doc.text();

ObjectMapper mapper = new ObjectMapper();

JsonNode node = mapper.readTree(json);

JsonNode imgs = node.get("imgs");

if(imgs.size()==0){

break;

}

for(JsonNode item:imgs){

String temp_url = item.get("objURL").asText();

if(!temp_url.equals("")){

queue.offer(temp_url);

}else{

System.out.println("空连接!!!!");

}

}

begin=begin+30;

System.out.println("完成一百!");

if (!queue.isEmpty()){

Thread.sleep(1000);

System.out.println("等待一秒!!!");

}

}catch (Exception e){

//                e.printStackTrace();

System.out.println(url);

begin=begin+30;

}

}

}

}

DownloadThread.javaimport java.util.UUID;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadThread implements Runnable {

private ConcurrentLinkedQueue queue;

public DownloadThread(ConcurrentLinkedQueue queue){

this.queue = queue;

}

public void run(){

while (true){

String url = queue.poll();

while(url == null){

try{

Thread.sleep(1000);

}catch (Exception e){

e.printStackTrace();

}

finally {

url = queue.poll();

}

}

String uuid = UUID.randomUUID().toString();

String index = uuid.substring(0,2);

Download download = new Download(url, "./data/"+index+"/", uuid+".jpg");

download.downloadCore();

}

}

}

最后的文件是Main文件,用来启动该程序!

Test.java/**

* Created by 杨小龙 on 2016/7/3.

* 邮箱:1172875805@qq.com

*/

public class Test {

public static void main(String[] args) throws Exception{

DownloadGirl.startThread();

DownloadGirl.getImgUrl();

}

}



推荐阅读
  • 使用Java生成10个随机数填充数组,并通过消息框展示数组元素及求和结果
    本文介绍了如何使用Java语言生成10个随机数并将其存储在一个数组中。随后,通过消息框展示数组的所有元素,并计算这些元素的总和,最终将求和结果一并在消息框中显示。具体实现时,可以通过 `Math.random()` 函数生成0到1000之间的随机数,确保每个数字的随机性和多样性。此外,为了提高代码的可读性和健壮性,建议使用循环结构来简化数组的填充和显示过程。 ... [详细]
  • 本文通过复旦大学自然语言处理课程中的一个具体案例,详细解析了中文词汇分割技术的实现方法。该案例利用Java编程语言,结合词典和算法模型,展示了如何高效地进行中文文本的词汇分割,为相关研究和应用提供了宝贵的参考。 ... [详细]
  • 程序连接MySQL数据库的多种方法详解 ... [详细]
  • Android数组截取技巧及JNI数组交互在仓库构建中的应用分析
    在Android开发中,数组截取技巧和JNI数组交互在仓库构建中的应用具有重要意义。JNI提供了两种主要的数组处理方法:一是生成原生层数组的副本,二是直接通过数组指针进行操作。在进行字符串处理时,如果需要执行其他复杂操作,可以结合这两种方法以提高效率和灵活性。此外,合理利用这些技术可以显著提升应用程序的性能和稳定性。 ... [详细]
  • 多进程程序异常退出问题分析与解决 ... [详细]
  • 力扣——两数之和JAVA
    图片中的方法仅为个人理解,欢迎各位在下方评论 packagecom.shengda.Demo0Likou;importjava.util.HashMap; impor ... [详细]
  • Tornado硬件管理平台中的设备信息采集技术深入解析(三)
    深入解析 Tornado 硬件管理平台中的设备信息采集技术,本文聚焦于 `monitor.py` 脚本的关键字段分析。该脚本通过导入 `psutil`、`time` 和 `datetime` 模块,以及使用 `pprint` 进行数据格式化输出,实现对系统资源和设备状态的高效监控与数据采集。 ... [详细]
  • 题目 1449 砝码称重问题通过高效的贪心算法在 1 秒内成功解决。给定三种不同重量的砝码 \( w_0 \)、\( w_1 \) 和 \( w_2 \),每种砝码各有一个。本题要求判断是否能够使用这些砝码组合出一个特定的重量 \( m \)。通过示例解析,详细展示了如何利用贪心策略快速找到解决方案。 ... [详细]
  • Oracle培训(三十七)——深入解析Hibernate第三章:实体关联关系映射详解
    在本节Oracle培训中,我们将深入探讨Hibernate第三章的内容,重点讲解实体关联关系映射的详细知识点。首先,回顾了Hibernate的基本概念和映射基础,随后详细分析了不同类型的实体关联关系,包括一对一、一对多和多对多关系的映射方法及其应用场景。通过具体的示例和代码片段,帮助读者更好地理解和掌握这些复杂的映射技术。此外,还讨论了如何优化关联关系的性能,以及常见的问题和解决方案。 ... [详细]
  • 在 Linux 环境下,深入探讨 GTK+3.0 的高级开发技巧,涵盖组件定制、事件处理及多线程应用等核心内容,帮助开发者提升应用界面的交互性和性能。 ... [详细]
  • 在探讨Java动态代理机制时,本文深入分析了其核心原理与实现方式,并详细讨论了该机制在Spring框架中的应用,特别是在AOP(面向切面编程)中的作用。通过实例解析,读者可以更好地理解如何利用动态代理增强代码的灵活性和可维护性。 ... [详细]
  • 1packageFileOperation;23importjava.io.File;4importjava.io.FileFilter;5importjava.util.Arra ... [详细]
  • 构建Java自定义持久层框架:实现数据访问与存储的高效解决方案
    JDBC连接数据库步骤:Connection连接对象,PreparedStatement ... [详细]
  • c#学Java–Java基本语法1.类比JAVA .NETJVM CLRJDK  FCL2.java命名约定类名称应以大写字母开头,并成为容易理解的名词或组合。如 ... [详细]
  • 通过采用JSON数据格式,能够高效且精确地获取用户的实时地理位置信息,为各类位置服务应用提供可靠的数据支持。该方法不仅简化了数据交换流程,还提高了地理信息处理的准确性和效率,适用于移动应用、导航系统及物联网设备等多种场景。 ... [详细]
author-avatar
爷们疯子2_593_278
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有