热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用Java开发百度图片爬虫,实现高效下载功能

为了满足大量图像素材的需求以支持机器学习项目,本文介绍了一种基于Java语言开发的百度图片爬虫工具,该工具能够高效地抓取并下载百度图片中的资源。文章首先展示了爬虫运行的效果图,并详细阐述了其工作原理和技术实现路径,重点解析了如何通过分析百度图片的网页结构来实现精准抓取。此外,还讨论了在实际应用中可能遇到的问题及解决方案。

因为最近需要很多图片素材做机器训练,所以写一个爬虫来下载百度图片里的一些图片,用作机器学习。

先看看效果图:

22832e51-8220-489c-b69e-0fbf5dc43e99.jpg

实现思路:根据百度图片的Ajax请求,用Chrome获取到URL,然后通过改变URL参数,获得百度图片Ajax请求的JSON。解析获得每一张图片的URL。

爬虫启动后,新建两百个线程,用来并发下载图片,充分利用带宽。

使用ConcurrentLinkedQueue创建队列,将第一步中解析出的链接添入。

第二步启动的两百个线程监听上面的队列,从中取出图片链接并下载。

因为ConcurrentLinkedQueue是线程安全的,所以不用担心下载重复了。

项目一共有三个核心文件,一个Main函数启动文件。代码如下。

Download.javaimport java.io.File;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URL;

import java.net.URLConnection;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class Download {

private String urlString;

private String savePath;

private String filename;

public Download(String urlString,String savePath,String filename){

this.urlString = urlString;

this.savePath = savePath;

this.filename = filename;

}

public void downloadCore(){

File sf=new File(this.savePath);

try{

// 构造URL

URL url = new URL(this.urlString);

// 打开连接

URLConnection con = url.openConnection();

//设置请求超时为5s

con.setConnectTimeout(5*1000);

// 输入流

InputStream is = con.getInputStream();

// 1K的数据缓冲

byte[] bs = new byte[1024];

// 读取到的数据长度

int len;

// 输出的文件流

if(!sf.exists()){

sf.mkdirs();

}

OutputStream os = new FileOutputStream(sf.getPath()+"\\"+this.filename);

// 开始读取

while ((len = is.read(bs)) != -1) {

os.write(bs, 0, len);

}

// 完毕,关闭所有链接

os.close();

is.close();

}catch (Exception e){

//            e.printStackTrace();

if(sf.exists()){

sf.delete();

}

System.out.println("问题图片!跳过!");

}

}

}

DownloadGirl.javaimport org.codehaus.jackson.JsonNode;

import org.codehaus.jackson.map.ObjectMapper;

import org.jsoup.Connection;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadGirl {

private static ConcurrentLinkedQueue queue = new ConcurrentLinkedQueue();

private static int threadNum = 0;

public static void startThread(){

//启动两百个线程,监听队列

while(threadNum<200){

Thread thread = new Thread(new DownloadThread(queue));

thread.start();

threadNum++;

}

}

public static void getImgUrl(){

int begin=0;

while (true){

String url = "http://p_w_picpath.baidu.com/search/avatarjson?tn=resultjsonavatarnew&ie=utf-8&word=%E4%B8%9D%E8%A2%9C%E7%BE%8E%E5%A5%B3&cg=girl&pn="+begin+"&rn=30&itg=0&z=0&fr=&lm=-1&ic=0&s=0&st=-1&gsm=4d0d0000005a";

try{

Connection con = Jsoup.connect(url);

Document doc = con.ignoreContentType(true).timeout(30000).get();

String json = doc.text();

ObjectMapper mapper = new ObjectMapper();

JsonNode node = mapper.readTree(json);

JsonNode imgs = node.get("imgs");

if(imgs.size()==0){

break;

}

for(JsonNode item:imgs){

String temp_url = item.get("objURL").asText();

if(!temp_url.equals("")){

queue.offer(temp_url);

}else{

System.out.println("空连接!!!!");

}

}

begin=begin+30;

System.out.println("完成一百!");

if (!queue.isEmpty()){

Thread.sleep(1000);

System.out.println("等待一秒!!!");

}

}catch (Exception e){

//                e.printStackTrace();

System.out.println(url);

begin=begin+30;

}

}

}

}

DownloadThread.javaimport java.util.UUID;

import java.util.concurrent.ConcurrentLinkedQueue;

/**

* Created by 杨小龙 on 2016-07-24.

* 邮箱:1172875805@qq.com

*/

public class DownloadThread implements Runnable {

private ConcurrentLinkedQueue queue;

public DownloadThread(ConcurrentLinkedQueue queue){

this.queue = queue;

}

public void run(){

while (true){

String url = queue.poll();

while(url == null){

try{

Thread.sleep(1000);

}catch (Exception e){

e.printStackTrace();

}

finally {

url = queue.poll();

}

}

String uuid = UUID.randomUUID().toString();

String index = uuid.substring(0,2);

Download download = new Download(url, "./data/"+index+"/", uuid+".jpg");

download.downloadCore();

}

}

}

最后的文件是Main文件,用来启动该程序!

Test.java/**

* Created by 杨小龙 on 2016/7/3.

* 邮箱:1172875805@qq.com

*/

public class Test {

public static void main(String[] args) throws Exception{

DownloadGirl.startThread();

DownloadGirl.getImgUrl();

}

}



推荐阅读
  • 本文探讨了如何利用HTML5和JavaScript在浏览器中进行本地文件的读取和写入操作,并介绍了获取本地文件路径的方法。HTML5提供了一系列API,使得这些操作变得更加简便和安全。 ... [详细]
  • 本文探讨了浏览器的同源策略限制及其对 AJAX 请求的影响,并详细介绍了如何在 Spring Boot 应用中优雅地处理跨域请求,特别是当请求包含自定义 Headers 时的解决方案。 ... [详细]
  • 本文将介绍如何利用Python爬虫技术抓取国内主流在线学习平台的数据,并以51CTO学院为例,进行详细的技术解析和实践操作。 ... [详细]
  • python爬虫Demo
    1爬虫功能:爬取某域名下所有网页,比如爬取python文档&amp;#160;https:docs.python.orgzh-cn3&amp;#160;,爬取之后, ... [详细]
  • 在高并发需求的C++项目中,我们最初选择了JsonCpp进行JSON解析和序列化。然而,在处理大数据量时,JsonCpp频繁抛出异常,尤其是在多线程环境下问题更为突出。通过分析发现,旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估,我们最终选择了RapidJSON作为替代方案,并实现了显著的性能提升。 ... [详细]
  • 本文探讨了2019年前端技术的发展趋势,包括工具化、配置化和泛前端化等方面,并提供了详细的学习路线和职业规划建议。 ... [详细]
  • 本文介绍了如何利用Java中的URLConnection类来实现基本的网络爬虫功能,包括向目标网站发送请求、接收HTML响应、解析HTML以提取所需信息,并处理可能存在的递归爬取需求。 ... [详细]
  • 深入解析ES6至ES8的新特性与应用
    本文详细介绍了自2015年发布的ECMAScript 6.0(简称ES6)以来,JavaScript语言的多项重要更新,旨在帮助开发者更好地理解和利用这些新特性进行复杂应用的开发。 ... [详细]
  • Microsoft即将发布WPF/E的CTP(Community Technology Preview)和SDK,标志着RIA(Rich Internet Application)技术的新里程碑。更多详情及下载链接请参见MSDN官方页面。 ... [详细]
  • ServletContext接口在Java Web开发中扮演着重要角色,它提供了一种方式来获取关于整个Web应用程序的信息。通过ServletContext,开发者可以访问初始化参数、共享数据以及应用资源。 ... [详细]
  • 探讨GET与POST请求数据传输的最大容量
    在Web开发领域,GET和POST是最常见的两种数据传输方法。本文将深入探讨这两种请求方式在不同环境下的数据传输能力及其限制。 ... [详细]
  • 使用Python爬虫技术从网页中提取图片链接的方法与示例
    本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能,并提供了一个实用的代码示例。 ... [详细]
  • AJAX技术允许网页在不重新加载整个页面的情况下进行异步更新,通过向服务器发送请求并接收JSON格式的数据,实现局部内容的动态刷新。 ... [详细]
  • C# 对象转 JSON 字符串的方法与应用
    本文介绍如何在 C# 中使用一般处理程序(ASHX)将对象转换为 JSON 字符串,并通过设置响应类型为 application/json 来确保客户端能够正确解析返回的数据。同时,文章还提供了 HTML 页面中不依赖 jQuery 的 AJAX 方法来接收和处理这些 JSON 数据的具体实现。 ... [详细]
  • 使用爬虫测试Django网站的稳定性
    本文介绍如何通过爬虫频繁访问Django网站以测试其稳定性和性能。首先需要禁用Django的CSRF保护,然后使用Python爬虫脚本进行POST请求测试。 ... [详细]
author-avatar
爷们疯子2_593_278
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有