Android示例代码：实现网页信息抓取与图片下载

作者：未来不是梦r | 来源：互联网 | 2024-11-28 17:04

本文提供了一个Android应用中用于抓取网页信息并下载图片的示例代码。通过该代码，开发者可以轻松实现从指定URL获取网页内容及其中的图片资源。

在开发Android应用程序时，有时需要从互联网上抓取特定网站的信息或图片。下面的代码示例展示了如何使用Java实现这一功能。该代码首先定义了一个名为GetContentPicture的类，该类包含了从网页获取HTML内容、解析HTML以提取图片链接以及根据这些链接下载图片的方法。

示例代码

package cn.mypic;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetContentPicture {
    private int fileCount;

    public GetContentPicture() {
        FileNumber fileNumber = new FileNumber();
        fileCount = fileNumber.readFromFile();
    }

    public void downloadImage(String imageUrl) {
        try {
            URL url = new URL(imageUrl);
            BufferedInputStream in = new BufferedInputStream(url.openStream());
            File imageFile = new File("d:/image/" + fileCount + imageUrl.substring(imageUrl.lastIndexOf(".")));
            FileOutputStream fos = new FileOutputStream(imageFile);
            byte[] buffer = new byte[1024];
            int read;
            while ((read = in.read(buffer, 0, 1024)) != -1) {
                fos.write(buffer, 0, read);
            }
            fos.close();
            in.close();
            fileCount++;
            new FileNumber().writeToFile(fileCount);
            System.out.println("图片下载完成：" + imageUrl);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public String fetchWebContent(String webUrl) throws IOException {
        StringBuilder cOntent= new StringBuilder();
        URL url = new URL(webUrl);
        BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
        String line;
        while ((line = reader.readLine()) != null) {
            content.append(line);
        }
        reader.close();
        return content.toString();
    }

    public void extractAndDownloadImages(String webUrl) throws IOException {
        String webCOntent= fetchWebContent(webUrl);
        Pattern pattern = Pattern.compile("(?i)(src|background)=(['"])?/?(\S+(?:jpg|jpeg|png|gif))(['"])?");
        Matcher matcher = pattern.matcher(webContent);
        while (matcher.find()) {
            String imgPath = matcher.group(3);
            if (!imgPath.startsWith("http")) {
                imgPath = webUrl + imgPath;
            }
            downloadImage(imgPath);
        }
    }

    public static void main(String[] args) throws IOException {
        String targetUrl = "http://example.com";
        GetContentPicture gcp = new GetContentPicture();
        gcp.extractAndDownloadImages(targetUrl);
    }
}

// 文件操作辅助类
public class FileNumber {
    public void writeToFile(int number) {
        try (FileOutputStream fos = new FileOutputStream(new File("d:/image/number.txt"));
             DataOutputStream dos = new DataOutputStream(fos)) {
            dos.writeInt(number);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public int readFromFile() {
        try (FileInputStream fis = new FileInputStream(new File("d:/image/number.txt"));
             DataInputStream dis = new DataInputStream(fis)) {
            return dis.readInt();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return 0;
    }
}

推荐阅读

string
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
string
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
input
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
string
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
char
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
string
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
version
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
filter
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
runtime
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
input
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
list
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
string
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
string
Java 类成员初始化顺序与数组创建

本文探讨了Java中类成员的初始化顺序、静态引入、可变参数以及finalize方法的应用。通过具体的代码示例，详细解释了这些概念及其在实际编程中的使用。 ... [详细]

蜡笔小新 2024-12-27 19:39:42
string
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43

未来不是梦r

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章