热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Android示例代码:实现网页信息抓取与图片下载

本文提供了一个Android应用中用于抓取网页信息并下载图片的示例代码。通过该代码,开发者可以轻松实现从指定URL获取网页内容及其中的图片资源。

在开发Android应用程序时,有时需要从互联网上抓取特定网站的信息或图片。下面的代码示例展示了如何使用Java实现这一功能。该代码首先定义了一个名为GetContentPicture的类,该类包含了从网页获取HTML内容、解析HTML以提取图片链接以及根据这些链接下载图片的方法。



示例代码




package cn.mypic;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetContentPicture {
private int fileCount;

public GetContentPicture() {
FileNumber fileNumber = new FileNumber();
fileCount = fileNumber.readFromFile();
}

public void downloadImage(String imageUrl) {
try {
URL url = new URL(imageUrl);
BufferedInputStream in = new BufferedInputStream(url.openStream());
File imageFile = new File("d:/image/" + fileCount + imageUrl.substring(imageUrl.lastIndexOf(".")));
FileOutputStream fos = new FileOutputStream(imageFile);
byte[] buffer = new byte[1024];
int read;
while ((read = in.read(buffer, 0, 1024)) != -1) {
fos.write(buffer, 0, read);
}
fos.close();
in.close();
fileCount++;
new FileNumber().writeToFile(fileCount);
System.out.println("图片下载完成:" + imageUrl);
} catch (Exception e) {
e.printStackTrace();
}
}

public String fetchWebContent(String webUrl) throws IOException {
StringBuilder cOntent= new StringBuilder();
URL url = new URL(webUrl);
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
String line;
while ((line = reader.readLine()) != null) {
content.append(line);
}
reader.close();
return content.toString();
}

public void extractAndDownloadImages(String webUrl) throws IOException {
String webCOntent= fetchWebContent(webUrl);
Pattern pattern = Pattern.compile("(?i)(src|background)=(['"])?/?(\S+(?:jpg|jpeg|png|gif))(['"])?");
Matcher matcher = pattern.matcher(webContent);
while (matcher.find()) {
String imgPath = matcher.group(3);
if (!imgPath.startsWith("http")) {
imgPath = webUrl + imgPath;
}
downloadImage(imgPath);
}
}

public static void main(String[] args) throws IOException {
String targetUrl = "http://example.com";
GetContentPicture gcp = new GetContentPicture();
gcp.extractAndDownloadImages(targetUrl);
}
}

// 文件操作辅助类
public class FileNumber {
public void writeToFile(int number) {
try (FileOutputStream fos = new FileOutputStream(new File("d:/image/number.txt"));
DataOutputStream dos = new DataOutputStream(fos)) {
dos.writeInt(number);
} catch (IOException e) {
e.printStackTrace();
}
}

public int readFromFile() {
try (FileInputStream fis = new FileInputStream(new File("d:/image/number.txt"));
DataInputStream dis = new DataInputStream(fis)) {
return dis.readInt();
} catch (IOException e) {
e.printStackTrace();
}
return 0;
}
}

推荐阅读
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • golang常用库:配置文件解析库/管理工具viper使用
    golang常用库:配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库,是由大神SteveFrancia开发,他在google领导着golang的 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文介绍了如何使用 Spring Boot DevTools 实现应用程序在开发过程中自动重启。这一特性显著提高了开发效率,特别是在集成开发环境(IDE)中工作时,能够提供快速的反馈循环。默认情况下,DevTools 会监控类路径上的文件变化,并根据需要触发应用重启。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 本文介绍了在Windows环境下使用pydoc工具的方法,并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外,还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]
  • PHP 5.5.0rc1 发布:深入解析 Zend OPcache
    2013年5月9日,PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版,这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • ###问题删除目录时遇到错误提示:rm:cannotremoveusrlocaltmp’:Directorynotempty即使用rm-rf,还是会出现 ... [详细]
  • 本文详细介绍了Java中的输入输出(IO)流,包括其基本概念、分类及应用。IO流是用于在程序和外部资源之间传输数据的一套API。根据数据流动的方向,可以分为输入流(从外部流向程序)和输出流(从程序流向外部)。此外,还涵盖了字节流和字符流的区别及其具体实现。 ... [详细]
author-avatar
未来不是梦r
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有