当前位置: 开发笔记 > 前端 > 正文

android封装抓取网页信息的实例代码

作者：哈哈不会玩NO1 | 来源：互联网 | 2022-05-08 17:37

android封装抓取网页信息的实例代码，需要的朋友可以参考一下

代码如下:

package cn.mypic;  

  
    import java.io.BufferedInputStream;  
    import java.io.BufferedReader;  
    import java.io.File;  
    import java.io.FileNotFoundException;  
    import java.io.FileOutputStream;  
    import java.io.IOException;  
    import java.io.InputStreamReader;  
    import java.net.MalformedURLException;  
    import java.net.URL;  
    import java.util.regex.Matcher;  
    import java.util.regex.Pattern;  

  
    public class GetContentPicture {  
    //得到了图片地址并下载图片  
    public void getHtmlPicture(String httpUrl) {  
    URL url;  
    BufferedInputStream in;  
    FileOutputStream file;  
    int count;                      //图片文件名序号   
    FileNumber num=new FileNumber();//图片文件名序号类，num为对象  
    count=num.NumberReadFromFile();//获取图片文件序号  
    try {  
    System.out.println("获取网络图片");  
       String fileName = (String.valueOf(count)).concat(httpUrl.substring(httpUrl.lastIndexOf(".")));//图片文件序号加上图片的后缀名，后缀名用了String内的一个方法来获得  
        //httpUrl.substring(httpUrl.lastIndexOf("/"));//这样获得的文件名即是图片链接里图片的名字  
       String filePath = "d:/image/";//图片存储的位置  
       url = new URL(httpUrl);  

       in = new BufferedInputStream(url.openStream());  

       file = new FileOutputStream(new File(filePath+fileName));  
       int t;  
       while ((t = in.read()) != -1) {  
        file.write(t);  
       }  
       file.close();  
       in.close();  
       System.out.println("图片获取成功");  
       count=count+1;//图片文件序号加1  
       num.NumberWriteToFile(count);//将图片名序号保存  
    } catch (MalformedURLException e) {  
       e.printStackTrace();  
    } catch (FileNotFoundException e) {  
       e.printStackTrace();  
    } catch (IOException e) {  
       e.printStackTrace();  
    }  
    }  

    //获取网页的代码保存在String格式的Content中  
    public String getHtmlCode(String httpUrl) throws IOException {  
    String cOntent="";  
    URL uu = new URL(httpUrl); // 创建URL类对象  
    BufferedReader ii = new BufferedReader(new InputStreamReader(uu  
        .openStream())); // //使用openStream得到一输入流并由此构造一个BufferedReader对象  
    String input;  
    while ((input = ii.readLine()) != null) { // 建立读取循环，并判断是否有读取值  
       content += input;  
    }  
    ii.close();  
    return content;  
    }  
    //分析网页代码，找到匹配的网页图片地址  
    public void get(String url) throws IOException {  

    String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";//用于在网页代码Content中查找匹配的图片链接。  
    String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";  

    String cOntent= this.getHtmlCode(url);//this指对象gcp，在此地调用获取网页代码，getHtmlCode方法  
    //System.out.println(content); //输出的content将是一个连续的字符串。  

    Pattern pattern = Pattern.compile(searchImgReg);//java.util.regex.Pattern  
    Matcher matcher = pattern.matcher(content);     //java.util.regex.Matcher  
    while (matcher.find()) {  
       System.out.println(matcher.group(3));//输出图片链接地址到屏幕  
    // System.out.println(url);  
       this.getHtmlPicture(matcher.group(3));//对象调用getHtmlPicture从网上下载并输出图片文件到指定目录  

    }  

    pattern = Pattern.compile(searchImgReg2);  
    matcher = pattern.matcher(content);  
    while (matcher.find()) {  
       System.out.println(matcher.group(3));  
       this.getHtmlPicture(matcher.group(3));  

    }  
    // searchImgReg =  
    // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";  
    }  
    //主函数url网页的地址  
    public static void main(String[] args) throws IOException {  

    String url = "http://www.baidu.com";  
    GetContentPicture gcp = new GetContentPicture();  
    gcp.get(url);  

  
    }  

}  

代码如下:

package cn.mypic;

    import java.io.*;

    public class FileNumber{
    //文件写
    public void NumberWriteToFile(int x){
       int c=0;
       c=x;
       File filePath=new File("d:/image");//文件名序号TXT文件保存地址
       File f1=new File(filePath,"number.txt");
       try{
        FileOutputStream fout=new FileOutputStream(f1);
        DataOutputStream out=new DataOutputStream(fout);
        out.writeInt(c);

       }
       catch(FileNotFoundException e){
        System.err.println(e);
       }
       catch(IOException e){
        System.err.println(e);
       }

    }
    //文件读
    public int NumberReadFromFile(){
       int c1 = 0;
       File filePath=new File("d:/image");
       File f1=new File(filePath,"number.txt");
       try{
        FileInputStream fin=new FileInputStream(f1);
        DataInputStream in=new DataInputStream(fin);
        c1=in.readInt();
        System.out.println(c1);//输出文件内容至屏幕
       }
       catch(FileNotFoundException e){
        System.err.println(e);
       }
       catch(IOException e){
        System.err.println(e);
       }
       return c1;
    }
    public static void main(String args[]){

    }

}

html

推荐阅读

css
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
css
程序员妻子吐槽：丈夫北漂8年终薪3万，存款情况令人意外

一位程序员的妻子在网上分享了她丈夫在北京工作八年的经历，月薪仅3万元，存款情况却出乎意料。本文探讨了高学历人才在大城市的职场现状及生活压力。 ... [详细]

蜡笔小新 2024-12-28 11:14:15
css
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
base64
信息安全小组第一周工作总结

本周信息安全小组主要进行了CTF竞赛相关技能的学习，包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外，还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]

蜡笔小新 2024-12-28 05:52:22
iframe
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
layout
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
layout
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
jquery
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
focus
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
focus
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
view
火星商店问题：线段树分治与持久化Trie树的应用

本题涉及编号为1至n的火星商店，每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品，以及查询某段时间内某些商店中所有商品（含永久商品）与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]

蜡笔小新 2024-12-27 21:23:11
view
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
css
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
css
汇编语言高级特性总结

本文总结了汇编语言中第五至第八章的关键知识点，涵盖间接寻址、指令格式、安全编程空间、逻辑运算指令及数据重复定义等内容。通过详细解析这些内容，帮助读者更好地理解和应用汇编语言的高级特性。 ... [详细]

蜡笔小新 2024-12-27 19:52:28
v8
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07

哈哈不会玩NO1

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章