热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

android封装抓取网页信息的实例代码

android封装抓取网页信息的实例代码,需要的朋友可以参考一下

代码如下:

package cn.mypic; 

 
    import java.io.BufferedInputStream; 
    import java.io.BufferedReader; 
    import java.io.File; 
    import java.io.FileNotFoundException; 
    import java.io.FileOutputStream; 
    import java.io.IOException; 
    import java.io.InputStreamReader; 
    import java.net.MalformedURLException; 
    import java.net.URL; 
    import java.util.regex.Matcher; 
    import java.util.regex.Pattern; 

 
    public class GetContentPicture { 
    //得到了图片地址并下载图片 
    public void getHtmlPicture(String httpUrl) { 
    URL url; 
    BufferedInputStream in; 
    FileOutputStream file; 
    int count;                      //图片文件名序号  
    FileNumber num=new FileNumber();//图片文件名序号类,num为对象 
    count=num.NumberReadFromFile();//获取图片文件序号 
    try { 
    System.out.println("获取网络图片"); 
       String fileName = (String.valueOf(count)).concat(httpUrl.substring(httpUrl.lastIndexOf(".")));//图片文件序号加上图片的后缀名,后缀名用了String内的一个方法来获得 
        //httpUrl.substring(httpUrl.lastIndexOf("/"));//这样获得的文件名即是图片链接里图片的名字 
       String filePath = "d:/image/";//图片存储的位置 
       url = new URL(httpUrl); 

       in = new BufferedInputStream(url.openStream()); 

       file = new FileOutputStream(new File(filePath+fileName)); 
       int t; 
       while ((t = in.read()) != -1) { 
        file.write(t); 
       } 
       file.close(); 
       in.close(); 
       System.out.println("图片获取成功"); 
       count=count+1;//图片文件序号加1 
       num.NumberWriteToFile(count);//将图片名序号保存 
    } catch (MalformedURLException e) { 
       e.printStackTrace(); 
    } catch (FileNotFoundException e) { 
       e.printStackTrace(); 
    } catch (IOException e) { 
       e.printStackTrace(); 
    } 
    } 

    //获取网页的代码保存在String格式的Content中 
    public String getHtmlCode(String httpUrl) throws IOException { 
    String cOntent=""; 
    URL uu = new URL(httpUrl); // 创建URL类对象 
    BufferedReader ii = new BufferedReader(new InputStreamReader(uu 
        .openStream())); // //使用openStream得到一输入流并由此构造一个BufferedReader对象 
    String input; 
    while ((input = ii.readLine()) != null) { // 建立读取循环,并判断是否有读取值 
       content += input; 
    } 
    ii.close(); 
    return content; 
    } 
    //分析网页代码,找到匹配的网页图片地址 
    public void get(String url) throws IOException { 

    String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";//用于在网页代码Content中查找匹配的图片链接。 
    String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")"; 

    String cOntent= this.getHtmlCode(url);//this指对象gcp,在此地调用获取网页代码,getHtmlCode方法 
    //System.out.println(content); //输出的content将是一个连续的字符串。 

    Pattern pattern = Pattern.compile(searchImgReg);//java.util.regex.Pattern 
    Matcher matcher = pattern.matcher(content);     //java.util.regex.Matcher 
    while (matcher.find()) { 
       System.out.println(matcher.group(3));//输出图片链接地址到屏幕 
    // System.out.println(url); 
       this.getHtmlPicture(matcher.group(3));//对象调用getHtmlPicture从网上下载并输出图片文件到指定目录 

    } 

    pattern = Pattern.compile(searchImgReg2); 
    matcher = pattern.matcher(content); 
    while (matcher.find()) { 
       System.out.println(matcher.group(3)); 
       this.getHtmlPicture(matcher.group(3)); 

    } 
    // searchImgReg = 
    // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")"; 
    } 
    //主函数url网页的地址 
    public static void main(String[] args) throws IOException { 

    String url = "http://www.baidu.com"; 
    GetContentPicture gcp = new GetContentPicture(); 
    gcp.get(url); 

 
    } 



代码如下:

package cn.mypic; 

    import java.io.*; 

    public class FileNumber{ 
    //文件写 
    public void NumberWriteToFile(int x){ 
       int c=0; 
       c=x; 
       File filePath=new File("d:/image");//文件名序号TXT文件保存地址 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileOutputStream fout=new FileOutputStream(f1); 
        DataOutputStream out=new DataOutputStream(fout); 
        out.writeInt(c); 

       } 
       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       } 

    } 
    //文件读 
    public int NumberReadFromFile(){ 
       int c1 = 0; 
       File filePath=new File("d:/image"); 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileInputStream fin=new FileInputStream(f1); 
        DataInputStream in=new DataInputStream(fin); 
        c1=in.readInt(); 
        System.out.println(c1);//输出文件内容至屏幕 
       } 
       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       } 
       return c1; 
    } 
    public static void main(String args[]){ 

    } 

}


推荐阅读
  • 2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商,ARM在嵌入式处理器市场占据主导地位,其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家,共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]
  • 程序员妻子吐槽:丈夫北漂8年终薪3万,存款情况令人意外
    一位程序员的妻子在网上分享了她丈夫在北京工作八年的经历,月薪仅3万元,存款情况却出乎意料。本文探讨了高学历人才在大城市的职场现状及生活压力。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • 本周信息安全小组主要进行了CTF竞赛相关技能的学习,包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外,还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • 本文探讨了如何像程序员一样思考,强调了将复杂问题分解为更小模块的重要性,并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]
  • 本文详细介绍了如何解决Uploadify插件在Internet Explorer(IE)9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码,确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]
  • 本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态,以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]
  • python的交互模式怎么输出名文汉字[python常见问题]
    在命令行模式下敲命令python,就看到类似如下的一堆文本输出,然后就进入到Python交互模式,它的提示符是>>>,此时我们可以使用print() ... [详细]
  • 火星商店问题:线段树分治与持久化Trie树的应用
    本题涉及编号为1至n的火星商店,每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品,以及查询某段时间内某些商店中所有商品(含永久商品)与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 本文总结了汇编语言中第五至第八章的关键知识点,涵盖间接寻址、指令格式、安全编程空间、逻辑运算指令及数据重复定义等内容。通过详细解析这些内容,帮助读者更好地理解和应用汇编语言的高级特性。 ... [详细]
  • 探讨如何高效使用FastJSON进行JSON数据解析,特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]
author-avatar
哈哈不会玩NO1
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有