热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

android封装抓取网页信息的实例代码

android封装抓取网页信息的实例代码,需要的朋友可以参考一下

代码如下:

package cn.mypic; 

 
    import java.io.BufferedInputStream; 
    import java.io.BufferedReader; 
    import java.io.File; 
    import java.io.FileNotFoundException; 
    import java.io.FileOutputStream; 
    import java.io.IOException; 
    import java.io.InputStreamReader; 
    import java.net.MalformedURLException; 
    import java.net.URL; 
    import java.util.regex.Matcher; 
    import java.util.regex.Pattern; 

 
    public class GetContentPicture { 
    //得到了图片地址并下载图片 
    public void getHtmlPicture(String httpUrl) { 
    URL url; 
    BufferedInputStream in; 
    FileOutputStream file; 
    int count;                      //图片文件名序号  
    FileNumber num=new FileNumber();//图片文件名序号类,num为对象 
    count=num.NumberReadFromFile();//获取图片文件序号 
    try { 
    System.out.println("获取网络图片"); 
       String fileName = (String.valueOf(count)).concat(httpUrl.substring(httpUrl.lastIndexOf(".")));//图片文件序号加上图片的后缀名,后缀名用了String内的一个方法来获得 
        //httpUrl.substring(httpUrl.lastIndexOf("/"));//这样获得的文件名即是图片链接里图片的名字 
       String filePath = "d:/image/";//图片存储的位置 
       url = new URL(httpUrl); 

       in = new BufferedInputStream(url.openStream()); 

       file = new FileOutputStream(new File(filePath+fileName)); 
       int t; 
       while ((t = in.read()) != -1) { 
        file.write(t); 
       } 
       file.close(); 
       in.close(); 
       System.out.println("图片获取成功"); 
       count=count+1;//图片文件序号加1 
       num.NumberWriteToFile(count);//将图片名序号保存 
    } catch (MalformedURLException e) { 
       e.printStackTrace(); 
    } catch (FileNotFoundException e) { 
       e.printStackTrace(); 
    } catch (IOException e) { 
       e.printStackTrace(); 
    } 
    } 

    //获取网页的代码保存在String格式的Content中 
    public String getHtmlCode(String httpUrl) throws IOException { 
    String cOntent=""; 
    URL uu = new URL(httpUrl); // 创建URL类对象 
    BufferedReader ii = new BufferedReader(new InputStreamReader(uu 
        .openStream())); // //使用openStream得到一输入流并由此构造一个BufferedReader对象 
    String input; 
    while ((input = ii.readLine()) != null) { // 建立读取循环,并判断是否有读取值 
       content += input; 
    } 
    ii.close(); 
    return content; 
    } 
    //分析网页代码,找到匹配的网页图片地址 
    public void get(String url) throws IOException { 

    String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";//用于在网页代码Content中查找匹配的图片链接。 
    String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")"; 

    String cOntent= this.getHtmlCode(url);//this指对象gcp,在此地调用获取网页代码,getHtmlCode方法 
    //System.out.println(content); //输出的content将是一个连续的字符串。 

    Pattern pattern = Pattern.compile(searchImgReg);//java.util.regex.Pattern 
    Matcher matcher = pattern.matcher(content);     //java.util.regex.Matcher 
    while (matcher.find()) { 
       System.out.println(matcher.group(3));//输出图片链接地址到屏幕 
    // System.out.println(url); 
       this.getHtmlPicture(matcher.group(3));//对象调用getHtmlPicture从网上下载并输出图片文件到指定目录 

    } 

    pattern = Pattern.compile(searchImgReg2); 
    matcher = pattern.matcher(content); 
    while (matcher.find()) { 
       System.out.println(matcher.group(3)); 
       this.getHtmlPicture(matcher.group(3)); 

    } 
    // searchImgReg = 
    // "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")"; 
    } 
    //主函数url网页的地址 
    public static void main(String[] args) throws IOException { 

    String url = "http://www.baidu.com"; 
    GetContentPicture gcp = new GetContentPicture(); 
    gcp.get(url); 

 
    } 



代码如下:

package cn.mypic; 

    import java.io.*; 

    public class FileNumber{ 
    //文件写 
    public void NumberWriteToFile(int x){ 
       int c=0; 
       c=x; 
       File filePath=new File("d:/image");//文件名序号TXT文件保存地址 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileOutputStream fout=new FileOutputStream(f1); 
        DataOutputStream out=new DataOutputStream(fout); 
        out.writeInt(c); 

       } 
       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       } 

    } 
    //文件读 
    public int NumberReadFromFile(){ 
       int c1 = 0; 
       File filePath=new File("d:/image"); 
       File f1=new File(filePath,"number.txt"); 
       try{ 
        FileInputStream fin=new FileInputStream(f1); 
        DataInputStream in=new DataInputStream(fin); 
        c1=in.readInt(); 
        System.out.println(c1);//输出文件内容至屏幕 
       } 
       catch(FileNotFoundException e){ 
        System.err.println(e); 
       } 
       catch(IOException e){ 
        System.err.println(e); 
       } 
       return c1; 
    } 
    public static void main(String args[]){ 

    } 

}


推荐阅读
  • 本文介绍了一个来自AIZU ONLINE JUDGE平台的问题,即清洁机器人2.0。该问题来源于某次编程竞赛,涉及复杂的算法逻辑与实现技巧。 ... [详细]
  • 如何寻找程序员的兼职机会
    随着远程工作的兴起,越来越多的程序员开始寻找灵活的兼职工作机会。本文将介绍几个适合程序员、设计师、翻译等专业人士的在线平台,帮助他们找到合适的兼职项目。 ... [详细]
  • 汇编语言标识符和表达式(四)(表达式与符号定义语句)
    7、表达式表达式是程序设计课程里的一个重要的基本概念,它可由运算符、操作符、括号、常量和一些符号连在一起的式子。在汇编语言中,表达式分为:数值表达式和地址表达式。(1)进制伪指令R ... [详细]
  • 本文由chszs撰写,详细介绍了Apache Mina框架的核心开发流程及自定义协议处理方法。文章涵盖从创建IoService实例到协议编解码的具体步骤,适合希望深入了解Mina框架应用的开发者。 ... [详细]
  • 本文针对HDU 1042 N! 问题提供详细的解析和代码实现。题目要求计算给定整数N(0 ≤ N ≤ 10000)的阶乘N!。文章不仅提供了算法思路,还附上了C++语言的具体实现。 ... [详细]
  • 本文介绍了使用Python和C语言编写程序来计算一个给定数值的平方根的方法。通过迭代算法,我们能够精确地得到所需的结果。 ... [详细]
  • 本文探讨了Linux环境下线程私有数据(Thread-Specific Data, TSD)的概念及其重要性,介绍了如何通过TSD技术避免多线程间全局变量冲突的问题,并提供了具体的实现方法和示例代码。 ... [详细]
  • 汇总了2023年7月7日最新的网络安全新闻和技术更新,包括最新的漏洞披露、工具发布及安全事件。 ... [详细]
  • Canopy环境安装与使用指南
    《利用Python进行数据分析》一书推荐使用EPDFree版本的环境,然而随着技术的发展,目前更多人倾向于使用Canopy。本文将详细介绍Canopy的安装及使用方法。 ... [详细]
  • 本文提供了一个关于AC自动机(Aho-Corasick Algorithm)的详细解析与实现方法,特别针对P3796题目进行了深入探讨。文章不仅涵盖了AC自动机的基本概念,还重点讲解了如何通过构建失败指针(fail pointer)来提高字符串匹配效率。 ... [详细]
  • 使用Python构建网页版图像编辑器
    本文详细介绍了一款基于Python开发的网页版图像编辑工具,具备多种图像处理功能,如黑白转换、铅笔素描效果等。 ... [详细]
  • 本报告记录了嵌入式软件设计课程中的第二次实验,主要探讨了使用KEIL V5开发环境和ST固件库进行GPIO控制及按键响应编程的方法。通过实际操作,加深了对嵌入式系统硬件接口编程的理解。 ... [详细]
  • 使用OpenGL实现三维空间中任意两点间圆柱体管道的绘制
    本文介绍了如何利用OpenGL在三维空间中的任意两个点之间绘制具有指定半径的圆柱体管道。鉴于OpenGL较为底层,许多功能需自行实现,文中提供了详细的代码示例及解析。 ... [详细]
  • 本文分享了作者在使用LaTeX过程中的几点心得,涵盖了从文档编辑、代码高亮、图形绘制到3D模型展示等多个方面的内容。适合希望深入了解LaTeX高级功能的用户。 ... [详细]
  • 本文介绍如何使用R语言中的相关包来解析和转换搜狗细胞词库(.scel格式),并将其导出为CSV文件,以便于后续的数据分析和文本挖掘任务。 ... [详细]
author-avatar
哈哈不会玩NO1
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有