当前位置: 开发笔记 > 前端 > 正文

asp.net采集页面上所有图像图片资源的具体方法

作者：龙争虎斗石榴agj | 来源：互联网 | 2022-03-19 02:42

这篇文章主要为大家详细介绍了asp.net采集页面上所有图像资源的具体方法，感兴趣的小伙伴们可以参考一下

有时我们需要采集一些信息到自己的数据库，本地磁盘，我们经常使用的是WebClient,WebRequest等等，今天主要说一下，对于一个ＵＲＩ地址，采集这个页面上所有的图像资源，下面是源代码，供大家参考，学习。

/// 
  /// 下载指定ＵＲＬ下的所有图片
  /// 
  public class WebPageImage
  {
    /// 
    /// 获取网页中全部图片
    /// 
    /// 网页地址
    /// 网页编码，为空自动判断
    /// 全部图片显示代码
    public string getImages(string url, string charSet)
    {
      string s = getHtml(url, charSet);
      return getPictures(s, url);
    }

    /// 
    /// 获取网页中全部图片
    /// 
    /// 网址
    /// 全部图片代码
    public string getImages(string url)
    {
      return getImages(url, "");
    }

    string doman(string url)
    {
      Uri u = new Uri(url);
      return u.Host;
    }

    /// 
    /// 获取网页内容
    /// 
    /// 网站地址
    /// 目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 
    /// 
    string getHtml(string url, string charSet)
    {
      WebClient myWebClient = new WebClient();
      //创建WebClient实例myWebClient 
      // 需要注意的： 
      //有的网页可能下不下来，有种种原因比如需要COOKIE,编码问题等等 
      //这是就要具体问题具体分析比如在头部加入COOKIE 
      // webclient.Headers.Add("COOKIE", COOKIE); 
      //这样可能需要一些重载方法。根据需要写就可以了 

      //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据。 
      myWebClient.Credentials = CredentialCache.DefaultCredentials;
      //如果服务器要验证用户名,密码 
      //NetworkCredential mycred = new NetworkCredential(struser, strpassword); 
      //myWebClient.Credentials = mycred; 
      //从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号） 
      byte[] myDataBuffer = myWebClient.DownloadData(url);
      string strWebData = Encoding.Default.GetString(myDataBuffer);

      //获取网页字符编码描述信息 
      Match charSetMatch = Regex.Match(strWebData, "]*&＃63;\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']&＃63;[\s\t\r\n]*(&＃63;[^\s\t\r\n""'<>]*)[^<>]*&＃63;/&＃63;[\s\t\r\n]*>");
      string s = string.Empty;
      for (int i = 0; i " + Environment.NewLine;
      }
      return s;
    }

    /// 
    /// 图片实体
    /// 图片文件属性处理类
    /// 
    public class pictures
    {
      public pictures(string strHtml, string baseUrl)
      {
        _html = strHtml;
        Uri u1 = new Uri(baseUrl);
        _doman = u1.Host;
        _baseUrl = u1.Scheme + "://" + _doman;
        setSrc();
      }

      private string _html = string.Empty;
      private string _baseUrl = string.Empty;
      private string _doman = string.Empty;

      public string GetHtml
      {
        get { return _html; }
      }

      public string Alt
      {
        get
        {
          return GetAttribute("alt")[0];
        }
      }

      public string Src
      {
        get
        {
          string s = GetAttribute("src")[0];
          return s;
        }
      }

      /// 
      /// 根据基路径把相对路径转换成绝对径
      /// 
      /// 基础路径
      /// 待转换的相对路径
      /// 绝对路径
      public string absUrl(string baseUrl, string u)
      {
        Uri ub = new Uri(baseUrl);
        Uri ua = new Uri(ub, u);
        return ua.AbsoluteUri;
      }

      private void setSrc()
      {
        string strPattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']&＃63;\S+[""']&＃63;";
        string src = GetAttribute("src")[0].ToLower();
        if (!(src.IndexOf("http://") == 0 || src.IndexOf("https://") == 0) && _baseUrl.Length > 10)
        {
          src = absUrl(_baseUrl, src);
          string s = "src=\"" + src + "\"";
          _html = Regex.Replace(_html, strPattern, s);
        }
      }

      /// 
      /// 获取HTML代码中标签属性
      /// 
      /// HTML代码
      /// 属性名称
      /// 属性值集合
      private string[] GetAttribute(string strAttributeName)
      {
        List lstAttribute = new List();
        string strPattern = string.Format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']&＃63;\S+[""']&＃63;",
          strAttributeName
          );
        MatchCollection matchs = Regex.Matches(_html, strPattern, RegexOptions.IgnoreCase);
        foreach (Match m in matchs)
        {
          lstAttribute.Add(m.Value.Split('=')[1].Replace("\"", "").Replace("'", ""));
        }
        if (lstAttribute.Count == 0) lstAttribute.Add("");
        return lstAttribute.ToArray();
      }
    }
  }

调用：

new WebPageImage().getImages(http://www.sina.com)

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助。

推荐阅读

dom
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
dom
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
html
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
html
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
firefox
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
html
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
html
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
html
火星商店问题：线段树分治与持久化Trie树的应用

本题涉及编号为1至n的火星商店，每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品，以及查询某段时间内某些商店中所有商品（含永久商品）与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]

蜡笔小新 2024-12-27 21:23:11
html
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
html
汇编语言高级特性总结

本文总结了汇编语言中第五至第八章的关键知识点，涵盖间接寻址、指令格式、安全编程空间、逻辑运算指令及数据重复定义等内容。通过详细解析这些内容，帮助读者更好地理解和应用汇编语言的高级特性。 ... [详细]

蜡笔小新 2024-12-27 19:52:28
html
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
css
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
css
路由器配置与网络地址转换

本文介绍了如何在具备多个IP地址的FTP服务器环境中，通过动态地址端口复用和地址转换技术优化网络配置。重点讨论了2Mb/s DDN专线连接、Cisco 2611路由器及内部网络地址规划。 ... [详细]

蜡笔小新 2024-12-27 18:25:35
上传
如何配置Unturned服务器及其消息设置

本文详细介绍了Unturned服务器的配置方法和消息设置技巧，帮助用户了解并优化服务器管理。同时，提供了关于云服务资源操作记录、远程登录设置以及文件传输的相关补充信息。 ... [详细]

蜡笔小新 2024-12-27 13:47:38
上传
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50

龙争虎斗石榴agj

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章