热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

c#实现网页图片提取工具代码分享

c#实现网页图片提取工具代码分享,大家参考使用吧

代码如下:

public Array MatchHtml(string html,string com)
       {
           List urls = new List();
           html = html.ToLower();
           //获取SRC标签中的URL
           Regex regexSrc = new Regex("src=\"[^\"]*[(.jpg)(.png)(.gif)(.bmp)(.ico)]\"");
           foreach(Match m in regexSrc.Matches(html))
           {
               string src = m.Value;
               src = src.Replace("src=","").Replace("\"","");
               if (!src.Contains("http"))
                   src = com + src;
               if(!urls.Contains(src))
               urls.Add(src);
           }
           //获取HREF标签中URL
           Regex regexHref = new Regex("href=\"[^\"]*[(.jpg)(.png)(.gif)(.bmp)(.ico)]\"");
           foreach (Match m in regexHref.Matches(html))
           {
               string href = m.Value;
               href = href.Replace("href=", "").Replace("\"", "");
               if (!href.Contains("http"))
                   href = com + href;
               if(!urls.Contains(href))
               urls.Add(href);
           }
           return urls.ToArray();
       }

代码如下:

[DllImport("kernel32.dll")]
       static extern bool SetConsoleMode(IntPtr hConsoleHandle, int mode);
       [DllImport("kernel32.dll")]
       static extern bool GetConsoleMode(IntPtr hConsoleHandle, out int mode);
       [DllImport("kernel32.dll")]
       static extern IntPtr GetStdHandle(int handle);
       const int STD_INPUT_HANDLE = -10;
       const int ENABLE_QUICK_EDIT_MODE = 0x40 | 0x80;
       public static void EnableQuickEditMode()
       {
           int mode; IntPtr handle = GetStdHandle(STD_INPUT_HANDLE);
           GetConsoleMode(handle, out mode);
           mode |= ENABLE_QUICK_EDIT_MODE;
           SetConsoleMode(handle, mode);
       }
       static void Main(string[] args)
       {
           EnableQuickEditMode();
           int oldCount = 0;
           Console.Title = "TakeImageFromInternet";
           string path = "E:\\Download\\loading\\";
           while (true)
           {
               Console.Clear();
               string countFile = "E:\\CountFile.txt";//用来计数的文本,以至于文件名不重复
               int cursor = 0;
               if (File.Exists(countFile))
               {
                   string text = File.ReadAllText(countFile);
                   try
                   {
                       cursor =oldCount = Convert.ToInt32(text);//次数多了建议使用long
                   }
                   catch { }
               }
               Console.Write("please input a url:");
               string url = "http://www.baidu.com/";
               string temp = Console.ReadLine();
               if (!string.IsNullOrEmpty(temp))
                   url = temp;
               Match mcom = new Regex(@"^(?i)http://(\w+\.){2,3}(com(\.cn)?|cn|net)\b").Match(url);//获取域名
               string com = mcom.Value;
               //Console.WriteLine(mcom.Value);
               Console.Write("please input a save path:");
               temp = Console.ReadLine();
               if (Directory.Exists(temp))
                   path = temp;
               Console.WriteLine();
               WebClient client = new WebClient();
               byte[] htmlData = null;
               htmlData = client.DownloadData(url);
               MemoryStream mstream = new MemoryStream(htmlData);
               string html = "";
               using (StreamReader sr = new StreamReader(mstream))
               {
                   html = sr.ReadToEnd();
               }
               Array urls = new MatchHtmlImageUrl().MatchHtml(html,com);

               foreach (string imageurl in urls)
               {
                  Console.WriteLine(imageurl);
                   byte[] imageData = null;
                   try
                   {
                       imageData = client.DownloadData(imageurl);
                   }
                   catch { }
                   if (imageData != null && imageData.Length>0)
                       using (MemoryStream ms = new MemoryStream(imageData))
                       {
                           try
                           {

                               string ext = Aping.Utility.File.FileOpration.ExtendName(imageurl);
                               ImageFormat format = ImageFormat.Jpeg;
                               switch (ext)
                               {
                                   case ".jpg":
                                       format = ImageFormat.Jpeg;
                                       break;
                                   case ".bmp":
                                       format = ImageFormat.Bmp;
                                       break;
                                   case ".png":
                                       format = ImageFormat.Png;
                                       break;
                                   case ".gif":
                                       format = ImageFormat.Gif;
                                       break;
                                   case ".ico":
                                       format = ImageFormat.Icon;
                                       break;
                                   default:
                                       continue;
                               }
                               Image image = new Bitmap(ms);
                               if (Directory.Exists(path))
                                   image.Save(path + "\\" + cursor + ext, format);
                           }
                           catch(Exception ex) { Console.WriteLine(ex.Message); }
                       }
                   cursor++;
               }
               mstream.Close();
               File.WriteAllText(countFile, cursor.ToString(), Encoding.UTF8);
               Console.WriteLine("take done...image count:"+(cursor-oldCount).ToString());
           }           
       }


推荐阅读
  • 本文探讨了如何通过最小生成树(MST)来计算严格次小生成树。在处理过程中,需特别注意所有边权重相等的情况,以避免错误。我们首先构建最小生成树,然后枚举每条非树边,检查其是否能形成更优的次小生成树。 ... [详细]
  • 使用Numpy实现无外部库依赖的双线性插值图像缩放
    本文介绍如何仅使用Numpy库,通过双线性插值方法实现图像的高效缩放,避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理,并提供了完整的代码示例。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • QBlog开源博客系统:Page_Load生命周期与参数传递优化(第四部分)
    本教程将深入探讨QBlog开源博客系统的Page_Load生命周期,并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 深入理解 Oracle 存储函数:计算员工年收入
    本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ... [详细]
  • PyCharm下载与安装指南
    本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境(IDE),涵盖Windows、macOS和Linux系统,同时提供详细的安装步骤及配置建议。 ... [详细]
  • 在 Windows 10 中,F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键,并恢复其标准功能键的作用。请注意,部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]
  • 本文总结了2018年的关键成就,包括职业变动、购车、考取驾照等重要事件,并分享了读书、工作、家庭和朋友方面的感悟。同时,展望2019年,制定了健康、软实力提升和技术学习的具体目标。 ... [详细]
  • 在计算机技术的学习道路上,51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域,51CTO学院始终是我信赖的学习平台。 ... [详细]
  • 本周信息安全小组主要进行了CTF竞赛相关技能的学习,包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外,还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • CSS 布局:液态三栏混合宽度布局
    本文介绍了如何使用 CSS 实现液态的三栏布局,其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性,可以实现灵活且响应式的网页设计。 ... [详细]
  • 本文探讨了如何像程序员一样思考,强调了将复杂问题分解为更小模块的重要性,并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]
  • 本文详细介绍了如何解决Uploadify插件在Internet Explorer(IE)9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码,确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]
author-avatar
名禅
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有