当前位置: 开发笔记 > 前端 > 正文

提取HTML代码中文字的C#函数

作者：yilande | 来源：互联网 | 2022-08-09 03:47

提取HTML代码中文字的C#函数

///

/// 去除HTML标记
///

  /// 包括HTML的源码
  /// 已经去除后的文字
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"",

          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
          @"([\r\n])[\s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&＃(\d+);",
          @"-->",
          @"
         };

   string [] aryRep = {
           "",
           "",
           "",
           "\"",
           "&",
           "<",
           ">",
           " ",
           "\xa1",//chr(161),
           "\xa2",//chr(162),
           "\xa3",//chr(163),
           "\xa9",//chr(169),
           "",
           "\r\n",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("\r\n","");

   return strOutput;
  }

html

推荐阅读

html
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
html
深入解析 BERT 中的 Transformer Attention 机制

本文详细介绍了 BERT 模型中 Transformer 的 Attention 机制，包括其原理、实现代码以及在自然语言处理中的应用。通过结合多个权威资源，帮助读者全面理解这一关键技术。 ... [详细]

蜡笔小新 2024-12-28 12:57:56
html
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
js
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
js
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
js
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
js
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
js
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
base64
信息安全小组第一周工作总结

本周信息安全小组主要进行了CTF竞赛相关技能的学习，包括HTML和CSS的基础知识、逆向工程的初步探索以及整数溢出漏洞的学习。此外，还掌握了Linux命令行操作及互联网工作原理的基本概念。 ... [详细]

蜡笔小新 2024-12-28 05:52:22
svg
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
js
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
js
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
js
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
js
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05

yilande

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章