当前位置: 开发笔记 > 编程语言 > 正文

网络采集软件核心技术剖析系列（2）---如何使用C#语言获得任意站点博文的正文及标题

作者：广东暖暖_小乖 | 来源：互联网 | 2023-08-11 07:59

一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第二篇，希望大家继续支持，为我继续写作提供动力。自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大

一本系列随笔概览及产生的背景

本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第二篇，希望大家继续支持，为我继续写作提供动力。

自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我，这个软件里面各种实用的功能是如何实现的。

该软件使用.NET技术开发，为回馈社区，现将该软件中用到的核心技术，开辟一个专栏，写一个系列文章，以飨广大技术爱好者。

本系列文章除了讲解网络采编发用到的各种重要技术之外，也提供了不少问题的解决思路和界面开发的编程经验，非常适合.NET开发的初级，中级读者，希望大家多多支持。

很多初学者常有此类困惑，“为什么我书也看了，C#相关的各个方面的知识都有所了解，但就是没法写出一个像样的应用呢？”，

这其实还是没有学会综合运用所学知识，锻炼出编程思维，建立起学习兴趣，我想该系列文章也许会帮到您，但愿如此。

开发环境：VS2008

本节源码位置：https://github.com/songboriceboy/GetWebContent

源码下载办法：安装SVN客户端(本文最后提供下载地址)，然后checkout以下的地址：https://github.com/songboriceboy/GetWebContent

系列文章提纲拟定如下：

1.如何使用C#语言获取博客园某个博主的全部随笔链接及标题；
2.如何使用C#语言获得博文的正文及标题；
3.使用C#语言如何将html网页转换成pdf（html2pdf）
4.如何使用C#语言下载博文中的全部图片到本地并可以离线浏览
5.如何使用C#语言合成多个单个的pdf文件到一个pdf中，并生成目录
6.网易博客的链接如何使用C#语言获取到，网易博客的特殊性；
7.微信公众号文章如何使用C#语言下载；
8.如何获取任意一篇文章的全部图文
9.如何使用C#语言去掉html中的全部标签获取纯文本（html2txt）
10.如何使用C#语言将多个html文件编译成chm（html2chm）
11.如何使用C#语言远程发布文章到新浪博客
12.如何使用C#语言开发静态站点生成器
13.如何使用C#语言搭建程序框架(经典Winform界面，顶部菜单栏，工具栏，左边树形列表，右边多Tab界面）
14.如何使用C#语言实现网页编辑器（Winform) ......

二第二节主要内容简介（如何使用C#语言获得任意站点博文的正文及标题）

使用C#语言获得任意站点博文的正文及标题的解决方案演示demo如下图所示：可执行文件下载

三基本原理

要想获取任意网页文章的正文及标题，我们除了要利用上一节提到的HtmlAgilityPack.dll程序集之外，还要借助于另外一个实用的程序集Fizzler.dll（http://fizzlerex.codeplex.com/）

HtmlAgilityPack是通过xpath来解析html元素，相对来说还是稍微麻烦些；Fizzler提供了类似css选择器的方式来解析html元素，非常符合我们的习惯。

通常对于某篇文章，我们只想保留文章的正文（去掉广告，侧边栏等四周的网页布局元素），接下来，我们就来看一下操作步骤，这里我们需要借助一下强大的浏览器工具。

1.使用firefox浏览器或chrome浏览器打开我们想要提取正文的网页，firefox要安装firebug插件，chrome直接按F12，这里我们以firefox举例：

比如，打开我们上一节的博文（http://www.cnblogs.com/ice-river/p/4110799.html），如下图所示：

首先右上角的小虫子图标在我们安装完firebug插件后出现，点击它，浏览器下端弹出调试界面，在调试界面中，点击我红线框起来的图标（一蓝色方框，上面有个箭头），此时你会发现网页中的各个元素都变为可框选的，我们框选正文之后，会发现在下面的调试界面对应的div元素被高亮选中，我们对该div元素（博客园这里是div#cnblogs_post_body）右键，弹出右键菜单，如下图所示：

我们点击[复制css路径菜单项]，此时我们粘贴板中就得到了正文的css路径[html body div#home div#main div#mainContent div.forFlow div#topics div.post div.postBody div#cnblogs_post_body]

对于Fizzler来说，我们只需要提供最后部分的div#cnblogs_post_body即可（大家记住，我们只需要从获得的css路径长字符串中从后往前看，拿到最后一个空格之后的字符串，这里是div#cnblogs_post_body

把这个字符串填入到我们demo的[正文css路径]部分，如下图所示：

其实对应于Fizzler来讲，只需一行代码：

   IEnumerable NodesMainCOntent= htmlDoc.DocumentNode.QuerySelectorAll(this.textBoxCssPath.Text);

是不是很简单？

对于其他技术博客，大家可以自行练习，检验是否理解了我上面所说的方法，这里给出几个常见技术博客的正文Css路径答案：

  站点        --->  CSS路径
"Cnblogs"    ---> "div#cnblogs_post_body"
"Csdn"        ---> "div#article_content.article_content"
"51CTO"        ---> "div.showContent"
"Iteye"        ---> "div#blog_content.blog_content"
"ItPub"        ---> "div.Blog_wz1"
"ChinaUnix" ---> "div.Blog_wz1"

好了，回过头来我们讲讲本节demo中的重点代码：

获取博客正文标题：

private void GetTitle()
        {
            string strContent
                = m_wd.GetPageByHttpWebRequest(this.textBoxUrl.Text, Encoding.UTF8);
            HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument
            {
                OptionAddDebuggingAttributes = false,
                OptionAutoCloseOnEnd = true,
                OptionFixNestedTags = true,
                OptionReadEncoding = true
            };

            htmlDoc.LoadHtml(strContent);
            string strTitle = "";
            HtmlNodeCollection nodes = htmlDoc.DocumentNode.SelectNodes("//title");
            // Extract Title
            if (!Equals(nodes, null))
            {
                strTitle = string.Join(";", nodes.
                    Select(n => n.InnerText).
                    ToArray()).Trim();
            }
            strTitle = strTitle.Replace("博客园", "");
            strTitle = Regex.Replace(strTitle, @"[|/\;:*?<>&＃-]", "").ToString();
            strTitle = Regex.Replace(strTitle, "[\"]", "").ToString();
            this.textBoxTitle.Text = strTitle.TrimEnd();
        }

主要流程是首先用我们上一节给出的 WebDownloader类获取到网页的源代码，然后通过下面一行代码获取网页标题：

 HtmlNodeCollection nodes = htmlDoc.DocumentNode.SelectNodes("//title");

这里的借助了HtmlAgilityPack的SelectNodes函数提取网页中的title元素，注意一般的格式良好网页都具有title元素，因为这样方便搜索引擎索引收录我们的文章，下图解释下什么是title元素

大家注意上图，我用红笔圈出的2个地方，应该不言自明了吧，不解释。

获取博客正文内容：

  private void GetMainContent()
        {
            string strContent
                = m_wd.GetPageByHttpWebRequest(this.textBoxUrl.Text, Encoding.UTF8);
            HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument
            {
                OptionAddDebuggingAttributes = false,
                OptionAutoCloseOnEnd = true,
                OptionFixNestedTags = true,
                OptionReadEncoding = true
            };

            htmlDoc.LoadHtml(strContent);

            IEnumerable NodesMainCOntent= htmlDoc.DocumentNode.QuerySelectorAll(this.textBoxCssPath.Text);

            if (NodesMainContent.Count() > 0)
            {
                this.richTextBox1.Text = NodesMainContent.ToArray()[0].OuterHtml;
                this.webBrowser1.DocumentText = this.richTextBox1.Text;
            }
        }

很简单就是调用htmlDoc.DocumentNode.QuerySelectorAll函数，参数传入我们上面讲到的正文div的css路径，最后NodesMainContent.ToArray()[0].OuterHtml中保存的就是网页正文内容的源代码，放到richTextBox1.Text里显示html源代码，放到webBrowser1.DocumentText里显示网页内容。

四下节预告

网页的抓取主要分为3步：

1.通过分页链接抓取到全部文章链接集合（第一节内容）

2.通过每一个文章链接获取到文章的标题及正文（本节内容）

3.从文章正文中解析出全部图片链接，并将文章的全部图片下载到本地（下节内容）

这3步有了，之后你就想怎么折腾就怎么折腾了，各种加工处理，生成pdf，chm，静态站点，远程发布到其他站点等等（请继续关注本系列文章，并不吝点一下推荐，您的支持是我写作的最大动力）。

推荐阅读

php
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
php
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
search
企业级项目中 Webpack 配置优化指南

本文详细介绍了在企业级项目中如何优化 Webpack 配置，特别是在 React 移动端项目中的最佳实践。涵盖资源压缩、代码分割、构建范围缩小、缓存机制以及性能优化等多个方面。 ... [详细]

蜡笔小新 2024-12-24 14:41:48
php
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
shell
Qt 5.15.2 在银河麒麟龙芯平台打包的实战经验

本文详细记录了在银河麒麟操作系统和龙芯架构上使用 Qt 5.15.2 进行项目打包时遇到的问题及解决方案，特别关注于 linuxdeployqt 工具的应用。 ... [详细]

蜡笔小新 2024-12-26 10:54:04
char
ECharts线性渐变色应用实例

本文详细介绍了如何在ECharts中使用线性渐变色，通过echarts.graphic.LinearGradient方法实现。文章不仅提供了完整的代码示例，还解释了各个参数的具体含义及其应用场景。 ... [详细]

蜡笔小新 2024-12-26 08:13:53
object
dotnet 通过 Elmish.WPF 使用 F# 编写 WPF 应用

本文来安利大家一个有趣而且强大的库，通过F#和C#混合编程编写WPF应用，可以在WPF中使用到F#强大的数据处理能力在GitHub上完全开源Elmis ... [详细]

蜡笔小新 2024-12-25 16:06:42
function
Node.js 本地扩展开发指南

本文详细介绍了如何在 Windows 环境下使用 node-gyp 工具进行 Node.js 本地扩展的编译和配置，涵盖从环境搭建到代码实现的全过程。 ... [详细]

蜡笔小新 2024-12-25 10:35:17
function
提升Tumblr爬虫效率与功能

本文介绍了对之前开发的Tumblr爬虫脚本进行升级，整合了两个脚本的功能，实现了自动分页爬取博客内容，并支持配置文件以下载多个博客的不同格式文件。此外，还优化了图片下载逻辑。 ... [详细]

蜡笔小新 2024-12-24 16:29:06
function
理解在 Ember.js 中加载 JSON 的最佳实践

作为一名 Ember.js 新手，了解如何在路由和模型中正确加载 JSON 数据是至关重要的。本文将探讨两者之间的差异，并提供实用的建议。 ... [详细]

蜡笔小新 2024-12-24 16:26:33
function
深入解析 SimpleDraweeView 的 setScaleType 方法及其实现

本文详细介绍了 com.facebook.drawee.view.SimpleDraweeView 中的 setScaleType 方法，提供了多个实际代码示例，并解释了其在不同场景下的应用。 ... [详细]

蜡笔小新 2024-12-26 12:15:47
scala
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
object
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
object
深入解析三大范式与JDBC集成

本文详细探讨了数据库设计中的三大范式，并结合Java数据库连接（JDBC）技术，讲解如何在实际开发中应用这些概念。通过实例和图表，帮助读者更好地理解范式理论及其在数据操作中的重要性。 ... [详细]

蜡笔小新 2024-12-25 20:12:13
php
Composer Registry Manager：PHP的源切换管理工具

本文介绍了一个用于Composer的源切换管理工具——Composer Registry Manager。该项目旨在简化Composer包源的管理和切换，避免与常见的CRM系统混淆，并提供了详细的安装和使用指南。 ... [详细]

蜡笔小新 2024-12-25 19:34:14

广东暖暖_小乖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章