利用Microsoft的HTML分析器来获得Web站点的数据

作者：mobiledu2502894753 | 来源：互联网 | 2023-09-04 11:36

拆取Web页利用Microsoft的HTML分析器来获得Web站点的数据JeremyRuleMicrosoftCorporation2000年5月程序员面临的一个共同任务就是收集W

拆取 Web 页

利用 Microsoft 的 HTML 分析器来获得 Web 站点的数据
Jeremy Rule
Microsoft Corporation
2000年5月
程序员面临的一个共同任务就是收集 Web 站点的数据&＃xff0c;并将它分布到数据库或其他 Web 页。例如&＃xff0c;程序员可能需要从气象站点获得天气预报图&＃xff0c;从在线股票经纪人那里获得股票报价&＃xff0c;以及从新闻站点获得行业新闻。然后&＃xff0c;这些信息被放在一个 Web 页上&＃xff0c;供 CIO、商人或销售经理使用。或者&＃xff0c;也许程序员需要跟踪历来的气象资料&＃xff0c;并需要每天将来自气象站的天气预报信息存入数据库。其应用不胜枚举。
过去&＃xff0c;这些选择相当受限制。现在&＃xff0c;通过使用象 WinInet.dll 这样的 HTTP 组件或许多其他第三方组件&＃xff0c;您就可以获取 Web 页&＃xff0c;并利用几百种字符串处理功能来获得网页中您所感兴趣的部分。这一技术已在应用&＃xff0c;但很不理想。如果您致力于计算机科学&＃xff08;或者有足够的时间&＃xff09;&＃xff0c;就会为 HTML 创建一个分析器&＃xff0c;以标记 Web 页&＃xff0c;然后分析您需要的网页部分。不过&＃xff0c;由于 Internet Explorer 的体系结构中已包含了可重复使用的用分析器&＃xff0c;这些都不需要了。
Internet Explorer 不只是一个程序&＃xff0c;更是许多可重复使用组件的集合与容器。在拆取 Web 页时&＃xff0c;最有意思的两个组件是 shdocvw.dll 和 mshtml.dll。第一个组件 shdocvw.dll&＃xff0c;包含称为 WebBrowser 的 Microsoft(R) ActiveX(R) 控件&＃xff0c;它真实地显示 Web 页。在运行 Internet Explorer 时&＃xff0c;显示 Web 页的主窗口就是这样的控件。第二个组件 mshtml.dll&＃xff0c;含有能分析 WebBrowser 控件中所包含文档的 HTML 分析器。
可能有这种情况&＃xff0c;在您的应用程序内部&＃xff0c;已经用 WebBrowser 控件来驻留 Web 页&＃xff0c;但仍需要重新创建一个小浏览器来启动 Web 页的拆取。
在文件菜单上&＃xff0c;请单击新建工程&＃xff0c;以创建“标准 EXE”&＃xff0c;然后在工程菜单上单击部件&＃xff0c;以添加 Microsoft HTML Object Library 和 Microsoft Internet Controls。&＃xff08;见图 1。&＃xff09;

图 1.
在工具箱中&＃xff0c;可看见 WebBrowser 组件。拖动其中之一&＃xff0c;文本框和主窗体上的命令按钮。将此文本框的 Text 属性设置为 “http://moneycentral.msn.com/”&＃xff0c;将此命令按钮的 Caption 属性设置为“浏览(&B)”。&＃xff08;见图 2。&＃xff09;

图 2.
双击该命令按钮&＃xff0c;然后在事件处理器中放入下列代码&＃xff0c;导航至文本框中命名的 Web 站点&＃xff1a;
Private Sub Command1_Click()
WebBrowser1.Navigate Text1.Text
End Sub
保存并运行该程序。试着按浏览按钮&＃xff0c;导航到文本框中指定的站点。您已经创建了一个基本的 Web 浏览器 — 就其本身而言没什么用&＃xff0c;甚至没什么意义&＃xff0c;但它却是迈向 Web 拆取技术的第一步。
回到工程中&＃xff0c;在代码窗口中选择 WebBrowser1 对象&＃xff0c;然后选择 DocumentComplete 的事件处理器。一旦整个 Web 页下载到此浏览器中&＃xff0c;即触发该事件&＃xff1a;
Private Sub WebBrowser1_DocumentComplete_
(ByVal pDisp As Object, URL As Variant)
End Sub
传递到该事件中的 URL 就是我们导航所至的位置&＃xff0c;它在日后确定浏览器所在的页面时将更为有用。WebBrowser 控件有一个属性称为 Document&＃xff08;文档&＃xff09;&＃xff0c;可将其视为 IHTMLDocument 来处理&＃xff1a;
Private Sub WebBrowser1_DocumentComplete(_ ByVal pDisp As Object, URL As Variant)
Dim Doc As IHTMLDocument2
Set Doc &＃61; WebBrowser1.Document
//下一步&＃xff1a;分析该文档
End Sub
较新的 IHTMLDocument2 具有 IHTMLDocument 中无法使用的特性。可对系统使用 IHTMLDocument 替代老版本的 Internet Explorer&＃xff0c;如果您有勇气的话&＃xff0c;甚至可以使用 IHTMLDocument3。补充说明一下&＃xff0c;我们假设您已经导航到 Word 文档或 XML 文档&＃xff0c;而非 HTML 文档。不要将变量 doc 声明为 IHTMLDocument2&＃xff0c;可将其声明为 Word 的文档或 XML 的 DOMDocument。
在进行下一步之前&＃xff0c;理解 HTML 文档的结构是非常重要的。和 XML 不一样&＃xff0c;HTML 文档的组合有一定的自由度。例如&＃xff0c;您会遇到未关闭标记的 HTML 文档。HTML 文档确实有某种结构。结构好的 HTML 文档通常具有下列元素&＃xff1a;

   header information like the

   elements like  and  and

请注意 HTML 的树状结构。标记包含标记又包含标记&＃xff0c;如此等等。特别是&＃xff0c;每一个标记元素都包含一个 0 到 n 个标记元素的集合。标记可以包含标记。每个标记可以包含标记&＃xff0c;后者又可以包含其他标记如锚或图像等。
现在&＃xff0c;分析整个 http://moneycentral.msn.com/&＃xff0c;并在带 MSFT 符号的页填上第二个标记。然后&＃xff0c;调用此窗体上的提交&＃xff1a;
Private Sub WebBrowser1_DocumentComplete(ByVal pDisp As Object, URL As Variant)
Dim doc As IHTMLDocument2
Set doc &＃61; WebBrowser1.Document

If URL &＃61; _
"http://moneycentral.msn.com/home.asp" Then
      &＃39;填充带输入标记的元素集合
      Dim Inputs As IHTMLElementCollection
      Set Inputs &＃61; doc.All.tags("INPUT")
      &＃39;选择第一个输入标记
      Dim Element As IHTMLElement
      Set Element &＃61; Inputs.Item(1, 1)

      &＃39;使用正确的界面
      Dim InputElement As IHTMLInputElement
      Set InputElement &＃61; Element
      InputElement.Value &＃61; Text1.Text

      &＃39;调用此页第一个窗体上的提交
      doc.Forms.Item(0, 0).submit
End Sub
在此您会看到&＃xff0c;标记集合如何包含可视为其特定类型的标记。每一个标记都可用 IHTMLElement 界面表示&＃xff0c;或用指定为该标记类型的界面表示。例如&＃xff0c; 标记可用 IHTMLTableElement 或 IHTMLElement 表示。
标记的集合都包含下列重要的方法和属性&＃xff1a;
长度。可将其理解为计数&＃xff0c;或集合中项目的数量。
项目。用于选择集合中的特殊元素。“项目”有两个参数&＃xff0c;第二个参数即命名的标记。
标记。将要过滤的元素传递给标记。标记 ("A") 将返回集合内所有锚的集合。要想有效地拆取页&＃xff0c;就需要学会使用标记集合。
现在可能您会问&＃xff0c;“为什么不直接转到 http://moneycentral.msn.com/scripts/webquote.dll?ipage&＃61;qd&Symbol&＃61;msft&＃xff1f;”当然是可以的&＃xff0c;但这个例子告诉大家如何在更复杂的情况下操纵 HTML 窗体。
如果您未做进一步的改动即运行该程序&＃xff0c;就会注意到它将陷入无休止的循环&＃xff0c;没完没了地下载同一个页面。程序不断地寻找要填充的窗体&＃xff0c;并反复调用 DocumentComplete。要修正这个缺陷&＃xff0c;应在 DocumentComplete 中置入一些逻辑&＃xff0c;告诉分析器&＃xff0c;只有在正确的页面上才提交窗体。
接下来&＃xff0c;让我们放入这个逻辑&＃xff0c;并引入实际的股票报价。另外&＃xff0c;我们不捕获文本框中的 URL&＃xff0c;而是捕获股票符号&＃xff1a;
Private Sub Command1_Click()
WebBrowser1.Navigate _
   "http://moneycentral.msn.com/home.asp"
End Sub
Private Sub WebBrowser1_DocumentComplete(ByVal pDisp As Object, URL As Variant)
Dim doc As IHTMLDocument2
Set doc &＃61; WebBrowser1.Document

If URL &＃61; "http://moneycentral.msn.com/home.asp" Then
      &＃39;填充带输入标记的元素集合
      Dim Inputs As IHTMLElementCollection
      Set Inputs &＃61; doc.All.tags("INPUT")
      &＃39;选择第一个输入标记
      Dim Element As IHTMLElement
      Set Element &＃61; Inputs.Item(1, 1)

      &＃39;使用正确的界面
      Dim InputElement As IHTMLInputElement
      Set InputElement &＃61; Element
      InputElement.Value &＃61; Text1.Text

      &＃39;调用该页第一个窗体上的提交
      doc.Forms.Item(0, 0).submit
ElseIf URL &＃61; _
"http://moneycentral.msn.com/scripts/webquote.dll?ipage&＃61;qd&Symbol&＃61;" _
               & Text1.Text Then
      Dim Tables As IHTMLElementCollection
      Set Tables &＃61; doc.All.tags("TABLE")
      &＃39;获得第 14 个表的第二个项目&＃xff08;基于 0&＃xff09;
      Dim Quote As IHTMLElement
      Set Quote &＃61; _
      Tables.Item(14, 14).All.tags("TD").Item(2, 2)
      &＃39;显示开始标记和结束标记之间的文本
      MsgBox Quote.innerText
End If
End Sub

图 3.
到了这最后一步&＃xff0c;自定义的浏览器已被转入有效的 Web 拆取器。重要的是&＃xff0c;要注意有了 IHTMLElement 之后获得文本的可用选项。有 4 个属性&＃xff1a;
innerText&＃xff1a;开始标记和结束标记之间的文本。
innerHTML&＃xff1a;开始标记和结束标记之间的文本和 HTML。
outerText&＃xff1a;对象的文本。
outerHTML&＃xff1a;对象的文本和 HTML。
还要注意从第 4 个表&＃xff08;基于 0&＃xff09;的第 11 个元素中检索到的最终报价字符串。如果 MoneyCentral? 决定重新调整该页怎么办&＃xff1f;您最好的策略是根据合理的假定来查询页面。如果您知道报价几乎总是放在新闻标题的前面&＃xff0c;那么就从新闻标题往回查询那个表。还有一种策略是&＃xff0c;当更改页面的格式时&＃xff0c;有一种简单的方法来更新分析器。一种方法就是将分析的职能细分为较小的组件。每个组件可以实现一个预定义的界面&＃xff0c;接受要分析的 IHTMLDocument。与实际的 Web 页失去同步的分析组件可被替换。这样带来的好处是&＃xff0c;多个编程人员都可以编写分析器&＃xff0c;只需给定要实现的界面和要拆取的 Web 站点即可。
为了避免复杂&＃xff0c;将 IHTMLDocument 从 DocumentComplete 函数传递 COM DLL&＃xff0c;后者可以分析 IHTMLDocument 并返回想要的有效负载。这有利于程序的模块化&＃xff0c;并易于更新与 Web 站点失去同步的分析部分。它还使多个开发者能同时处理这个项目&＃xff0c;因为他们有一个干净的界面来编写分析器。
在把新的程序推向市场以前&＃xff0c;还有几个实际问题要考虑。首先&＃xff0c;很可能 MoneyCentral 和其他许多站点不愿意别人下载他们的内容&＃xff0c;也不喜欢看广告。您可能得与摘取其内容的站点签订一份协议。
还有很重要的一点要注意&＃xff0c;即如果您是 Web 站点的操作员&＃xff0c;那么还有更好的办法将您的内容提供给其他系统。虽然可以让其他人来拆取您的 Web 页&＃xff0c;但这仍很笨拙。还有一个更好的方法是&＃xff0c;提供 XML 来表现内容。并且&＃xff0c;随着 XML 被广泛采用&＃xff0c;Web 站点开始提供其数据的 XML 表现形式以及 HTML 界面&＃xff0c;也不值得大惊小怪。在这样的时刻到来之前&＃xff0c;您也许还得拆取 Web 页。Web 页的拆取往往失之笨拙&＃xff0c;但 Microsoft HTML 分析器可令其稍微好一些。

推荐阅读

format
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
go
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
format
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
go
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
go
深入理解领域驱动设计及其实践

本文探讨了领域驱动设计（DDD）的核心概念、应用场景及其实现方式，详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型，展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]

蜡笔小新 2024-12-25 18:45:55
format
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
go
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
text
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
数组
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
go
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
text
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
list
深入了解 Windows 窗体中的 SplitContainer 控件

SplitContainer 控件是 Windows 窗体中的一种复合控件，由两个可调整大小的面板和一个可移动的拆分条组成。本文将详细介绍其功能、属性以及如何通过编程方式创建复杂的用户界面。 ... [详细]

蜡笔小新 2024-12-25 17:20:08
text
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
format
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
copy
Web前端开发中的HTML与CSS命名规范

作为一名专业的Web前端工程师，掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性，还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范，并提供实用的建议。 ... [详细]

蜡笔小新 2024-12-25 11:06:17

mobiledu2502894753

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章