热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DOM应用遍历网页中的元素

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

二、网页的文档层次结构

IE 浏览器,采用 DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 IHTMLInputElement)就可以读写这些域的属性了。

说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。

 技术分享

三、程序实现

<1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。

 <1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。

取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。

<1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。

取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。

<1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。

那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:

1.CComPtr spContainer;
2.m_spClientSite->GetContainer( &spContainer );
3.CComQIPtr spDoc = spContainer;
4.if ( spDoc )
5.{
6.// 已经得到了 IHTMLDocument2 的接口指针
7.}

<1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。

那么需要调用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。

<1.5> IE 浏览器作为独立的进程正在运行。

每个运行的浏览器(IE 和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过 IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:

01.#include
02.#include
03. 
04.void FindFromShell()
05.{
06.CComPtr< IShellWindows > spShellWin;
07.HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
08.if ( FAILED( hr ) )    return;
09. 
10.long nCount=0;
11.spShellWin->get_Count(&nCount);   // 取得浏览器实例个数
12. 
13.for(long i=0; i spDisp;
14.hr=spShellWin->Item(CComVariant( i ), &spDisp );
15.if ( FAILED( hr ) )   continue;
16. 
17.CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
18.if ( !spBrowser )     continue;
19. 
20.spDisp.Release();
21.hr = spBrowser->get_Document( &spDisp );
22.if ( FAILED ( hr ) )  continue;
23. 
24.CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
25.if ( !spDoc )         continue;
26. 
27.// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
28.}
29.}

<1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

01.#include
02.#include
03.#include
04.#pragma comment ( lib, "oleacc" )
05. 
06.BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
07.{
08.TCHAR szClassName[100];
09. 
10.::GetClassName( hwnd,  &szClassName,  sizeof(szClassName) );
11.if ( _tcscmp( szClassName,  _T("Internet Explorer_Server") ) == 0 )
12.{
13.*(HWND*)lParam = hwnd;
14.return FALSE;       // 找到第一个 IE 控件的子窗口就停止
15.}
16.else    return TRUE;        // 继续枚举子窗口
17.};
18. 
19.void FindFromHwnd(HWND hWnd)
20.{
21.HWND hWndChild=NULL;
22.::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
23.if(NULL == hWndChild)   return;
24. 
25.UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
26.LRESULT lRes;
27.::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );
28. 
29.CComPtr spDoc;
30.HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
31.if ( FAILED ( hr ) )    return;
32. 
33.// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
34.}

<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。

<3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。

<4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。

<5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。

<6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下:

01.// 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针
02.CComQIPtr      spInputText(spDisp);
03.CComQIPtr    spInputButton(spDisp);
04.CComQIPtr    spInputHidden(spDisp);
05.......
06.if ( spInputText )
07.{
08.//如果是文本输入表单域
09.}
10.else if ( spInputButton )
11.{
12.//如果是按纽输入表单域
13.}
14.else if ( spInputHiddent )
15.{
16.//如果是隐藏输入表单域
17.}
18.else if ........    //其它输入类型

上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:

01.#include
02.CComModule  _Module;    // 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的
03.#include
04.......
05.long nElemCount=0;      //表单域的总数目
06.spFormElement->get_length( &nElemCount );
07. 
08.for(long j=0; j
09.{
10.CComDispatchDriver spInputElement;  // IDispatch 的智能指针
11.spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );
12. 
13.CComVariant vName,vVal,vType;   // 域名称,域值,域类型
14.spInputElement.GetPropertyByName( L"name", &vName );
15.spInputElement.GetPropertyByName( L"value",&vVal  );
16.spInputElement.GetPropertyByName( L"type", &vType );
17.// 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
18.// 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()....
19.......
20.}

四、结束语

示例程序在 VC6 下编译执行通过。运行方法:随便启动几个 IE 浏览网页,最好是有表单输入的网页。然后执行示例的 EXE 程序即可。到这里,就到这里了......祝大家学习快乐 ^-^

DOM应用---遍历网页中的元素


推荐阅读
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 优化局域网SSH连接延迟问题的解决方案
    本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置,可以显著缩短SSH连接的时间。 ... [详细]
  • 自己用过的一些比较有用的css3新属性【HTML】
    web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久,虽然大多数的css3属性在很多流行的浏览器中不支持,但我个人觉得还是要尽量开 ... [详细]
  • Docker的安全基准
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • 本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作,包括参数说明、事件生成及处理逻辑。详细解析了视图(View)对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 实体映射最强工具类:MapStruct真香 ... [详细]
  • 作为一名专业的Web前端工程师,掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性,还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范,并提供实用的建议。 ... [详细]
  • Startup 类配置服务和应用的请求管道。Startup类ASP.NETCore应用使用 Startup 类,按照约定命名为 Startup。 Startup 类:可选择性地包括 ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
author-avatar
用户gum5gltoo8
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有