热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何从网页中提取所需数据?

我已做了一个程序,输入URL地址,能够从该地址中提取HTML中的数据例如我输入百度首页显示如下:连接到站点http:www.baidu.com<!doctypeht
我已做了一个程序,输入URL地址,能够从该地址中提取HTML中的数据...例如  我输入百度首页   显示如下:连接到站点http://www.baidu.com




搜索设置|登录注册


新 闻 网 页 贴 吧 知 道 MP3 图 片 视 频 地 图

输入法
  • 手写
  • 拼音
  • 关闭

  • 百科 文库 hao123 | 更多>>

    把百度设为主页把百度设为主页把百度添加到桌面


    加入百度推广 | 搜索风云榜 | 关于百度 | About Baidu

    ©2012 Baidu 使用百度前必读 京ICP证030173号 














    请问我该如何从中提取出那些文字 ?     急求  ...谢谢了  !

    16 个解决方案

    #1


    麻烦各位帮帮   ....

    #2


    提取汉字?

    #3


    这个叫网页解析,到网上搜,如果找到好的代码,告知一下。

    #4


    嗯嗯    就是提取汉字   ....只要学会提取汉字,我就可以提取其它了  .....

    #5


    那就判断是否是字母,不是字母与数字的,当然就是汉字了。

    #6


    ActiveX空见MSIE自带的函数就可以根据标记提取内容,比如tag 等,获得标记集合然后从中提取内容。
    或者可以利用正则表达式
    在vc中使用regex的一个简便方法:
    1. 生成regex.tlb
         1.1 以资源方式打开 c:\windows\system32\Vbscript.dll,将第二个typelib导出为 regex.tlb
         1.2 vc, tools --> ole/com object viewer,找到 Type Libraraies --> Microsoft Vbscript Regular Expression 5.5, 右键 View..,然后在打开的 ITypeLib Viewer 中保存成 regex.idl,再用 midl 工具生成 regex.tlb。这个方法能找到很多其他的 tlb

    2. 在vc中导入 regex.tlb
        #import "regex.tlb" rename_namespace("RegEx")

    参考文章:www.codeproject.com/KB/string/use_regular_expression_in_your_program.aspx


    #7


    依次判断字符的ascii码,是负数的就是汉字

    #8


    可以自己写个字符串筛选,如5楼所说的那样。

    还可以用别人封装的正则表达式的类,我这里就有一份

    #9


    XML相关类可以做.
    也可以使用MS提供的关于网页操作的COM类.

    #10


    http://blog.csdn.net/whucv/article/details/7837434
    看我这篇博客,写的怎样获取正文
    http://blog.csdn.net/whucv/article/details/7837434

    #11


    正则表达式,就是为了处理这类东西的,如果有写过PHP程序,就不会提这种问题了。
    Google搜索“正则表达式去除HTML标记”。

    #12


    有規則 自己提取
    較無規則 正則表達式

    #13


    大规模的用正则表达式

    #14


    如果对效率要求不高,可以用让ie来提取

    BOOL GetContextFromHtml(LPSTR pszHtmlBuffer,CString&sText)
    {
    IHTMLDocument2   *pDoc   =   NULL; 
    _bstr_t btHtml,vtContext;
    btHtml = pszHtmlBuffer;
    //vtHtml = pszHtmlBuffer;

    CoInitialize(NULL); 

    CoCreateInstance(CLSID_HTMLDocument, NULL, CLSCTX_INPROC_SERVER, IID_IHTMLDocument2, (LPVOID*)&pDoc); 
    if(pDoc) 

    IPersistStreamInit   *pPersist   =   NULL; 
    pDoc-> QueryInterface(IID_IPersistStreamInit, (LPVOID*)&pPersist); 
    if(pPersist) 

    IMarkupServices *pMS=NULL; 

    pPersist->InitNew(); 
    pPersist->Release(); 

    pDoc->QueryInterface(IID_IMarkupServices, (LPVOID*)&pMS); 

    if(pMS) 

    IMarkupContainer   *pMC = NULL; 
    IMarkupPointer   *pMkStart   =   NULL; 
    IMarkupPointer   *pMkFinish   =   NULL; 
    pMS->CreateMarkupPointer(&pMkStart); 
    pMS->CreateMarkupPointer(&pMkFinish); 
    pMS->ParseString(btHtml, 0, &pMC, pMkStart, pMkFinish); 

    if(pMC) 

    IHTMLDocument2 *pNewDoc = NULL; 
    pMC-> QueryInterface(IID_IHTMLDocument, (LPVOID*)&pNewDoc); 
    if(pNewDoc) 

    //   do   anything   with   pNewDoc,   in   this   case 
    //   get   the   body   innerText. 
    IHTMLElement   *pBody; 
    pNewDoc->get_body(&pBody); 
    if(pBody) 

    BSTR strText; 
    pBody->get_innerText(&strText); 
    pBody->Release(); 
    vtContext.Assign(strText);
    SysFreeString(strText); 

    pNewDoc->Release(); 

    pMC->Release(); 


    if(pMkStart) 
    pMkStart->Release(); 

    if(pMkFinish) 
    pMkFinish->Release(); 

    pMS->Release(); 


    pDoc->Release(); 

    sText = (char*)vtContext;
    CoUninitialize(); 

    return   TRUE; 
    }

    #15


    XML 解析 用TinyXML库  。  转换为CString  仅限于字符串少的情况下。   用正则表达式。

    #16


    引用 15 楼  的回复:
    XML 解析 用TinyXML库  。  转换为CString  仅限于字符串少的情况下。   用正则表达式。


    TinyXML不能直接用來解析HTML,數據不完整.官方明確指出

    推荐阅读
    • 微软头条实习生分享深度学习自学指南
      本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
    • Spring源码解密之默认标签的解析方式分析
      本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
    • Nginx使用(server参数配置)
      本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
    • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
    • CSS3选择器的使用方法详解,提高Web开发效率和精准度
      本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
    • android listview OnItemClickListener失效原因
      最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
    • VScode格式化文档换行或不换行的设置方法
      本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
    • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
    • 向QTextEdit拖放文件的方法及实现步骤
      本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
    • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
    • 知识图谱——机器大脑中的知识库
      本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
    • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
    • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
      原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
    • 后台获取视图对应的字符串
      1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
    • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
    author-avatar
    憐海周_472_151
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有