作者:憐海周_472_151 | 来源:互联网 | 2023-08-21 12:32
我已做了一个程序,输入URL地址,能够从该地址中提取HTML中的数据例如我输入百度首页显示如下:连接到站点http:www.baidu.com<!doctypeht
我已做了一个程序,输入URL地址,能够从该地址中提取HTML中的数据...例如 我输入百度首页 显示如下:连接到站点http://www.baidu.com
请问我该如何从中提取出那些文字 ? 急求 ...谢谢了 !
16 个解决方案
这个叫网页解析,到网上搜,如果找到好的代码,告知一下。
嗯嗯 就是提取汉字 ....只要学会提取汉字,我就可以提取其它了 .....
那就判断是否是字母,不是字母与数字的,当然就是汉字了。
ActiveX空见MSIE自带的函数就可以根据标记提取内容,比如tag 等,获得标记集合然后从中提取内容。
或者可以利用正则表达式
在vc中使用regex的一个简便方法:
1. 生成regex.tlb
1.1 以资源方式打开 c:\windows\system32\Vbscript.dll,将第二个typelib导出为 regex.tlb
1.2 vc, tools --> ole/com object viewer,找到 Type Libraraies --> Microsoft Vbscript Regular Expression 5.5, 右键 View..,然后在打开的 ITypeLib Viewer 中保存成 regex.idl,再用 midl 工具生成 regex.tlb。这个方法能找到很多其他的 tlb
2. 在vc中导入 regex.tlb
#import "regex.tlb" rename_namespace("RegEx")
参考文章:www.codeproject.com/KB/string/use_regular_expression_in_your_program.aspx
可以自己写个字符串筛选,如5楼所说的那样。
还可以用别人封装的正则表达式的类,我这里就有一份
XML相关类可以做.
也可以使用MS提供的关于网页操作的COM类.
http://blog.csdn.net/whucv/article/details/7837434
看我这篇博客,写的怎样获取正文
http://blog.csdn.net/whucv/article/details/7837434
正则表达式,就是为了处理这类东西的,如果有写过PHP程序,就不会提这种问题了。
Google搜索“正则表达式去除HTML标记”。
XML 解析 用TinyXML库 。 转换为CString 仅限于字符串少的情况下。 用正则表达式。