首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
css
scroll
firebug
listview
webkit
chart
focus
console
ajax
正则
label
vue
requirejs
上传
html
javascript
chart.js
chrome
svg
scheme
npm
overflow
hover
button
dom
node.js
jq
firefox
jquery
v8
view
charts
html5
iframe
json
cookies
bootstrap
vue.js
yarn
react
textview
icons
dialog
css3
checkbox
微信开发
js
postman
base64
hybrid
layout
当前位置:
开发笔记
>
前端
> 正文
正则方式的自动小偷抓网程序
作者:BeckyWang25_966 | 来源:互联网 | 2022-08-15 17:04
公司里面有许多数据没人去录入,做一个抓取网页的程序,以前做CMS系统的时候涉及过,不过这次的处理HTML上和以前做了些区别
有一些瑕疵没时间细化,只是实现了效果,大家看一看这个正则该怎么写好:
URL:http://news.szhome.com/83642.html
内容:
代码如下:
object>
这两个标记之间的代码。END标记的问题解决了,但是郁闷的是START截取的标记因为第二个DIV和第三个中间有换行,我无语了不知道怎么处理这个正则。
而且郁闷的是有多处有这种重复型标记,对正则不太熟悉,我的解决方法如下:
代码如下:
MatchCollection mc = Regex.Matches(ghoPage.Trim(), @"(?<=
)[\s\S]*?(?=
foreach (Match mm in mc)
{
sb.Append(mc[0].Value.Substring(1933, mc[0].Value.Length - 1933));
}
我算出截取出来多处两个FLASH广告DIV的长度是1933,然后处理字符串截取后得到我想要的文本,这样做的劣势就是万一该站改变了两个FLASH广告DIV的长度我获取的数据就不是完整的呢,有兴趣的研究下,看看换行的DIV正则问题怎么处理。
里面用到了自己写的一个BUTTON控件,可以在点击后禁止重复点击,然后就是一些判断,在思路上蛮不错,可以做到一直抓取,因为不经常用就没做成WINDOWS服务类型,这样的程序可以做成WINDOWS服务,把规则写在INI文件中,抓录的规则和正则也放在配置文件中,这样就能实现自动抓录。
很短的代码,对这种抓录有兴趣的朋友可以尝试下。下载
html
windows
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
html
深入理解JavaScript的作用域链与闭包
本文详细探讨了JavaScript中的作用域链和闭包机制,解释了它们的工作原理及其在实际编程中的应用。通过具体的代码示例,帮助读者更好地理解和掌握这些概念。 ...
[详细]
蜡笔小新 2024-12-23 01:27:41
html
Windows 7 64位系统下Redis的安装与PHP Redis扩展配置
本文详细介绍了在Windows 7 64位操作系统中安装Redis以及配置PHP Redis扩展的方法,包括下载、安装和基本使用步骤。适合对Redis和PHP集成感兴趣的开发人员参考。 ...
[详细]
蜡笔小新 2024-12-22 23:56:09
v8
雨林木风 GHOST XP SP3 经典珍藏版 V2017.11
雨林木风 GHOST XP SP3 经典珍藏版 V2017.11 ...
[详细]
蜡笔小新 2024-12-22 21:59:11
html
Python 内存管理机制详解
本文深入探讨了Python的内存管理机制,涵盖了垃圾回收、引用计数和内存池机制。通过具体示例和专业解释,帮助读者理解Python如何高效地管理和释放内存资源。 ...
[详细]
蜡笔小新 2024-12-22 19:27:56
html
C#设计模式学习笔记:观察者模式解析
本文将探讨观察者模式的基本概念、应用场景及其在C#中的实现方法。通过借鉴《Head First Design Patterns》和维基百科等资源,详细介绍该模式的工作原理,并提供具体代码示例。 ...
[详细]
蜡笔小新 2024-12-22 19:07:42
html
在Ubuntu系统中安装Windows 7的详细步骤
本文详细介绍了如何在预装Ubuntu系统的笔记本电脑上安装Windows 7。针对没有光驱的情况,提供了通过USB安装的具体方法,并解决了分区、驱动器无法识别等问题。 ...
[详细]
蜡笔小新 2024-12-22 18:26:55
html
Appium + Java 自动化测试中处理页面空白区域点击问题
在进行移动应用自动化测试时,有时会遇到某些页面没有返回按钮,只能通过点击空白区域返回的情况。本文将探讨如何在Appium + Java环境中有效解决此类问题,并提供详细的解决方案。 ...
[详细]
蜡笔小新 2024-12-22 17:30:25
chrome
如何清除Chrome浏览器地址栏的特定历史记录
在使用Chrome浏览器时,你可能会发现地址栏保存了大量浏览记录。有时你可能希望删除某些特定的历史记录而不影响其他数据。本文将详细介绍如何单独删除地址栏中的特定记录以及批量清除所有历史记录的方法。 ...
[详细]
蜡笔小新 2024-12-22 17:14:01
jq
Coursera ML 机器学习
2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ...
[详细]
蜡笔小新 2024-12-22 16:09:09
chrome
利用Selenium与ChromeDriver实现豆瓣网页全屏截图
本文介绍了一种使用Selenium和ChromeDriver结合Python代码,轻松实现对豆瓣网站进行完整页面截图的方法。该方法不仅简单易行,而且解决了新版Selenium不再支持PhantomJS的问题。 ...
[详细]
蜡笔小新 2024-12-22 15:17:55
html
实用正则表达式有哪些
小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ...
[详细]
蜡笔小新 2024-12-22 13:59:04
html
VC++如何监控cpu fan 转速?
主板IO用W83627THG,用VC如何取得CPU温度,系统温度,CPU风扇转速,VBat的电压. ...
[详细]
蜡笔小新 2024-12-22 13:48:42
html
嵌入式开发环境搭建与文件传输指南
本文详细介绍了如何为嵌入式应用开发搭建必要的软硬件环境,并提供了通过串口和网线两种方式将文件传输到开发板的具体步骤。适合Linux开发初学者参考。 ...
[详细]
蜡笔小新 2024-12-22 13:38:48
html
解决TensorFlow CPU版本安装中的依赖问题
本文记录了在安装CPU版本的TensorFlow过程中遇到的依赖问题及解决方案,特别是numpy版本不匹配和动态链接库(DLL)错误。通过详细的步骤说明和专业建议,帮助读者顺利安装并使用TensorFlow。 ...
[详细]
蜡笔小新 2024-12-22 13:22:19
html
如何在Windows 10中设置自定义桌面背景图片
为了使您的电脑更加个性化,许多用户希望为Windows 10桌面设置自己喜欢的多张图片。本文将详细介绍如何轻松实现这一目标,并提供一些专业建议,确保您能够充分利用系统功能。 ...
[详细]
蜡笔小新 2024-12-22 15:39:09
BeckyWang25_966
这个家伙很懒,什么也没留下!
Tags | 热门标签
css
scroll
firebug
listview
webkit
chart
focus
console
ajax
正则
label
vue
requirejs
上传
html
javascript
chart.js
chrome
svg
scheme
npm
overflow
hover
button
dom
node.js
jq
firefox
jquery
v8
RankList | 热门文章
1
《唐周万诗作〈送沈芳谒李观察求仕进〉译文与原文赏析》
2
今日精选:10款实用的jQuery随机效果插件
3
优化后的标题:利用YUM高效安装与管理MySQL数据库环境
4
Codeforces 848A - 从Y到Y的构造问题深入解析
5
深入解析机器学习算法公式推导,结合竞赛与实战详解Sklearn库应用
6
优化Oracle数据库日志功能的关闭方法与实践
7
MySQL 数据操作:增、删、查、改全面解析
8
利用几何画板绘制切线的详细步骤与技巧
9
PHP连接MySQL的三种方法及预处理语句防止SQL注入的技术详解
10
探索Google不为人知的实用小技巧与隐藏功能
11
不要急着丢弃旧手机:轻松改装成高效PC游戏性能监控工具
12
利用Git插件在Android Studio中高效提交代码
13
Nmap端口检测与网络安全性评估
14
深入解读代码页与字符集的概念及其实际应用
15
利用专业工具进行文字与图像的创意融合
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有