由于需要,要写一个简单的PHP采集程序,照例是到网上找了一堆教程,然后照猫画虎,可是发现网上的教程全是似是而非,没有一个真正能用的。苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。
采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。
首先确定一个采集页,一般就是列表面了。这里目标是:http://www.php100.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。有列表页了,第一步先打开它,把它的内容纳入到我们的程序中来。一般用fopen或是file_get_contents这两个函数,我们这里用fopen作例子。怎么打开它呢?很简单:$source=fopen("[url=http://www.php100.com/article/11/index.htm",]http://www.php100.com/article/11/index.htm",'r'[/url]);实际上已经把内容纳入到我们的程序中来了。注意得到的$source是一个资源,不是可处理的文本,所以再用函数fread将内容读到一个变量中,这次就是真正的可编辑的文本了。例子:
$cOntent=fread($source,99999);后面的数字表示字节数,填个大的就行。你用file_put_contents将$content写入到一个文本文件,可以看出里面的内容其实就是网页的源码。得到了网页的源码,我们就要分析里面的文章链接地址,这里要用到正则表达式了,[推荐正则表达式教程(http://www.php100.com/article/7/all/545.1.htm )]。通过查看源代码,我们可以看到里面文章的链接地址全是这个样子
http://www.php100.com/article/10/all/273.1.htm "> 将数据库连接代码封装在函数里,在需要读取时调用..
我们就可以写正则表达式了。$count=preg_match_all("/
推荐阅读
在 Windows 环境下,通过具体示例分析了 `Norton Partition Magic` 中 `PHP` 函数 `error_reporting(E_ALL ^ E_NOTICE)` 的详细解析与应用。该函数用于控制错误报告级别,例如在从 PHP 4.3.0 升级到 4.3.1 后,程序出现多处错误的原因及解决方法。本文深入探讨了错误报告配置对程序稳定性的影响,并提供了实用的调试技巧。 ...
[详细]
蜡笔小新 2024-11-01 20:40:18
如何配置电脑定时自动启动和关闭功能 ...
[详细]
蜡笔小新 2024-11-01 20:39:50
如何在华为手机上配置应用后台运行模式? ...
[详细]
蜡笔小新 2024-11-01 18:12:33
石大师教你解决电脑黑屏问题:专业重装系统方法详解 ...
[详细]
蜡笔小新 2024-11-01 17:51:25
本文详细介绍了如何构建和初始化Spring Security认证模块的项目。首先,通过创建一个分布式Maven聚合工程,该工程包含四个模块,分别为core、browser(用于演示)、app等,以构成完整的SeehopeSecurity项目。在项目构建过程中,还涉及日志生成机制,确保能够输出关键信息,便于调试和监控。 ...
[详细]
蜡笔小新 2024-11-01 17:43:00
Navicat for MariaDB 15:可视化数据洞察与智能图表功能详解 ...
[详细]
蜡笔小新 2024-11-01 16:51:05
根据美团外卖的数据,2020年下半年轻食外卖订单量同比增长了50%,同时在线轻食商家的数量也显著增加。本文旨在为轻食餐饮行业的初学者提供全面的进阶指南,从市场趋势分析、产品开发到营销策略,帮助创业者实现可持续运营。通过深入探讨行业动态和成功案例,本文将助力轻食餐饮企业在竞争激烈的市场中脱颖而出。 ...
[详细]
蜡笔小新 2024-11-01 16:47:07
在 IntelliJ IDEA 中提升代码审查效率的一种方法是安装和配置反编译插件。首先,进入 IDEA 的设置界面,然后导航到插件管理部分。接下来,搜索 "ideaJad" 插件并进行安装。安装完成后,重启 IDEA 以确保插件生效。这将帮助你在审查二进制文件时更加高效地查看源代码。 ...
[详细]
蜡笔小新 2024-11-01 16:40:08
本周的工作与生活经历颇为波折。原本决心坚决要与妻子离婚,但令人意外的是,她突然提出和好。这种突如其来的变化让人感到困惑和不解,不知是自己的态度过于软弱还是她的行为背后有其他原因。尽管她再次表示愿意修复关系,但她的冷漠和不关心依旧让我感到失望和无奈。 ...
[详细]
蜡笔小新 2024-11-01 16:23:31
多条件联动筛选功能广泛应用于图片展示、装修设计、机械设备和在线商城等场景,通常筛选条件应聚焦于用户最关心的要素,而非涵盖所有可能的选项。在DedeCMS中,多条件筛选的PHP开发并未内置删除已选条件的功能,但通过理解PHP筛选与JS筛选的不同机制,实现这一功能相对简单且易于操作。 ...
[详细]
蜡笔小新 2024-11-01 16:21:47
掌握 Git 基础操作是每个开发者必备的技能。本文详细介绍了 Git 的基本命令和使用方法,包括初始化仓库、配置用户信息、添加文件、提交更改以及查看版本历史等关键步骤。通过这些操作,读者可以快速上手并高效管理代码版本。例如,使用 `git config --global user.name` 和 `git config --global user.email` 来设置全局用户名和邮箱,确保每次提交时都能正确标识提交者信息。 ...
[详细]
蜡笔小新 2024-11-01 16:16:26
在应用程序中,数据网格视图(DataGridView)的高效应用与优化策略至关重要。本文探讨了多种优化方法,包括但不限于:1)通过合理的数据绑定提升性能;2)利用虚拟模式处理大量数据,减少内存占用;3)在格式化单元格内容时,推荐使用CellParsing事件,以确保数据的准确性和一致性。此外,还介绍了如何通过自定义列类型和优化渲染过程,进一步提升用户体验和系统响应速度。 ...
[详细]
蜡笔小新 2024-11-01 16:14:23
如今,许多用户正在体验手机QQ的坦白说功能,许多人对这一功能中的身份标签选择感到好奇。本文将详细介绍可用的身份标签及其具体应用,帮助大家更好地理解和使用坦白说功能。如果你对坦白说还不熟悉,欢迎点击链接了解更多详细信息。 ...
[详细]
蜡笔小新 2024-11-01 16:12:57
为了在Fragment中直接调用Activity的方法,可以通过定义一个接口并让Activity实现该接口来实现。具体步骤包括:首先在Fragment中声明一个接口,并在Activity中实现该接口。接着,在Fragment中通过类型转换检查Activity是否实现了该接口,如果实现了则调用相应的方法。这种方法不仅提高了代码的解耦性,还增强了模块间的通信效率。此外,还可以通过ViewModel或LiveData等现代Android架构组件进一步优化这一过程,以实现更加高效和可靠的通信机制。 ...
[详细]
蜡笔小新 2024-11-01 16:08:16
在电视剧《神话》中,如何评价吕素对小川的感情?你是否能够接受吕素这个角色? ...
[详细]
蜡笔小新 2024-11-01 15:51:44