作者:dachuanghu | 来源:互联网 | 2017-05-14 02:24
数据的价值被挖掘出来之前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。本期CSDN云计算俱乐部“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。
摘要:数据的价值被挖掘出来之前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。本期CSDN云计算俱乐部“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。
12月30日,CSDN云计算俱乐部活动在3W咖啡举行,活动主题是“RSS与爬虫:大数据的故事——从如何搜集数据开始”。数据的价值被挖掘出来之前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。也许当下数据并不能为企业或组织带来实际价值,但作为有远见的决策者应该意识到,应尽早收集、保存重要数据,数据就是财富。本期“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。
其中,上面第一个是RSS/sitemap一个子系统,接下来是网页泛爬的调度系统Webmain scheduler,然后是一个时效性模块Vertical Scheduler,最左侧是DNS服务,抓取的时候,一般是几十台甚至是几百台的抓取集群,如果每一台都有防御的话对DNS的压力比较大,所以一般有一个DNS的服务模块来做全局的服务。数据抓取完毕后,一般会做后续的数据处理。
涉及到实效性的模块包括以下几个:
RSS/sitemap系统:时效性系统利用RSS/sitemap的过程是挖掘种子,定时抓取,解析链接发布时间,将较新的网页优先抓取并索引。
泛爬系统:泛爬系统设计良好的话有助于提高时效性网页的高覆盖率,但泛爬需要尽可能缩短调度周期。
种子调度系统:主要是一个时效性的种子库,这个种子库里面有一些信息调度系统会不断地扫描这个数据库,然后发给抓取集群,这个集群抓取完会进行一些抽取链接的处理,接下来把这些按类别发出去,各个垂直频道会获取到时效性的数据。
种子的挖掘:涉及到页面解析或其它的一些挖掘手段,可以通过站点地图,还有导航条来构建,还要基于页面结构特征和页面变更规律。
种子的更新机制:记录每个种子的抓取历史,follow的链接信息,定期根据种子的外链更新特征,重新计算种子的更新周期。
抓取系统与Javascript解析:使用浏览器进行抓取,搭建一个基于浏览器抓取的抓取集群。或采用开源项目,如Qtwebkit。
以上就是RSS与爬虫,如何搜集数据详解的详细内容,更多请关注 第一PHP社区 其它相关文章!