作者:手机用户2502897095 | 来源:互联网 | 2023-07-26 16:06
我有兴趣抓取很多网站.最重要的考虑因素是蜘蛛能够尽可能多地到达现场.大多数蜘蛛缺少的一个关键特性是执行JavaScript的能力.这是爬网ajax驱动的站点所必需的.我非常喜欢OpenSour
我有兴趣抓取很多网站.最重要的考虑因素是蜘蛛能够尽可能多地到达现场.大多数蜘蛛缺少的一个关键特性是执行Javascript的能力.这是爬网ajax驱动的站点所必需的.我非常喜欢Open Source,我需要修改项目的代码.
目前我认为Solr是Lucine的一个非常好的解决方案.
http://lucene.apache.org/solr/features.html
有没有人使用Solr或Lucine?我对Solr的最大问题是无法执行Javascript,但它具有丰富的功能集和可扩展性,这两者都使得Solr具有吸引力.
解决方法:
Solr不是爬虫,而是搜索引擎(搜索索引以返回结果).
也就是说,我非常喜欢heritrix的灵活性.大多数抓取工具都不会执行Javascript(但有些人会像Heritrix一样尝试从中提取链接),因为即使在今天也没有多大意义.问题是,Heritrix将允许您插入自己的类,以便使用已爬网数据执行任何操作.