pyspider可以通过设定age来实现周期爬取,不过很多爬取目标是会不定期地更新内容的,比如论坛帖子。帖子的更新时间是不一定的,如果我想要实现增量爬取的话,是否可以使用pyspider提供的现成接口,还是必须由自己实现这一功能?在文档中没有找到相关的接口说明。。
如果只通过设定age值来更新数据(超过age值的任务进行重爬和更新),感觉对于很多并未更新的帖子来说是不必要的。是否有更加好的方法可以解决这个需求呢?