爬虫分为两个领域:
聚焦爬虫和通用爬虫。
通用爬虫:
搜索引擎用的爬虫系统。
目标:
搜索互联网所有的信息下载下来,放到本地服务器,再对这些网页进行相关处理,提取关键字什么的,最终给用户提供一个检索的接口,他们每隔一段时间获取一次。
百度快照的好处:
如果直接点击链接的话,可能信息已经被删除了,但是点击百度快照的话,可能还会备份的,搜索引擎的话是无法爬取图片的,电影也爬不出来。
聚焦爬虫:
程序员写的针对某种内容信息的爬虫。