在开发爬虫的过程中,经常会遇到整个网站内容进行下载,比如像头条的APP类似的需求,它需要统计全世界上所有的新闻网站,看看这些网站出现什么内容是热点,这样把所有热点放到一起,再推荐给用户,就成为一种便利的商业模式。因为所有人类都有一个需求,就是了解这个世界上发生的事情,企图与世界同步,不成为落后的那一个,毕竟落后就会挨打,就会造成信息不对称,就会多交这样的智商税,这是数千年来人类锤炼出来的基因。
在互联网上很多网站也提供了一种叫做sitemap(网站地图)的信息结构,我们可以从这里获取到那个网站的最新内容。Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

这个就是chinanews上的网站地图,它是一个XML文件,文件格式是