上次笔者在《 被人所遗忘的SEO根本 》中提到了关于网站日志的一些见解,很多读者感到很迷茫,甚至于很多读者都不知道如何查看网站日志,今天笔者就来详细的讲解下网站日志在SEO中所发挥的角色,以及一些常见的分析方法。
在上篇文章笔者提到,决定网站排名的是每次蜘蛛爬过你网站以后带回数据库的那个综合值。很多读者都对这个理解产生了偏差。很多人以为这个综合值就是网站日志中的每条数据,或者每一个IP所代表的意义,其实这是一个错误的理解。首先,网站日志只能代表蜘蛛爬过的痕迹。还有对于IP的理解很多网上的资料笔者都不敢苟同。笔者在网上看到很多什么一篇新闻爬过220.181.108.*IP的话,第二天就会马上收录,在笔者看来这完全是扯淡。请记住非常重要的一点,百度蜘蛛的IP是在爬你网站之前决定的,而不是先知道你这个网页是高质页面,然后再用提权蜘蛛来爬行。这是一个非常大的误区。
当然日志的重要性无可厚非。它虽然不能完全看出你网站的排名,但是你却可以从中发现很多趋势。所以今天笔者就来谈谈一些关于百度蜘蛛的一些常见判断。为什么是百度蜘蛛呢?因为现在的网站SEO基本上已经可以理解为百度引擎优化了。下面笔者就来详细地讲解下如何分析网站日志。
2013-09-09 00:07:16 59.60.7.125 GET /news/news2013524236.html - 80 - 123.125.71.16 HTTP/1.1 Mozilla/5.0+(Linux;u;Android+2.3.7;zh-cn;)+AppleWebKit/533.1+(KHTML,like+Gecko)+Version/4.0+Mobile+Safari/533.1+(compatible;++http://www.baidu.com/search/spider.html) - - www.jinh.cn 200 0 0 16143 296 140
上面一段文字是笔者从网站日志中截取的完整的一小段。GET的前面有两个数据,前半部分是时间,后半部分就是你网站的域名IP了,GET后面到-前面所代表的是蜘蛛所爬行的页面。很多时候都是什么都没有的,就代表了它爬了你网站的首页。后面的-后面就是非常重要的爬行蜘蛛的IP了。一般常见的IP其实就两种一种是提权蜘蛛的IP220.181.108.*,另一种就是垃圾内容的查看蜘蛛123.125.71.*。对于新站来讲,还需要特别留意一个IP:121.14.89.*。这个IP代表了你的新站已经摆脱了新站的考察期,正式成为一个普通网站看待。还有一些需要注意的就是IP的第三个区间段为68或者51的IP,当这些IP大量出现在你的网站的时候,我可以负责任的告诉你们:亲们,你可以为你的网站准备后事了。
然后IP后面跟着的一大堆唯一要注意就是那个网址。它代表了蜘蛛找到你的网站的入口。比如你再某博客或者论坛发表了一篇文章,而后面发现蜘蛛是从那里找到你的网站的。那么,说明这个外链是效果比较好的,你就可以继续坚持去做下去。然后就是最后那些返回值了,就是200 0 0这一段。返回的代码一般有200、301、304、403、404这些代码在网上都可以找到先关说明笔者就不多做介绍了。最后的那三个值代表了下载,上传以及耗时。
说了那么多,我想很多人对于网站的日志已经有了初步的认识了。在这里,笔者再次强调一点,蜘蛛的IP是在未爬行到网站之前决定的,所以千万别看到220.181.108.*的IP就以为是天使的眷顾,它也很可能是死神的镰刀!下次笔者将和大家分享,如何深度分析网站的日志 。