热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

蜘蛛的昆虫备忘录该怎么写

本文主要介绍关于php,操作系统,java的知识点,对【盗亦有道:OutfoxBot原来是有道蜘蛛】和【蜘蛛的昆虫备忘录该怎么写】有兴趣的朋友可以看下由【车东-csdn】投稿的技术文章,希望该技术和经

本文主要介绍关于php,操作系统,java的知识点,对【盗亦有道:OutfoxBot原来是有道蜘蛛】和【蜘蛛的昆虫备忘录该怎么写】有兴趣的朋友可以看下由【车东-csdn】投稿的技术文章,希望该技术和经验能帮到你解决你所遇的【】相关技术问题。

蜘蛛的昆虫备忘录该怎么写

一个新的独立的搜索引擎: 有道 yodao.com发布了,有道搜索引擎用的什么机器人呢?用crawledby方法查了一下:很眼熟的名字,原来有道蜘蛛就是以前被认为是匿名盗抓的OutfoxBot啊……

新搜索引擎发布,还是要祝贺一下。这里还给有道蜘蛛的一些建议:
1 做个机器人抓取说明页吧(最好有联系方式),并加入到蜘蛛UA中有道蜘蛛的帮助: 写的很详细了 http://www.yodao.com/help/webmaster/spider/就是还没有被其他引擎收录;
2 查查以前UA中留的gmail邮箱:给向你们提意见的用户一个回复;

在有道的搜索结果附后:

查询为: site:chedong.com crawledby

ipfw - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-04 07:37 @60.191.80.35 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/ipfw - 1006 - 2006-12-04 - 快照
java - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 07:15 @60.191.80.46 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php?mode=perl ... - 1K - 2006-12-06 - 快照
stunnel4 - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-11-17 05:42 @60.191.80.29 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/stunnel4 - 1014 - 2006-11-17 - 快照
intro(2) - phpMan
Dong On Apache/1.3.37 (Unix) mod_perl/1.29 mod_gzip/1.3.26.1a PHP/4.4.4 Under GNU General Public License 2006-12-06 23:26 @60.191.80.27 CrawledBy OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)
www.chedong.com/phpMan.php/man/intro/2 - 4K - 2006-12-06 - 快照


后记:
1 目前还不能透露太多Outfox所在公司的背景,沟通还是很积极的,感谢;也看到日志中的yodaobot的访问了:
chedong_access_log.20061214:60.191.80.43 - - [14/Dec/2006:21:31:43 +0800] "GET /digest/20060825.html HTTP/1.1" 304 - "-" "YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )" 60.191.80.43.319491166103103746

这里还有一份有道蜘蛛的12月对本站的抓取统计,最后更新时间为本月13/14日,上周五刚改的?

OutfoxBot crawls - Top 50
网页数 文件数 字节 最近参观日期
/robots.txt 166 166 37.45 K字节 2006年 十二月 14日 19:39
/blog/ 37 37 1.52 M字节 2006年 十二月 14日 09:45
/phpMan.php 33 33 89.45 K字节 2006年 十二月 14日 04:53
/ 27 27 1.25 M字节 2006年 十二月 14日 09:45
/phpMan.php/man/intro/3 16 16 58.97 K字节 2006年 十二月 14日 19:39
/phpMan.php/phpinfo 13 13 394.83 K字节 2006年 十二月 13日 11:57
/blog/archives/001195.html 13 13 245.30 K字节 2006年 十二月 14日 10:26
/blog/archives/001240.html 12 12 132.39 K字节 2006年 十二月 14日 04:55
/blog/archives/001117.html 10 10 459.88 K字节 2006年 十二月 13日 23:30
/blog/archives/001047.html 9 9 100.69 K字节 2006年 十二月 13日 11:56
/blog/archives/001216.html 9 9 122.66 K字节 2006年 十二月 14日 19:46
/blog/archives/000772.html 9 9 264.73 K字节 2006年 十二月 12日 08:45
/blog/archives/001230.html 9 9 115.75 K字节 2006年 十二月 14日 09:46
/blog/archives/001249.html 9 9 146.90 K字节 2006年 十二月 14日 05:56

Yodaobot就是一个比较搜索引擎反映速度和索引策略的一个关键词:
Google: 26 条
Baidu: 3条
Yahoo: 25条
Yodao: 0条?
Sogou: 77条
MSN 235条:这里有个有趣的页面,msnbot刚好抓到了由YodaoBot生成的缓存页面:
# 北京酒店-北京香格里拉饭店, 中国
You are using: YodaoBot/1.0 (http://www.yodao.com/help/webmaster/spider/; )
* www.shangri-la.com/beijing/shangri-la/sc * · 2006-12-16 * · 缓存页面
现在点击过去:也是同样的UA信息。

作者: 车东 发表于:2006-12-17 00:12 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 盗亦有道:OutfoxBot原来是有道蜘蛛 的原始出处和作者信息及 本版权声明。
http://www.chedong.com/blog/archives/001256.html

本文《盗亦有道:OutfoxBot原来是有道蜘蛛》版权归车东-csdn所有,引用盗亦有道:OutfoxBot原来是有道蜘蛛需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • mac php错误日志配置方法及错误级别修改
    本文介绍了在mac环境下配置php错误日志的方法,包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别,以及相应的错误级别参考链接。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • vue使用
    关键词: ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • 本文介绍了关于smarty自定义缓存名的解决思路,通过放弃生成缓存,直接生成html的静态页面来提高速度。同时提供了一个参考链接供参考。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 如何提高PHP编程技能及推荐高级教程
    本文介绍了如何提高PHP编程技能的方法,推荐了一些高级教程。学习任何一种编程语言都需要长期的坚持和不懈的努力,本文提醒读者要有足够的耐心和时间投入。通过实践操作学习,可以更好地理解和掌握PHP语言的特异性,特别是单引号和双引号的用法。同时,本文也指出了只走马观花看整体而不深入学习的学习方式无法真正掌握这门语言,建议读者要从整体来考虑局部,培养大局观。最后,本文提醒读者完成一个像模像样的网站需要付出更多的努力和实践。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • 目录浏览漏洞与目录遍历漏洞的危害及修复方法
    本文讨论了目录浏览漏洞与目录遍历漏洞的危害,包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法,如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式,包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]
  • PHP引用的概念和用法详解
    本文详细介绍了PHP中引用的概念和用法。引用是指不同的变量名访问同一个变量内容,类似于Unix文件系统中的hardlink。文章从引用的定义、作用、语法和注意事项等方面进行了解释和示例。同时还介绍了对未定义变量使用引用的情况,以及在函数和new运算符中使用引用的注意事项。 ... [详细]
  • 本文介绍了5个基本Linux命令行工具的现代化替代品,包括du、top和ncdu。这些替代品在功能上进行了改进,提高了可用性,并且适用于现代化系统。其中,ncdu是du的替代品,它提供了与du类似的结果,但在一个基于curses的交互式界面中,重点关注占用磁盘空间较多的目录。 ... [详细]
author-avatar
甫士归
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有