Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
如果只是用nutch的话,那么完全不需要myeclipse,仅需JDK、Tomcat、cygwin。
如果要编译nutch的话,一般它也建议直接用ant来编译的,只有你想调试它时才需要myeclipse。
从1.1开始,它同时发布已经编译好的包了,各个压缩包用处如下:
apache-nutch-1.1-bin.tar.gz:已经编译好的包,用于linux/unix
apache-nutch-1.1-bin.zip: 已经编译好的包,用于windows
apache-nutch-1.1-src.tar.gz:源代码,用于linux/unix
apache-nutch-1.1-src.zip: 源代码,用于windows
*.asc:校验文件,没啥用。
所以,如果要安装nutch,只需下载apache-nutch-1.1-bin.zip,然后解压到某个目录下。(有160M这么大,估计包含了tomcat了吧)
好像0.9与1.0都需要编译的,下载下来直接运行ant即可
然后在那个目录下建个urls文件,里面写上所需爬的最上层网址,如:http://lucene.apache.org/nutch/
然后运行 bin/nutch crawl urls -dir crawl -depth 3
这样就会将索引存放在crawl目录下了。
要想检索,那么需要将nutch*.war部署到tomcat,然后启动。
(我认为1.1-bin.zip中已经包含了tomcat,无需再次部署的,可以直接启动)