热门标签 | HotTags
当前位置:  开发笔记 > Android > 正文

Ubuntu下Nutch-1.2配置

1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Createprojectfromexistingsource",指向nutch目录。2、下一步操作,切换到"Libraries"选择"AddClassFolder..."按钮,从列表中选择"conf",继续操作:切换到"OrderandExport"找到"conf",把它移到顶。

1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project from existing source",指向nutch目录。

2、下一步操作,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf",继续操作:切换到"Order and Export"找到"conf",把它移到顶。

3、到"Source"将output folder设置为Nutch /bin/tmp_build,点击finish完成导入。

4、 配置文件:nutch-default.xml,nutch-site.xml,crawl-urlfilter.txt。
1) nutch-default.xml
修改此处:

  plugin.folders
  ./src/plugin
  Directories where nutch plugins are located.  Each
  element may be a relative or absolute path.  If absolute, it is used
  as is.  If relative, it is searched for on the classpath.

2)nutch-site.xml

中添加:

        http.agent.name

        my nutch agent

   

   

        http.agent.version

        1.0

 

3)crawl-urlfilter.txt

删除:MY.DOMAIN.NAME

添加:+^http://([a-z0-9]*/.)*qq.com/

下面是自己的做法:直接就是accept anything else 配置成“+.”。

在nutch目录新建weburls.txt,并添加入口地址:http://www.qq.com

5、执行抓取

运行crawl 可执行类
       配置运行环境:
       Program arguments:
      bin/nutch crawl weburls.txt -dir localweb -depth 50 -topN 100 -threads 2

       VM arguments:
       -DHadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

6)有可能会碰到一些报错的情况,例如找不到类。这时候可能需要用ant重新编译一下nutch,切换到nutch的安装根目录,然后执行ant命令,成功编译后,再试试看。

PS:本文蓝色部分为自己的做法,其它参考于其它文章。


推荐阅读
author-avatar
手机用户2502853267
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有