热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

linux环境nutch的配置,Nutch配置

至此,配置完毕!7、建立要抓取的url文件。我是在D:\cygwin\usr\local\nutch(即在nutch目录下建立url.txt)。里面写要

至此,配置完毕!

7、建立要抓取的url文件。我是在D:\cygwin\usr\local\nutch(即在nutch目录下建立url.txt)。里面写要抓取的url的名称,每个url必定要在末尾加上“/”。

例如:

http://www.doczj.com/doc/2b8232fefab069dc502201f5.html/

24901d3a8cb5be86aba9cb71917dbaac.png

8、抓取网页。进入nutch目录。输入如下命令:

bin/nutch crawl url.txt -dir crawled -depth 3 -threads 10 -topN 50 >& crawl.log

url.txt 指url文件

-dir crawled 抓取网页存储的文件夹。crawled文件夹可以不用自己建,没有的话自动生成的。crawldb和segments文件夹也是抓取网页过程中生成的。

92cb922ee5b12b76e27c8dde7a2666af.png

-depth 3 抓取深度为3

-threads 10 线程总数为10

crawl.log 文件也是在抓取过程当中生成的。

如下截图命令。敲完要等待抓取……



推荐阅读
author-avatar
枫涵笑
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有