作者:枫涵笑 | 来源:互联网 | 2023-08-24 19:11
至此,配置完毕!
7、建立要抓取的url文件。我是在D:\cygwin\usr\local\nutch(即在nutch目录下建立url.txt)。里面写要抓取的url的名称,每个url必定要在末尾加上“/”。
例如:
http://www.doczj.com/doc/2b8232fefab069dc502201f5.html/
8、抓取网页。进入nutch目录。输入如下命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 10 -topN 50 >& crawl.log
url.txt 指url文件
-dir crawled 抓取网页存储的文件夹。crawled文件夹可以不用自己建,没有的话自动生成的。crawldb和segments文件夹也是抓取网页过程中生成的。
-depth 3 抓取深度为3
-threads 10 线程总数为10
crawl.log 文件也是在抓取过程当中生成的。
如下截图命令。敲完要等待抓取……