热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Nutch1.3学习笔记2

http:blog.csdn.netamuseme_luarticledetails6710221分类:Nutch2011-08-2223:41830人阅读评论(0)收藏举报
 http://blog.csdn.net/amuseme_lu/article/details/6710221分类: Nutch 830人阅读 评论(0) 收藏 举报Nutch 学习笔记 2
-----------------

1. Nutch 1.3 运行命令的一些介绍

   要看Nutch的命令说明,可执行如下命令bin/nutch
  [html] view plaincopy
  1.  Usage: nutch [-core] COMMAND  
  2.     where COMMAND is one of:  
  3.     crawl             one-step crawler for intranets  
  4.     readdb            read / dump crawl db  
  5.     convdb            convert crawl db from pre-0.9 format  
  6.     mergedb           merge crawldb-s, with optional filtering  
  7.     readlinkdb        read / dump link db  
  8.     inject            inject new urls into the database  
  9.     generate          generate new segments to fetch from crawl db  
  10.     freegen           generate new segments to fetch from text files  
  11.     fetch             fetch a segment's pages  
  12.     parse             parse a segment's pages  
  13.     readseg           read / dump segment data  
  14.     mergesegs         merge several segments, with optional filtering and slicing  
  15.     updatedb          update crawl db from segments after fetching  
  16.     invertlinks       create a linkdb from parsed segments  
  17.     mergelinkdb       merge linkdb-s, with optional filtering  
  18.     solrindex         run the solr indexer on parsed segments and linkdb  
  19.     solrdedup         remove duplicates from solr  
  20.     solrclean         remove HTTP 301 and 404 documents from solr  
  21.     plugin            load a plugin and run one of its classes main()  
  22.    or  
  23.     CLASSNAME         run the class named CLASSNAME  
  24. Most commands print help when invoked w/o parameters.  
  25.   
  26.   
  27. Expert: -core option is for developers only. It avoids building the job jar,   
  28.         instead it simply includes classes compiled with ant compile-core.   
  29.         NOTE: this works only for jobs executed in 'local' mode  


2. 单个命令的说明

2.1 bin/nutch crawl

Usage: Crawl -solr [-dir d] [-threads n] [-depth i] [-topN N]
这是用于对urls进行一键式抓取的命令

2.2 bin/nutch readdb 

Usage: CrawlDbReader (-stats | -dump | -topN [] | -url )
这是用于对crawldb数据库进行读取的命令,主要是用于dump相应的url文件

2.3 bin/nutch convdb 

这个命令主要用于把nutch 0.9的crawldb数据转换成1.3的格式

2.4 bin/nutch mergedb

Usage: CrawlDbMerger [ ...] [-normalize] [-filter]
这个命令主要用于合并多个crawldb数据库

2.5 bin/nutch readlinkdb

Usage: LinkDbReader {-dump | -url )
主要用于读取invertlinks产生的链接数据

2.6 bin/nutch inject

Usage: Injector
主要用于把url_dir中的url注入到crawldb数据库中去

2.7 bin/nutch generate

Usage: Generator [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]
用于产生准备抓取的url列表

2.8 bin/nutch freegen

Usage: FreeGenerator [-filter] [-normalize]
从文本文件中提取urls来产生新的抓取segment

2.9 bin/nutch fetch

Usage: Fetcher [-threads n] [-noParsing]
主要用来对generate产生的urls进行抓取,这里用到了Hadoop架构,使用了一个FetcherOutputFormat来对其结果进行多目录输出

2.10 bin/nutch parse

Usage: ParseSegment segment
主要是对抓取的内容进行分析

2.11 bin/nutch readseg

Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
这个命令主要是输出segment的内容

2.12 bin/nutch invertlinks

Usage: LinkDb (-dir | ...) [-force] [-noNormalize] [-noFilter]
这个命令主要是得到抓取内容的外链接数据

2.13 bin/nutch solrindex

Usage: SolrIndexer ( ... | -dir )
对抓以的内容进行索引建立,前提是要有solr环境。

2.14 bin/nutch plugin

Usage: PluginRepository pluginId className [arg1 arg2 ...]
这个命令主要对插件进行测试,运行其main方法

  • 推荐阅读
    • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
      2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
    • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
      秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
    • JBPM 6.5 环境配置深入解析(下篇)
      本文深入探讨了JBPM 6.5 的环境配置细节,从零开始详细介绍了下载、解压后的文件结构,并结合实际操作步骤,为初学者提供了全面的配置指南。通过具体的示例和详细的解释,帮助读者快速掌握 JBPM 6.5 的安装与配置过程。 ... [详细]
    • HBase在金融大数据迁移中的应用与挑战
      随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
    • 2018深入java目标计划及学习内容
      本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
    • camel_使用Camel在来自不同来源的Solr中索引数据
      camelApacheSolr是建立在Lucene之上的“流行的,快速的开源企业搜索平台”。为了进行搜索(并查找结果),通常需要从不同的源(例如内容管理 ... [详细]
    • 本文通过基准测试(Benchmark)对.NET Core环境下Thrift和HTTP客户端的微服务通信性能进行对比分析。基准测试是一种评估系统或组件性能的方法,通过运行一系列标准化的测试来衡量其表现。 ... [详细]
    • 第七卷《英才》强调,即使有良药,若不对症,效果也不如低等药物;即使有贤才,若不适用,效果也不如普通人。文中通过多个比喻,阐述了人才使用的重要性,指出合适的人才在适当的时间和场合才能发挥最大效用。 ... [详细]
    • 本文介绍了如何使用Python爬取妙笔阁小说网仙侠系列中所有小说的信息,并将其保存为TXT和CSV格式。主要内容包括如何构造请求头以避免被网站封禁,以及如何利用XPath解析HTML并提取所需信息。 ... [详细]
    • 周排行与月排行榜开发总结
      本文详细介绍了如何在PHP中实现周排行和月排行榜的开发,包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]
    • Nacos 0.3 数据持久化详解与实践
      本文详细介绍了如何将 Nacos 0.3 的数据持久化到 MySQL 数据库,并提供了具体的步骤和注意事项。 ... [详细]
    • 本文介绍了多种开源数据库及其核心数据结构和算法,包括MySQL的B+树、MVCC和WAL,MongoDB的tokuDB和cola,boltDB的追加仅树和mmap,levelDB的LSM树,以及内存缓存中的一致性哈希。 ... [详细]
    • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
      本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
    • 利用Python与Android进行高效移动应用开发
      通过结合Python和Android,可以实现高效的移动应用开发。首先,需要安装Scripting Layer for Android (SL4A),这是一个开源项目,旨在为Android系统提供脚本语言支持。SL4A不仅简化了开发流程,还允许开发者使用Python等高级语言编写脚本,从而提高开发效率和代码可维护性。此外,SL4A还支持多种其他脚本语言,进一步扩展了其应用范围。通过这种方式,开发者可以快速构建功能丰富的移动应用,同时保持较高的灵活性和可扩展性。 ... [详细]
    • 优化后的标题:PHP分布式高并发秒杀系统设计与实现
      PHPSeckill是一个基于PHP、Lua和Redis构建的高效分布式秒杀系统。该项目利用php_apcu扩展优化性能,实现了高并发环境下的秒杀功能。系统设计充分考虑了分布式架构的可扩展性和稳定性,适用于大规模用户同时访问的场景。项目代码已开源,可在Gitee平台上获取。 ... [详细]
    author-avatar
    苦柚甜甜
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有