首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
main
random
shell
merge
utf-8
case
join
io
php8
js
python3
php5
regex
request
schema
web
golang
scala
metadata
string
c语言
copy
flutter
client
email
chat
timezone
triggers
dockerfile
数组
callback
dll
jar
tree
sum
cmd
md5
uri
substring
search
timestamp
cpython
install
php
httpclient
future
perl
rsa
window
jsp
blob
node.js
httprequest
solr
go
hashtable
match
settings
foreach
post
keyword
header
range
version
text
cookie
erlang
less
uml
bitmap
fetch
eval
object
vba
instance
export
default
filter
testing
当前位置:
开发笔记
>
编程语言
> 正文
Nutch1.3学习笔记2
作者:苦柚甜甜 | 来源:互联网 | 2023-05-18 18:03
http:blog.csdn.netamuseme_luarticledetails6710221分类:Nutch2011-08-2223:41830人阅读评论(0)收藏举报
http://blog.csdn.net/amuseme_lu/article/details/6710221
分类: Nutch
2011-08-22 23:41
830人阅读
评论(0)
收藏
举报
Nutch 学习笔记 2
-----------------
1. Nutch 1.3 运行命令的一些介绍
要看Nutch的命令说明,可执行如下命令bin/nutch
[html]
view plaincopy
Usage: nutch [-core] COMMAND
where COMMAND is one of:
crawl one-step crawler for intranets
readdb read / dump crawl db
convdb convert crawl db from pre-0.9 format
mergedb merge crawldb-s, with optional filtering
readlinkdb read / dump link db
inject inject new urls into the database
generate generate new segments to fetch from crawl db
freegen generate new segments to fetch from text files
fetch fetch a segment's pages
parse parse a segment's pages
readseg read / dump segment data
mergesegs merge several segments, with optional filtering and slicing
updatedb update crawl db from segments after fetching
invertlinks create a linkdb from parsed segments
mergelinkdb merge linkdb-s, with optional filtering
solrindex run the solr indexer on parsed segments and linkdb
solrdedup remove duplicates from solr
solrclean remove HTTP 301 and 404 documents from solr
plugin load a plugin and run one of its classes main()
or
CLASSNAME run the class named CLASSNAME
Most commands print help when invoked w/o parameters.
Expert: -core option is for developers only. It avoids building the job jar,
instead it simply includes classes compiled with ant compile-core.
NOTE: this works only for jobs executed in 'local' mode
2. 单个命令的说明
2.1 bin/nutch crawl
Usage: Crawl
-solr
[-dir d] [-threads n] [-depth i] [-topN N]
这是用于对urls进行一键式抓取的命令
2.2 bin/nutch readdb
Usage: CrawlDbReader
(-stats | -dump
| -topN
[
] | -url
)
这是用于对crawldb数据库进行读取的命令,主要是用于dump相应的url文件
2.3 bin/nutch convdb
这个命令主要用于把nutch 0.9的crawldb数据转换成1.3的格式
2.4 bin/nutch mergedb
Usage: CrawlDbMerger
[
...] [-normalize] [-filter]
这个命令主要用于合并多个crawldb数据库
2.5 bin/nutch readlinkdb
Usage: LinkDbReader {-dump
| -url
)
主要用于读取invertlinks产生的链接数据
2.6 bin/nutch inject
Usage: Injector
主要用于把url_dir中的url注入到crawldb数据库中去
2.7 bin/nutch generate
Usage: Generator
[-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]
用于产生准备抓取的url列表
2.8 bin/nutch freegen
Usage: FreeGenerator
[-filter] [-normalize]
从文本文件中提取urls来产生新的抓取segment
2.9 bin/nutch fetch
Usage: Fetcher
[-threads n] [-noParsing]
主要用来对generate产生的urls进行抓取,这里用到了Hadoop架构,使用了一个FetcherOutputFormat来对其结果进行多目录输出
2.10 bin/nutch parse
Usage: ParseSegment segment
主要是对抓取的内容进行分析
2.11 bin/nutch readseg
Usage: SegmentReader (-dump ... | -list ... | -get ...) [general options]
这个命令主要是输出segment的内容
2.12 bin/nutch invertlinks
Usage: LinkDb (-dir
|
...) [-force] [-noNormalize] [-noFilter]
这个命令主要是得到抓取内容的外链接数据
2.13 bin/nutch solrindex
Usage: SolrIndexer
(
... | -dir
)
对抓以的内容进行索引建立,前提是要有solr环境。
2.14 bin/nutch plugin
Usage: PluginRepository pluginId className [arg1 arg2 ...]
这个命令主要对插件进行测试,运行其main方法
分享到:
上一篇:
Nutch 1.3 学习笔记1
下一篇:
Nutch 1.3 学习笔记3 - Inject
hadoop
solr
数据库
http
lua
h2
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
js
软链接和硬链接的解读
1、概念解读1.1什么是链接?链接是一种在共享文件和访问它的用户的若干目录项之间建立联系的方法。Linux系统中有两种链接:硬链接(HardLink)和软链接(SoftLink), ...
[详细]
蜡笔小新 2023-10-13 09:35:49
web
svnWebUI:一款现代化的svn服务端管理软件
svnWebUI是一款图形化管理服务端Subversion的配置工具,适用于非程序员使用。它解决了svn用户和权限配置繁琐且不便的问题,提供了现代化的web界面,让svn服务端管理变得轻松。演示地址:http://svn.nginxwebui.cn:6060。 ...
[详细]
蜡笔小新 2023-12-11 11:01:10
web
Marathon-lb 服务自动发现和负载均衡
nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ...
[详细]
蜡笔小新 2023-10-12 22:57:35
request
爬虫框架Scrapy(三)
正文共:2957字6图预计阅读时间:8分钟每日分享Bethetypeofpersonyouwanttomeet.努力变成理想的模样。小闫笔记 ...
[详细]
蜡笔小新 2023-10-12 20:23:12
js
JS模式基本的单例模式
MDI窗体容器-放窗体的容器窗体时顶级控件,是不允许放到其他的控件或窗体中的(李献策lxc)窗体属性中有一个属性:IsMdiContainer-确定该窗体是否是MDI容器在窗体中 ...
[详细]
蜡笔小新 2023-10-10 16:53:09
request
利用SOLR搭建企业搜索平台 之——Solr索引基本操作
来源:http:blog.csdn.netzx13525079024articledetails25367239我们来看下通过界面来操作SOLR,包括SOLR索引的添加,查询等基本 ...
[详细]
蜡笔小新 2023-09-25 20:19:38
io
CloudStack 4.0 + KVM 安装详细指南
nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ...
[详细]
蜡笔小新 2024-09-30 12:48:34
io
一个可以跟着清华大学软件学院进行系统的学习数据库系统的完整设计和实现的开源项目...
【公众号回复“1024”,免费领取程序员赚钱实操经验】大家好,我是章鱼猫,今天给大家分享的这个开源项目是一个非常不错的系统的学习数据库系统 ...
[详细]
蜡笔小新 2024-09-29 14:47:42
io
CSS浮动和定位属性介绍
这篇文章主要介绍“CSS浮动和定位属性介绍”,在日常操作中,相信很多人在CSS浮动和定位属性介绍问题上存在疑惑,小编查阅了各式资料,整理出简单 ...
[详细]
蜡笔小新 2024-09-26 10:30:04
web
php视频点播系统的简单介绍
本文目录一览:1、phpvod管理员是什么 ...
[详细]
蜡笔小新 2024-09-25 21:31:48
web
0528学习进度条
周次学习时间新编写代码行数博客量(篇)学到知识点第一周4h275(行)1(篇)对软件工程这门课程的感性认识软件工程就业分析与思考与及软件工程的定义观看助 ...
[详细]
蜡笔小新 2024-09-25 18:58:37
schema
Apache Solr初体验二
接着上篇http:cxshun.iteye.comblog1039445,我们讲了怎么初始化配置solr,并运行。问题来了,当我们配置完成后,索引当中并没有任何东西,就是说我们查询得到的 ...
[详细]
蜡笔小新 2023-09-25 20:53:08
string
solr部署在tomcat下
新版本的solr的dist下并没有war包,本人安装了好多次均告失败,所以直接安装了一个旧版本。1.首先吧solr下的dist下的war包直接放在tomcat的wepapp下,改名成s ...
[详细]
蜡笔小新 2023-09-25 20:52:45
string
CVE20190193:Apache Solr 远程命令执行漏洞预警
CVE20190193:Apache Solr 远程命令执行漏洞预警 ...
[详细]
蜡笔小新 2023-09-25 20:51:37
string
超能搜索系统输入关键字_电商后台设计——搜索
编辑导语:我们在进行网上购物时,可以直接利用搜索功能查找想要的商品,十分快捷方便;为了方便我们的更快的找到,搜 ...
[详细]
蜡笔小新 2023-09-25 15:57:20
苦柚甜甜
这个家伙很懒,什么也没留下!
Tags | 热门标签
main
random
shell
merge
utf-8
case
join
io
php8
js
python3
php5
regex
request
schema
web
golang
scala
metadata
string
c语言
copy
flutter
client
email
chat
timezone
triggers
dockerfile
数组
RankList | 热门文章
1
爱了爱了!dockerkubernetes启动
2
pos系统 复制功能思路及方案
3
分享2011年50个最棒的wordpress主题第一部分
4
大数据时代数据存在哪?华为腾讯苹果都在这里建“粮仓”
5
FLV文件切割器到哪里可以下载?
6
Seafile深入理解(一).如何理解异地分布式部署
7
苹果6,有信息过来屏幕就一直亮着,也设置一分钟自动锁屏的啦,也已经按锁屏的…求解?
8
Win10无法打开应用商店的处理方法
9
生产者/消费者模式 (一)“生产者/消费者模式”介绍
10
批处理学习笔记8深入学习For命令1
11
5.7 a simple method for rendering gemstonesgame programming gems 5 笔记
12
[Qt] QPushButton的toggled无法触发setVisible
13
怎样做游戏主播,虎牙直播简明使用教程?
14
在Linux中冻结和重启后,我应该在哪里查找错误消息?
15
hadoop元数据合并过程_基于Hadoop的海量小文件合并的研究与设计
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有