作者:江南白衣
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。
Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。
1.Nutch 0.8 的安装与运行
nutch 0.7.2的中文安装文档满街都是,nutch 0.8的安装文档见Tutorial (0.8), 要注意两点:
一是 crawl命令里的urls参数从指定文件变为了指定目录, 即原来的urls 要改存到urls/foo 里。
二是 nutch-default.xml里http.agent.name属性默认为空,必须在nutch-site.xml中为该属性设值,否则会出错。
注意nutch 爬行时的信息用log4j输出在/logs 目录下了,默认不再直接输出到屏幕,除非你在配置文件里设fetcher.verbose为true。
Luke(http://www.getopt.org/luke)是一个必备的索引阅读工具。
另外,nutch需要在unix下奔跑,如果要装在windows上,大家可以先装个cygwin。(下载它的setup.exe 在线安装很快装完)。
最后,nutch 0.8的recawl 脚本也不同了。
2.Nutch You should know
2.1 一份文档
nutch的文档不多,而且多是安装文档,要深入nutch,就必须一字不漏的阅读:
Introduction to Nutch, Part 1 Crawling 和Introduction to Nutch, Part 2 Searching
然后就是看源码了,好在nutch的源码非常均匀,简短,没有花哨的技巧,很容易把事情看明白。
2.2 三个目录
首先理解nutch的三个数据目录:
1.crawdb,linkdb是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。
2.segments是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。
3.index是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
2.3 爬行过程
爬行过程在Introduction to Nutch, Part 1 Crawling 里已有详细说明,或许直接看Crawl类来理解爬行的过程。
这里有一幅更直观的图:
Nutch用入口地址,地址正则表达式,搜索深度三种形式来限制。
因为使用了Hadoop(下篇再讲),Nutch的代码都按照Hadoop的模式来编写以获得分布式的能力,因此要先了解一下Hadoop,明白它Mapper,Reducer, InputFormat, OutputFormat类的作用才能更好的阅读。
1.Fetcher类, 在run()里多线程运行FetcherThread,并调用恰当的Protocol插件(支持http,ftp等协议)获取内容,调用恰当的Parser将内容(html,pdf,excel)分析为文本,然后把内容放到FetcherOutput类里,最后由FetcherOutputFormat类定义写盘到segments的过程。
2.Indexer类,使用hadoop遍历所有segments 目录,将parseData文件序列化成ParseData类,从中获得各种资料然后调用插件进行索引,最后仍然由ouputFormat类完成写入索引的工作。
注意,如果你仅想使用Nutch的爬虫,而不是其索引功能,可以仿照Indexer重写自己的实现,比如把segments内容直接搬进数据库。
3.Nutch 每条索引记录的字段
url: 作为唯一标标识值,由BasicIndexingFilter类产生。
segment:由Indexer类产生。Nutch抓回来的页面内容放在segments目录,lucene只会索引,不会store原文内容,因此在查询时要以segment与url作为外键,由FetchedSegments类根据hitsDetail从segments目录获得content。
boost:优先级,由Indexer类调用插件计算产生。
title:显示标题,在BasicIndexingFilter插件中被索引和存储。
content: 主要的被搜索项,在BasicIndexingFilter插件中被索引。
2.4 搜索过程
Nutch提供了一个Fascade的NutchBean类供我们使用,一段典型的代码如下
NutchBean bean = new NutchBean();
Query query = Query.parse(args[0]);
Hits hits = bean.search(query, NUM_HITS,"title",true);
for (int i &#61; 0; i < hits.getLength(); i&#43;&#43;) {
Hit hit &#61; hits.getHit(i);
HitDetails details &#61; bean.getDetails(hit);
String title &#61; details.getValue("title");
String url &#61; details.getValue("url");
String summary &#61;bean.getSummary(details, query);
}
这里NutchBean为我们做了几样事情&#xff1a;
一是按Title field来排序。
二是支持分布式查询&#xff0c;如果有配置servers&#xff0c;就会使用hadoop的IPC系统&#xff0c;调用所有server上的nutchBeans&#xff0c;最后规约出总的结果。
三是每个站点像Google一样只显示分数最高的一页&#xff0c;如果用户还想看同站的其他结果&#xff0c;就需要进一步调用API访问。
四是生成Summary&#xff0c;从segments目录按segments和url 获得content, 并按一定算法抽取出像Google一样的包含关键字的文档片断。
3. 修改源码或编写插件
Nutch的源码很容易修改和重新编译&#xff0c;注意新编译的class要压回nutch-0.8.job&#xff08;实际是一个jar)才能生效。
Nutch的插件机制及度类似Eclipse&#xff0c; 详看http://wiki.apache.org/nutch/WritingPluginExample&#xff0c;只要实现某个插件接口&#xff0c;然后在plugins.xml里定义class,扩展点和依赖的jar&#xff0c;如
&#61;"index-basic" version&#61;"1.0.0" provider-name&#61;"nutch.org">
&#61;"index-basic.jar">
&#61;"*"/>
&#61;"nutch-extensionpoints"/>
&#61;"org.apache.nutch.indexer.basic"
name&#61;"Nutch Basic Indexing Filter"
point&#61;"org.apache.nutch.indexer.IndexingFilter">
&#61;"BasicIndexingFilter" class&#61;"org.apache.nutch.indexer.basic.BasicIndexingFilter"/>
最后是八卦&#xff0c;Dedian同志翻译的Doug Cutting 访谈录 -- 关于搜索引擎的开发。
最最后&#xff0c;感谢创造 "C&#43;&#43; 必知必会" 这个短语的译者:)
转自 http://www.tzsy.cn/blog/146/viewspace-43255.html
http://wiki.apache.org/nutch/NutchTutorial
配置环境&#xff1a;Debian 4 (kernel 2.4)
配置软件&#xff1a;
1, Java jdk-1.5
1,1 下载安装
apt-get install sun-java5-jdk
1,2 修改环境变量
vi /etc/profile
在末尾加上
QUOTE:
JAVA_HOME&#61;/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH&#61;.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH&#61;$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
export PATH
export JAVA_HOME
export CLASSPATH
1,3 测试
java -version
2, tomcat-5.5
2,1 下载
from:http://tomcat.apache.org/
wgethttp://mirror.olnevhost.net/pub/... omcat-5.5.23.tar.gz
2,2 在/opt目录下解压&#xff08;顺便哪都行&#xff0c;放到/opt下比较整齐&#xff09;
安装目录&#xff1a;/opt/tomcat5.5
2,3 修改配置
vi conf/server.xml
QUOTE:
maxThreads&#61;"150" minSpareThreads&#61;"25" maxSpareThreads&#61;"75"
enableLookups&#61;"false" redirectPort&#61;"8443" acceptCount&#61;"100"
c disableUploadTimeout&#61;"true"
URIEncoding&#61;"UTF-8" useBodyEncodingForURI&#61;"true" />
默认服务端口为8080&#xff0c;若有冲突&#xff08;如Apache&#xff09;&#xff0c;则可通过此配置文件更改端口&#xff08;蓝色&#xff09;
如果配置后nutch出现中文乱码问题&#xff0c;则增加编码配置&#xff08;红色&#xff09;
2,4 启动服务
/opt/tomcat5.5/bin/startup.sh
2,5 题外话
Debian下可通过 apt-get install tomcat5.5 来安装&#xff0c;
默认安装后路径为 /usr/share/tomcat5.5
并且增加到服务 /etc/init.d/tomcat5.5
注意&#xff0c;此时webapps目录并不在安装路径&#xff0c;而在/var/lib/tomcat5.5/webapps/
初始时该目录并无内容&#xff0c;所以访问时会出现 http 400 错误的请求&#xff0c;只需在该路径放置web应用就可。
&#xff08;在使用这种方式安装tomcat后&#xff0c;nutch老是没法运行&#xff0c;改成上面的安装就可以&#xff0c;不知是什么问题&#xff09;
3, nutch-0.9
3,1 下载http://lucene.apache.org/nutch/
3,2 解压后&#xff0c;建立目录&#xff0c;建 urls/nutch.txt文件&#xff0c;指定爬取列表
mkdir urls
vi urls/nutch.txt
写入要爬取的网站&#xff0c;这里实验南开bbs
QUOTE:
http://bbs.nankai.edu.cn
3,3 指定爬虫规则
vi conf/crawl-urlfilter.txt
QUOTE:
# accept hosts in MY.DOMAIN.NAME
#&#43;^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/
把这里改成你要的域名
如 &#43;^http://bbs.nankai.edu.cn/
如果爬取网站的url含有以下过滤字符&#xff0c;如 ? 和 &#61; &#xff0c;而你又需要这些访问&#xff0c;可以更改过滤表
QUOTE:
# skip URLs containing certain characters as probable queries, etc.
-[?*!&#64;&#61;]
改为
-[*!&#64;]
3,4 修改 conf/nutch-site.xml
QUOTE:
http.agent.name
HD nutch agent
http.agent.version
1.0
如果没有配置此agent&#xff0c;爬取时会出现 Agent name not configured! 的错误。
3.5 开始爬取
可以指定不同的抓去深度&#xff0c;线程数&#xff0c;
bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000
爬取索引完成后&#xff0c;结果生成在设定的目录中&#xff0c;这里是NKBBS
3,6 部署web前端
将 nutch-0.9.war 拷贝到webapps目录下
cp nutch-0.9.war /opt/tomcat5.5/webapps/
通过浏览器访问http://localhost:8080/nutch-0.9/后&#xff0c;war包自解压。
3,7 修改nutch的web配置
vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
searcher.dir
/home/northtree/SearchEngine/nutch-0.9/NKBBS/
转自 http://www.tzsy.cn/blog/146/viewspace-43268.html