nutch简介以及一些其他的信息介绍

作者：我怎么了2602902235 | 来源：互联网 | 2023-07-18 10:14

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。如果只是用nutch的话，那么完全不需要myecl

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

如果只是用nutch的话&＃xff0c;那么完全不需要myeclipse&＃xff0c;仅需JDK、Tomcat、cygwin。
如果要编译nutch的话&＃xff0c;一般它也建议直接用ant来编译的&＃xff0c;只有你想调试它时才需要myeclipse。

从1.1开始&＃xff0c;它同时发布已经编译好的包了&＃xff0c;各个压缩包用处如下&＃xff1a;
apache-nutch-1.1-bin.tar.gz&＃xff1a;已经编译好的包&＃xff0c;用于linux/unix
apache-nutch-1.1-bin.zip&＃xff1a; 已经编译好的包&＃xff0c;用于windows
apache-nutch-1.1-src.tar.gz&＃xff1a;源代码&＃xff0c;用于linux/unix
apache-nutch-1.1-src.zip&＃xff1a; 源代码&＃xff0c;用于windows
*.asc&＃xff1a;校验文件&＃xff0c;没啥用。

所以&＃xff0c;如果要安装nutch&＃xff0c;只需下载apache-nutch-1.1-bin.zip&＃xff0c;然后解压到某个目录下。&＃xff08;有160M这么大&＃xff0c;估计包含了tomcat了吧&＃xff09;
好像0.9与1.0都需要编译的&＃xff0c;下载下来直接运行ant即可

然后在那个目录下建个urls文件&＃xff0c;里面写上所需爬的最上层网址&＃xff0c;如&＃xff1a;http://lucene.apache.org/nutch/
然后运行 bin/nutch crawl urls -dir crawl -depth 3
这样就会将索引存放在crawl目录下了。

要想检索&＃xff0c;那么需要将nutch*.war部署到tomcat&＃xff0c;然后启动。
&＃xff08;我认为1.1-bin.zip中已经包含了tomcat&＃xff0c;无需再次部署的&＃xff0c;可以直接启动&＃xff09;

推荐阅读

config
Nginx使用AWStats日志分析的步骤及注意事项

本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息，并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境，并进行DNS解析。 ... [详细]

蜡笔小新 2023-12-14 19:42:01
list
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
list
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
list
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
list
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
list
postman测试登录后的接口_使用postman进行接口测试的方法(测试用户管理模块)

本文介绍了使用postman进行接口测试的方法，以测试用户管理模块为例。首先需要下载并安装postman，然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时，可以进行异常测试，包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]

蜡笔小新 2023-12-14 10:29:45
list
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
数组
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
数组
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
command
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
version
如何实现JDK版本的切换功能，解决开发环境冲突问题

本文介绍了在开发过程中遇到JDK版本冲突的情况，以及如何通过修改环境变量实现JDK版本的切换功能，解决开发环境冲突的问题。通过合理的切换环境，可以更好地进行项目开发。同时，提醒读者注意不仅限于1.7和1.8版本的转换，还要适应不同项目和个人开发习惯的需求。 ... [详细]

蜡笔小新 2023-12-10 19:24:11
install
Linux下安装免费杀毒软件ClamAV及使用方法

本文介绍了在Linux系统下安装免费杀毒软件ClamAV的方法，并提供了使用该软件更新病毒库和进行病毒扫描的指令参数。同时还提供了官方安装文档和下载地址。 ... [详细]

蜡笔小新 2023-12-10 14:10:51
install
Servlet多用户登录时HttpSession会话信息覆盖问题的解决方案

本文讨论了在Servlet多用户登录时可能出现的HttpSession会话信息覆盖问题，并提供了解决方案。通过分析JSESSIONID的作用机制和编码方式，我们可以得出每个HttpSession对象都是通过客户端发送的唯一JSESSIONID来识别的，因此无需担心会话信息被覆盖的问题。需要注意的是，本文讨论的是多个客户端级别上的多用户登录，而非同一个浏览器级别上的多用户登录。 ... [详细]

蜡笔小新 2023-12-10 12:00:40
version
开发笔记：spring boot项目打成war包部署到服务器的步骤与注意事项

本文介绍了将spring boot项目打成war包并部署到服务器的步骤与注意事项。通过本文的学习，读者可以了解到如何将spring boot项目打包成war包，并成功地部署到服务器上。 ... [详细]

蜡笔小新 2023-12-10 11:49:29
list
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03

我怎么了2602902235

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章