当前位置: 开发笔记 > Android > 正文

Ubuntu下Nutch-1.2配置

作者：手机用户2502853267 | 来源：互联网 | 2017-10-12 06:07

1、下载nutch1.2到指定一个目录下，并打开eclipse新建一个java工程。并选择"Createprojectfromexistingsource"，指向nutch目录。2、下一步操作，切换到"Libraries"选择"AddClassFolder..."按钮，从列表中选择"conf"，继续操作：切换到"OrderandExport"找到"conf"，把它移到顶。

1、下载nutch1.2到指定一个目录下，并打开eclipse新建一个java工程。并选择"Create project from existing source"，指向nutch目录。

2、下一步操作，切换到"Libraries"选择"Add Class Folder..." 按钮，从列表中选择"conf"，继续操作：切换到"Order and Export"找到"conf"，把它移到顶。

3、到"Source"将output folder设置为Nutch /bin/tmp_build，点击finish完成导入。

4、配置文件：nutch-default.xml，nutch-site.xml，crawl-urlfilter.txt。
1) nutch-default.xml
修改此处：

plugin.folders
./src/plugin
Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.

2）nutch-site.xml

在中添加：

http.agent.name

my nutch agent

http.agent.version

1.0

3)crawl-urlfilter.txt

删除：MY.DOMAIN.NAME

添加：+^http://([a-z0-9]*/.)*qq.com/

下面是自己的做法：直接就是accept anything else 配置成“+.”。

在nutch目录新建weburls.txt，并添加入口地址:http://www.qq.com

5、执行抓取

运行crawl 可执行类
       配置运行环境：
       Program arguments:
      bin/nutch crawl weburls.txt -dir localweb -depth 50 -topN 100 -threads 2

VM arguments:
-DHadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

6）有可能会碰到一些报错的情况，例如找不到类。这时候可能需要用ant重新编译一下nutch，切换到nutch的安装根目录，然后执行ant命令，成功编译后，再试试看。

PS：本文蓝色部分为自己的做法，其它参考于其它文章。

推荐阅读

xml
Struts与Spring框架的集成指南

本文详细介绍了如何将Struts和Spring两个流行的Java Web开发框架进行整合，涵盖从环境配置到代码实现的具体步骤。 ... [详细]

蜡笔小新 2024-12-23 17:46:59
xml
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
xml
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
build
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
build
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
xml
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
xml
解决QT交叉编译时遇到的qatomic_i386.h:132错误

在进行QT交叉编译时，可能会遇到与目标架构不匹配的宏定义问题。例如，当为ARM或MIPS架构编译时，需要确保使用正确的宏（如QT_ARCH_ARM或QT_ARCH_MIPS），而不是默认的QT_ARCH_I386。本文将详细介绍如何正确配置编译环境以避免此类错误。 ... [详细]

蜡笔小新 2024-12-22 19:19:44
java
深入理解 org.apache.hadoop.ha.HAServiceTarget 的 checkFencingConfigured 方法

本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法，包括其功能、应用场景及代码示例。通过实际代码片段，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-22 18:28:35
xml
基于机器学习的人脸识别系统实现

本文介绍了一种使用机器学习技术构建人脸识别系统的实践案例。通过结合Python编程语言和深度学习框架，详细展示了从数据预处理到模型训练的完整流程，并提供了代码示例。 ... [详细]

蜡笔小新 2024-12-22 16:01:32
xml
PHP 实现微信支付回调结果的接收与处理

本文详细介绍了如何使用 PHP 接收并处理微信支付的回调结果，确保支付通知能够被正确接收和响应。 ... [详细]

蜡笔小新 2024-12-22 14:32:35
java
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
xml
java controller 继承_继承在Spring RestController

我有一个SpringRestController，它处理API调用的版本1。继承在SpringRestControllerpackagerest.v1;RestCon ... [详细]

蜡笔小新 2024-12-22 11:37:59
xml
理解UML的重要性及其应用

探讨为什么大多数开发人员难以成为架构师，介绍从现实世界到业务模型的抽象过程，并详细解释UML在软件设计中的关键作用。 ... [详细]

蜡笔小新 2024-12-22 10:23:24
xml
从码农到创业者：我的职业转型之路

在观察了众多同行的职业发展后，我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师，并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]

蜡笔小新 2024-12-21 15:55:02
java
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43

手机用户2502853267

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章