热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

nutch1.7导入eclipse其他版本亦可参考。

前提:jdkeclipse等等安装就略过了。下载apache-nutch-1.7-src.zip包和apache-nutch-1.7-bin.zip包一、1、创建一个

前提: jdk   eclipse  等等安装就略过了。    下载  apache-nutch-1.7-src.zip 包  和 apache-nutch-1.7-bin.zip 包


一、

1、创建一个Java Project 。

2、复制 nutch-1.7-src 包下 java 包里的org整个包放在 项目的src包下。

3、复制 nutch-1.7-bin包里的conf 文件夹至 项目的src包下。

4、在conf 目录右键,Build Path →  Use as Source Folder

5、复制nutch-1.7-bin 包里的 lib包下的所有jar包 至项目下,放哪看个人,需要手动在 Bulid Path里引入这些Jar包。


如果不想编译plugins 的话 ,看 二 ,要编译 plugins 就看 三

二、

1、复制 nutch-1.7-bin 包下的 plugins 文件夹整个放在 项目的 src 包下。

2、至此,正常情况项目只有一个文件报错,即StringUtil.java文件

3、修改 项目的 编码格式, 改为urf-8,上面错误解决。


三、

1、复制 nutch-1.7-src 包 .src/plugin 文件夹至 项目 src包下

2、如图,把plugin包下所有的 java 和 test 作为 Source folders。这里有挺多的,要一个个勾选,不能漏


3、test是用来做单元测试的,其实是可以不用选的,如果不做单元测试的,可以选择不勾选test,但是之后要把里面所有的test手动删除,不然会报错,如下图,是未包含test 的。这是最精简的方式。采用这种方式后,可以把除如图所示的plugin包下其他文件都删除。和图示一致即可。


4、至此,项目的plugin包有部分包是报错的,这是因为该plugin引用了第三方包,需手动Build Path导入,这几个包在 nutch-1.7-bin/plugins 包下去找 rome-0.9.jar   、   nekohtml-0.9.5.jar   、   tagsoup-1.2.1.jar   、    javaswf.jar   、  automaton-1.11-8.jar

5、至此,正常情况项目只有一个文件报错,即StringUtil.java文件

6、修改 项目的 编码格式, 改为urf-8,上面错误解决。


四、

OK,至此,导入工作完成了,项目也不会报错了。

开始执行。在conf包下,找到nutch-site.xml    在configuration节点下添加


        http.agent.name
        Nutch-demo
    


        plugin.folders
        ./src/plugin
    

在工程下新建一个urls目录(名字随意),里面新建一个txt文本文件,里面输入几个测试用url,一行一条。

然后在src包下找到Crawl.java 文件

Run as →  Run Configuration → Arguments 输入以下

crawl urls -dir out -threads 20 -depth 2

然后执行该Java文件。

在windows下执行会报错,是因为hadoop的权限问题。

解决方法:网上下载一个包替换掉原来的hadoop-core-1.2.0.jar 包。

下载地址:http://download.csdn.net/detail/leave00608/7060765


至此,完成。


推荐阅读
  • 深入解析Gradle中的Project核心组件
    在Gradle构建系统中,`Project` 是一个核心组件,扮演着至关重要的角色。通过使用 `./gradlew projects` 命令,可以清晰地列出当前项目结构中包含的所有子项目,这有助于开发者更好地理解和管理复杂的多模块项目。此外,`Project` 对象还提供了丰富的配置选项和生命周期管理功能,使得构建过程更加灵活高效。 ... [详细]
  • 本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址(),详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外,还提供了实用的配置示例和最佳实践,帮助开发者优化项目构建流程,提高开发效率。 ... [详细]
  • 如何在Java中高效构建WebService
    本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架,能够简化WebService的开发流程。通过结合MyEclipse集成开发环境,开发者可以更便捷地进行项目配置和代码编写,从而提高开发效率。此外,文章还详细探讨了XFire的关键特性和最佳实践,为读者提供了实用的参考。 ... [详细]
  • 本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求,并使用动态Form来优化开发流程,确保代码的简洁性和可维护性。同时,系统提供了用户友好的错误提示,以增强用户体验。 ... [详细]
  • 为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持,本文详细介绍了如何重新编译Hadoop源代码,并优化其Native编译过程。通过这一优化,可以显著提升数据处理的效率和性能。此外,还探讨了编译过程中可能遇到的问题及其解决方案,为用户提供了一套完整的操作指南。 ... [详细]
  • 在开发过程中,我最初也依赖于功能全面但操作繁琐的集成开发环境(IDE),如Borland Delphi 和 Microsoft Visual Studio。然而,随着对高效开发的追求,我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe,我构建了一个高度定制化的开发环境,不仅提高了代码编写效率,还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件,使我在日常开发中能够更加得心应手。 ... [详细]
  • 基于Dubbo与Zipkin的微服务调用链路监控解决方案
    本文提出了一种基于Dubbo与Zipkin的微服务调用链路监控解决方案。通过抽象配置层,支持HTTP和Kafka两种数据上报方式,实现了灵活且高效的调用链路追踪。该方案不仅提升了系统的可维护性和扩展性,还为故障排查提供了强大的支持。 ... [详细]
  • Android中将独立SO库封装进JAR包并实现SO库的加载与调用
    在Android开发中,将独立的SO库封装进JAR包并实现其加载与调用是一个常见的需求。本文详细介绍了如何将SO库嵌入到JAR包中,并确保在外部应用调用该JAR包时能够正确加载和使用这些SO库。通过这种方式,开发者可以更方便地管理和分发包含原生代码的库文件,提高开发效率和代码复用性。文章还探讨了常见的问题及其解决方案,帮助开发者避免在实际应用中遇到的坑。 ... [详细]
  • 在Eclipse中批量转换Java源代码文件的编码格式从GBK到UTF-8是一项常见的需求。通过编写简单的Java代码,可以高效地实现这一任务。该方法不仅适用于Java文件,还可以用于其他类型的文本文件编码转换。具体实现可以通过导入`java.io.File`类来操作文件系统,从而完成批量转换。此外,建议在转换过程中添加异常处理机制,以确保代码的健壮性和可靠性。 ... [详细]
  • Netty框架中运用Protobuf实现高效通信协议
    在Netty框架中,通过引入Protobuf来实现高效的通信协议。为了使用Protobuf,需要先准备好环境,包括下载并安装Protobuf的代码生成器`protoc`以及相应的源码包。具体资源可从官方下载页面获取,确保版本兼容性以充分发挥其性能优势。此外,配置好开发环境后,可以通过定义`.proto`文件来自动生成Java类,从而简化数据序列化和反序列化的操作,提高通信效率。 ... [详细]
  • HBase Java API 进阶:过滤器详解与应用实例
    本文详细探讨了HBase 1.2.6版本中Java API的高级应用,重点介绍了过滤器的使用方法和实际案例。首先,文章对几种常见的HBase过滤器进行了概述,包括列前缀过滤器(ColumnPrefixFilter)和时间戳过滤器(TimestampsFilter)。此外,还详细讲解了分页过滤器(PageFilter)的实现原理及其在大数据查询中的应用场景。通过具体的代码示例,读者可以更好地理解和掌握这些过滤器的使用技巧,从而提高数据处理的效率和灵活性。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • FastDFS Nginx 扩展模块的源代码解析与技术剖析
    FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]
  • 本文深入探讨了CGLIB BeanCopier在Bean对象复制中的应用及其优化技巧。相较于Spring的BeanUtils和Apache的BeanUtils,CGLIB BeanCopier在性能上具有显著优势。通过详细分析其内部机制和使用场景,本文提供了多种优化方法,帮助开发者在实际项目中更高效地利用这一工具。此外,文章还讨论了CGLIB BeanCopier在复杂对象结构和大规模数据处理中的表现,为读者提供了实用的参考和建议。 ... [详细]
author-avatar
彦廷孟颖益皓
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有