热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

nutch1.8与solr4.8环境搭建

环境:ubuntu11.10前提:因为solr4.8必须要jdk1.7或者以上才能正确编译如果使用jdk1.6或者以下的话使用jetty运行solr的时候会出现

   环境:ubuntu 11.10

   前提:

   因为solr 4.8必须要jdk1.7或者以上才能正确编译 如果使用jdk1.6或者以下的话 使用jetty运行solr的时候 会出现

       java.lang.UnsupportedClassVersionError Unsupported major.minor version 51.0 [duplicate]
所以在进行以下操作时 确保你的jdk版本为1.7以上 如下



1.从这 http://mirror.bit.edu.cn/apache/nutch/1.8/   下载 apache-nutch-1.8-bin.zip  下载nutch 1.8

  从这 http://mirror.bit.edu.cn/apache/lucene/solr/4.8.0/  下载 solr-4.8.0.tgz 下载solr 4.8

 分为解压 如下

unzip apache-nutch-1.8-bin.zip

tar -zxvf  solr-4.8.0.tgz



2.验证nutch与solr是否可以正常运行

nutch 出现如下情形表示nutch环境没有问题



验证 solr 如下截图




在浏览器中输入 http://192.168.38.209:8983/solr/#/   192.168.38.209为你ubuntu的ip地址

出现如下界面 表示solr的环境也没问题

因为solr是借助于jetty来运行的



3.整合nutch与solr

  配置nutch来进行抓取网页

  a: 配置代理名称 进入到nutch上面解压的conf目录下  例如 

      /home/u1/java/apache-nutch-1.8/conf
修改  nutch-site.xml 文件 添加如下内容

property>
http.agent.name
My Nutch Spider

 上面的值 可以随便设置

     b:设置你想抓取的网页 下面添加了两个准备抓取的网址 百度和新浪 如下

     


  c:配置nutch的配置文件到solr中 官网上如此描述的


官网上的描述和solr 4.8中的目录稍微有一点不符合 

   具体操作如下



 

  上面需要注意的是 就是第二步  因为从solr 4开始 需要nutch的配置文件为schema-solr4.xml 而不是原来的schema.xml  不然会报如下错误

collection1: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:
Plugin init failure for [schema.xml] fieldType "text":
Plugin init failure for [schema.xml] analyzer/filter:
Error loading class 'solr.EnglishPorterFilterFactory'

然后重新启动  solr即可


 d:最后一步了 使用nutch抓取网页后 索引存到solr中 进行后续的索引

   使用如下命令即可 如下


 

 /bin/crawl 在进行抓取的时候  经过五个阶段 分别是  inject->generate->fetch->parse->updatedb


 查看是否抓取到了数据 如下



  你会发现 怎么 retry 1 和 db_unfetched都是1呢 其实看到这么小的数字 我们也会意识到 应该是没有抓取到数据

  可是  为什么呢  抓取数据的时候 没有报错 怎么没有数据呢  又是折腾了1个多小时 我突然意识到  我们实验室的电脑前段时间刚换的 需要账号才能上网 原来我的ubuntu没有上网 郁闷死了 连上网 删掉产生的文件crawl文件夹  重来



现在有数据了吧 

  再来在solr建的索引中看看是否可以查到数据了 

   


上面即是 nutch1.8与solr4.8的环境搭建  记录学习的脚步 

参考: http://wiki.apache.org/nutch/NutchTutorial

参考: http://lucene.apache.org/solr/4_8_0/tutorial.html


  


     

      




推荐阅读
  • 本文介绍了作者在开发过程中遇到的问题,即播放框架内容安全策略设置不起作用的错误。作者通过使用编译时依赖注入的方式解决了这个问题,并分享了解决方案。文章详细描述了问题的出现情况、错误输出内容以及解决方案的具体步骤。如果你也遇到了类似的问题,本文可能对你有一定的参考价值。 ... [详细]
  • OpenCV4.5.0+contrib编译流程及解决错误方法
    本文介绍了OpenCV4.5.0+contrib的编译流程,并提供了解决常见错误的方法,包括下载失败和路径修改等。同时提供了相关参考链接。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • 本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例,讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快,性能和稳定性也不错,适合初学者学习和使用。 ... [详细]
  • 拥抱Android Design Support Library新变化(导航视图、悬浮ActionBar)
    转载请注明明桑AndroidAndroid5.0Loollipop作为Android最重要的版本之一,为我们带来了全新的界面风格和设计语言。看起来很受欢迎࿰ ... [详细]
  • 本文介绍了在Windows环境下如何配置php+apache环境,包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]
  • 本文介绍了如何在使用emacs时去掉ubuntu的alt键默认功能,并提供了相应的操作步骤和注意事项。 ... [详细]
  • 本文介绍了在Web应用系统中,数据库性能是导致系统性能瓶颈最主要的原因之一,尤其是在大规模系统中,数据库集群已经成为必备的配置之一。文章详细介绍了主从数据库架构的好处和实验环境的搭建方法,包括主数据库的配置文件修改和设置需要同步的数据库等内容。MySQL的主从复制功能在国内外大型网站架构体系中被广泛采用,本文总结了作者在实际的Web项目中的实践经验。 ... [详细]
  • tcpdump 4.5.1 crash 深入分析
    tcpdump 4.5.1 crash 深入分析 ... [详细]
author-avatar
mobiledu2502898013
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有