热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

nutch1.3集成solr3.4并支持中文

(一)安装nutch1.31.linux环境,分别从nutch、solr官网下载1.3版本和3.4版本压缩包2.分别解压,假定nutch目录为nutch1.3,solr目录为apache-solr
(一)安装nutch1.31.linux环境,分别从nutch、solr官网下载1.3版本和3.4版本压缩包
2.分别解压,假定nutch目录为/nutch1.3,solr目录为/apache-solr-3.4.0
3.进入/nutch-1.3/runtime/local目录,vibin/nutch,设置JDK1.6路径
NUTCH_JAVA_HOME=/usr/local/jdk1.6.0_22(这个地方应该是jdk6的实际安装路径)
4.chmod +x bin/nutch
5.vi conf/nutch-site.xml,增加配置

http.agent.name
My Nutch Spider

6.mkdir-p urls 用来存放爬行目标站点
7.vi urls/nutch 增加第一个爬行站点www.sina.com.cn
8.bin/nutchcrawl urls -dir crawl -depth 3 -topN 5如果爬行无误,证明nutch安装成功,爬行功能正常。
(二)安装solr并集成中文1.cp /nutch1.3/conf/schema.xml/apache-solr-3.4.0/example/solr/conf/覆盖solr原始配置文件(原始文件想保留,可以先备份)
2.进入/apache-solr-3.4.0/example目录,vistart.sh/usr/local/jdk1.6.0_22/bin/java -jarstart.jar&
3.chmod +x start.sh
4.vi solr/conf/schema.xml,增加ik中文分词支持将旧的配置段           positiOnIncrementGap="100">                        ry"/>                               ignoreCase="true"words="stopwords.txt"/>              ry"                 generateWordParts="1"generateNumberParts="1"                 catenateWords="1" catenateNumbers="1"catenateAll="0"                 splitOnCaseChange="1"/>                            ry"                 protected="protwords.txt"/>              terFactory"/>                 替换为                              isMaxWordLength="false"/>               ="true" />                                                                          ="true"/>                                                     
5. 此时solr还缺ik的支持包,无法运行,执行./start.sh会有提示
6.进入work目录,一直往里,找到WEB-INF/lib目录,将ik支持包IKAnalyzer3.2.8.jar拷贝到该目录
7.重启solr,执行./start.sh,如果不提示错误,证明solr集成ik启动无误。
8.访问http://your.host.ip/solr/admin出现solr页面,证明solr安装成功。
(三)集成nutch和solr
1.进入nutch目录,执行./bin/nutch crawl urls -solr http://localhost:8983/solr/ -dir crawl-depth 3 -topN 5 如不提示错误,则nutch爬行www.sina.com.cn成功,并完成在solr建立索引。
2.访问http://your.host.ip/solr/admin,输入“财经”,如果显示查询结果页,证明整个安装集成大功告成。
转载请注明出处。

推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 突破MIUI14限制,自定义胶囊图标、大图标样式,支持任意APP
    本文介绍了如何突破MIUI14的限制,实现自定义胶囊图标和大图标样式,并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ... [详细]
  • 本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到,他将msbuild设置为详细模式,但转换却忽略了带有替换转换的自定义部分的存在。 ... [详细]
  • 本文介绍了Android中的assets目录和raw目录的共同点和区别,包括获取资源的方法、目录结构的限制以及列出资源的能力。同时,还解释了raw目录中资源文件生成的ID,并说明了这些目录的使用方法。 ... [详细]
  • Activiti7流程定义开发笔记
    本文介绍了Activiti7流程定义的开发笔记,包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式,以及生成流程图的方法。还介绍了流程定义部署的概念和步骤,包括将bpmn和png文件添加部署到activiti数据库中的方法,以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]
  • 解决IDEA配置xml文件头报错的方法
    本文介绍了解决IDEA配置xml文件头报错的方法,包括了具体的解决方案和步骤。通过本文的指导,读者可以轻松解决这个问题并正常使用IDEA进行开发工作。 ... [详细]
  • Java如何导入和导出Excel文件的方法和步骤详解
    本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤,包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码,并将代码上传至GitHub供访问。 ... [详细]
  • 开发笔记:(002)spring容器中bean初始化销毁时执行的方法及其3种实现方式
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了(002)spring容器中bean初始化销毁时执行的方法及其3种实现方式相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 开发笔记:MyBatis学习之逆向工程
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了MyBatis学习之逆向工程相关的知识,希望对你有一定的参考价值。转载:http://w ... [详细]
  • 03Spring使用注解方式注入
    基于注解的DI注入1.导包环境搭建:导入aop包(spring-aop-4.1.6.RELEASE.jar)2.创建类3.创建spring.xml配置文件(必须在src目录下)该配 ... [详细]
author-avatar
我们每次都聊撸
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有