首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
install
bash
subset
split
join
sum
runtime
plugins
window
cmd
php
hashtable
go
python
bit
solr
java
input
spring
uml
case
perl
cSharp
hook
list
main
io
hashset
js
timezone
const
httpclient
range
datetime
chat
testing
tree
copy
数组
future
javascript
jsp
settings
eval
get
dockerfile
php7
golang
iostream
regex
filter
client
web3
random
include
timestamp
process
heatmap
command
yaml
c语言
text
merge
emoji
hashcode
httprequest
schema
php5
ascii
buffer
flutter
format
md5
keyword
instance
vbscript
version
heap
dll
当前位置:
开发笔记
>
编程语言
> 正文
nutch1.3集成solr3.4并支持中文
作者:我们每次都聊撸 | 来源:互联网 | 2023-08-21 12:35
(一)安装nutch1.31.linux环境,分别从nutch、solr官网下载1.3版本和3.4版本压缩包2.分别解压,假定nutch目录为nutch1.3,solr目录为apache-solr
(一)安装nutch1.3
1.linux环境,分别从nutch、solr官网下载1.3版本和3.4版本压缩包
2.分别解压,假定nutch目录为/nutch1.3,solr目录为/apache-solr-3.4.0
3.进入
/nutch-1.3/runtime/local目录,vibin/nutch,设置JDK1.6路径
NUTCH_JAVA_HOME=/usr/local/jdk1.6.0_22(这个地方应该是jdk6的实际安装路径)
4.chmod +x bin/nutch
5.vi
conf/nutch-site.xml,增加配置
http.agent.name
My Nutch Spider
6.
mkdir-p urls 用来存放爬行目标站点
7.vi urls/nutch 增加第一个爬行站点
www.sina.com.cn
8.
bin/nutchcrawl urls -dir crawl -depth 3 -topN 5
如果爬行无误,证明nutch安装成功,爬行功能正常。
(二)安装solr并集成中文
1.cp /nutch1.3/conf/schema.xml/
apache-solr-3.4.0/example/solr/conf/
覆盖solr原始配置文件(原始文件想保留,可以先备份)
2.进入
/
apache-solr-3.4.0/example目录,vistart.sh
/usr/local/jdk1.6.0_22/bin/java -jarstart.jar&
3.chmod +x start.sh
4.vi solr/conf/schema.xml,增加ik中文分词支持
将旧的配置段
positiOnIncrementGap="100">
ry"/>
ignoreCase="true"words="stopwords.txt"/>
ry"
generateWordParts="1"generateNumberParts="1"
catenateWords="1" catenateNumbers="1"catenateAll="0"
splitOnCaseChange="1"/>
ry"
protected="protwords.txt"/>
terFactory"/>
替换为
isMaxWordLength="false"/>
="true" />
="true"/>
5. 此时solr还缺ik的支持包,无法运行,执行./start.sh会有提示
6.进入work目录,一直往里,找到WEB-INF/lib目录,将ik支持包IKAnalyzer3.2.8.jar拷贝到该目录
7.重启solr,执行./start.sh,如果不提示错误,证明solr集成ik启动无误。
8.访问http://your.host.ip/solr/admin出现solr页面,证明solr安装成功。
(三)集成nutch和solr
1.进入nutch目录,执行
./bin/nutch crawl urls -solr http://localhost:8983/solr/ -dir crawl-depth 3 -topN 5
如不提示错误,则nutch爬行www.sina.com.cn成功,并完成在solr建立索引。
2.访问
http://your.host.ip/solr/admin,输入“财经”,如果显示查询结果页,证明整个安装集成大功告成。
转载请注明出处。
solr
linux
压缩
apache
runtime
java
xml
http
ide
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
io
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ...
[详细]
蜡笔小新 2023-12-14 18:28:01
io
kotlin动画实现上下移动、放大缩小、旋转功能
本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ...
[详细]
蜡笔小新 2023-12-14 17:29:08
io
Spring源码解密之默认标签的解析方式分析
本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ...
[详细]
蜡笔小新 2023-12-14 17:24:50
io
的错误消息:
ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ...
[详细]
蜡笔小新 2023-12-13 20:28:08
io
XML介绍与使用的概述及标签规则
本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ...
[详细]
蜡笔小新 2023-12-13 17:39:50
js
flowable工作流 流程变量_信也科技工作流平台的技术实践
1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ...
[详细]
蜡笔小新 2023-12-13 10:17:15
io
突破MIUI14限制,自定义胶囊图标、大图标样式,支持任意APP
本文介绍了如何突破MIUI14的限制,实现自定义胶囊图标和大图标样式,并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ...
[详细]
蜡笔小新 2023-12-12 12:07:16
io
如何进行Web.Config自定义配置节的配置转换
本文讨论了如何使用Web.Config进行自定义配置节的配置转换。作者提到,他将msbuild设置为详细模式,但转换却忽略了带有替换转换的自定义部分的存在。 ...
[详细]
蜡笔小新 2023-12-11 17:54:55
io
Android中的assets目录和raw目录的区别和用法
本文介绍了Android中的assets目录和raw目录的共同点和区别,包括获取资源的方法、目录结构的限制以及列出资源的能力。同时,还解释了raw目录中资源文件生成的ID,并说明了这些目录的使用方法。 ...
[详细]
蜡笔小新 2023-12-11 12:26:25
io
Activiti7流程定义开发笔记
本文介绍了Activiti7流程定义的开发笔记,包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式,以及生成流程图的方法。还介绍了流程定义部署的概念和步骤,包括将bpmn和png文件添加部署到activiti数据库中的方法,以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ...
[详细]
蜡笔小新 2023-12-10 19:22:56
php
解决IDEA配置xml文件头报错的方法
本文介绍了解决IDEA配置xml文件头报错的方法,包括了具体的解决方案和步骤。通过本文的指导,读者可以轻松解决这个问题并正常使用IDEA进行开发工作。 ...
[详细]
蜡笔小新 2023-12-10 13:53:24
io
Java如何导入和导出Excel文件的方法和步骤详解
本文详细介绍了在SpringBoot中使用Java导入和导出Excel文件的方法和步骤,包括添加操作Excel的依赖、自定义注解等。文章还提供了示例代码,并将代码上传至GitHub供访问。 ...
[详细]
蜡笔小新 2023-12-09 20:27:00
io
开发笔记:(002)spring容器中bean初始化销毁时执行的方法及其3种实现方式
篇首语:本文由编程笔记#小编为大家整理,主要介绍了(002)spring容器中bean初始化销毁时执行的方法及其3种实现方式相关的知识,希望对你有一定的参考价值。 ...
[详细]
蜡笔小新 2023-10-17 17:35:41
io
开发笔记:MyBatis学习之逆向工程
篇首语:本文由编程笔记#小编为大家整理,主要介绍了MyBatis学习之逆向工程相关的知识,希望对你有一定的参考价值。转载:http://w ...
[详细]
蜡笔小新 2023-10-17 14:24:02
js
03Spring使用注解方式注入
基于注解的DI注入1.导包环境搭建:导入aop包(spring-aop-4.1.6.RELEASE.jar)2.创建类3.创建spring.xml配置文件(必须在src目录下)该配 ...
[详细]
蜡笔小新 2023-10-17 11:53:29
我们每次都聊撸
这个家伙很懒,什么也没留下!
Tags | 热门标签
install
bash
subset
split
join
sum
runtime
plugins
window
cmd
php
hashtable
go
python
bit
solr
java
input
spring
uml
case
perl
cSharp
hook
list
main
io
hashset
js
timezone
RankList | 热门文章
1
RAID磁盘阵列及RAID配置!
2
PHP面试题实例代码分析
3
rem根据屏幕宽度来调整html根元素的fontsize
4
财务收支问题
5
如何将项目升级到vue-cli3
6
20200826:裸写算法:树的非递归先序遍历。
7
软件测试手机号测试用例,测试用例设计方法有哪些
8
苹果store更新软件为什么一直账户被禁用?
9
c# 右下角新消息提醒框
10
QQ能改滚动“恋爱状态”了,好骚啊
11
Kubernetes 1.21.0如何部署管理界面Dashboard 2
12
flutter样式基础
13
AutoMapper的源码分析
14
【laravel5.6】yii Process class relies on proc_open, which is not available on your PHP installation.
15
C++ Python /Go SRE 工程师。 大量 HC。 只等你简历
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有