当前位置: 开发笔记 > 编程语言 > 正文

solr搜索引擎搭建和使用（二）

作者：书友46008531 | 来源：互联网 | 2023-05-19 11:03

3配置文件3.1、模式配置Schema.xmlschema.xml这个配置文件可以在D;\data\solr\collection1\conf中找到，它就是solr模式关联的文件。打开

3配置文件

3.1、模式配置Schema.xml

schema.xml这个配置文件可以在D;\data\solr \collection1\conf中找到，它就是solr模式关联的文件。打开这个配置文件，你会发现有详细的注释。模式组织主要分为三个重要配置

3.1.1. types 部分

types是一些常见的可重用定义，定义了 Solr（和 Lucene）如何处理 Field。也就是添加到索引中的xml文件属性中的类型，如int、text、date等.

参数说明:

属性	描述
name	标识而已
class	和其他属性决定了这个fieldType的实际行为。
sortMissingLast	设置成true没有该field的数据排在有该field的数据之后，而不管请求时的排序规则, 默认是设置成false。
sortMissingFirst	跟上面倒过来呗。默认是设置成false
analyzer	字段类型指定的分词器
type	当前分词用用于的操作.index代表生成索引时使用的分词器query代码在查询时使用的分词器
tokenizer	分词器类
filter	分词后应用的过滤器过滤器调用顺序和配置相同.

3.1.2 fileds

是你添加到索引文件中出现的属性名称，而声明类型就需要用到上面的types

field: 固定的字段设置
dynamicField: 动态的字段设置,用于后期自定义字段,*号通配符.例如: test_i就是int类型的动态字段.

还有一个特殊的字段copyField,一般用于检索时用的字段这样就只对这一个字段进行索引分词就行了copyField的dest字段如果有多个source一定要设置multiValued=true,否则会报错的

字段属性说明:

属性	描述
name	字段类型名
class	java类名
indexed	缺省true。说明这个数据应被搜索和排序，如果数据没有indexed，则stored应是true。
stored	缺省true。说明这个字段被包含在搜索结果中是合适的。如果数据没有stored,则indexed应是true。
omitNorms	字段的长度不影响得分和在索引时不做boost时，设置它为true。一般文本字段不设置为true。
termVectors	如果字段被用来做more like this 和highlight的特性时应设置为true。
compressed	字段是压缩的。这可能导致索引和搜索变慢，但会减少存储空间，只有StrField和TextField是可以压缩，这通常适合字段的长度超过200个字符。
multiValued	字段多于一个值的时候，可设置为true。
positionIncrementGap	和multiValued一起使用，设置多个值之间的虚拟空白的数量

注意:_version_是一个特殊字段,不能删除,是记录当前索引版本号的.

3.1.3. 其他配置

uniqueKey: 唯一键，这里配置的是上面出现的fileds，一般是id、url等不重复的。在更新、删除的时候可以用到。

defaultSearchField:默认搜索属性，如q=solr就是默认的搜索那个字段

solrQueryParser:查询转换模式，是并且还是或者（AND/OR必须大写）

3.2、solr配置solrconfig.xml

solrconfig.xml这个配置文件可以在你下载solr包的安装解压目录的D:\data\solr\collection1\conf中找到，这个配置文件内容有点多,主要内容有:使用的lib配置,包含依赖的jar和Solr的一些插件;组件信息配置;索引配置和查询配置,下面详细说一下索引配置和查询配置.

3.2.1索引indexConfig

Solr 性能因素，来了解与各种更改相关的性能权衡。表 1概括了可控制 Solr索引处理的各种因素：

属性	描述
useCompoundFile	通过将很多 Lucene 内部文件整合到一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则 false 的默认值应该就已经足够。
ramBufferSizeMB	在添加或删除文档时，为了减少频繁的更些索引,Solr会选缓存在内存中,当内存中的文件大于设置的值,才会更新到索引库。较大的值可使索引时间变快但会牺牲较多的内存。如两个值同时设置,满足一个就会进行刷新索引.
maxBufferedDocs
mergeFactor	决定低水平的 Lucene 段被合并的频率。较小的值（最小为 2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。
maxIndexingThreads	indexWriter生成索引时使用的最大线程数
unlockOnStartup	unlockOnStartup 告知 Solr 忽略在多线程环境中用来保护索引的锁定机制。在某些情况下，索引可能会由于不正确的关机或其他错误而一直处于锁定，这就妨碍了添加和更新。将其设置为 true 可以禁用启动锁定，进而允许进行添加和更新。
lockType	single: 在只读索引或是没有其它进程修改索引时使用. native: 使用操作系统本地文件锁,不能使用多个Solr在同一个JVM中共享一个索引. simple :使用一个文本文件锁定索引.

3.2.2 查询配置query

属性	描述
maxBooleanClauses	最大的BooleanQuery数量. 当值超出时，抛出 TooManyClausesException.注意这个是全局的,如果是多个SolrCore都会使用一个值,每个Core里设置不一样的化,会使用最后一个的.
filterCache	filterCache存储了无序的lucene document id集合，1.存储了filter queries(“fq”参数)得到的document id集合结果。2还可用于facet查询3. 3）如果配置了useFilterForSortedQuery，那么如果查询有filter，则使用filterCache。
queryResultCache	缓存搜索结果,一个文档ID列表
documentCache	缓存Lucene的Document对象,不会自热
fieldValueCache	字段缓存使用文档ID进行快速访问。默认情况下创建fieldValueCache即使这里没有配置。
enableLazyFieldLoading	若应用程序预期只会检索 Document 上少数几个 Field，那么可以将属性设置为 true。延迟加载的一个常见场景大都发生在应用程序返回和显示一系列搜索结果的时候，用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的显示常常只需要显示很短的一段信息。若考虑到检索大型 Document 的代价，除非必需，否则就应该避免加载整个文档。
queryResultWindowSize	一次查询中存储最多的doc的id数目.
queryResultMaxDocsCached	查询结果doc的最大缓存数量, 例如要求每页显示10条,这里设置是20条,也就是说缓存里总会给你多出10条的数据.让你点示下一页时很快拿到数据.
listener	选项定义 newSearcher 和 firstSearcher 事件，您可以使用这些事件来指定实例化新搜索程序或第一个搜索程序时应该执行哪些查询。如果应用程序期望请求某些特定的查询，那么在创建新搜索程序或第一个搜索程序时就应该反注释这些部分并执行适当的查询。
useColdSearcher	是否使用冷搜索,为false时使用自热后的searcher
maxWarmingSearchers	最大自热searcher数量

4.添加IK分词器

首选要去下载IKAnalyzer的发行包.下载地址: http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip.

下载后解压出来文件中的三个复制到\solr\contrib\analysis-extras\lib目录中.

IKAnalyzer2012FF_u1.jar 分词器jar包

IKAnalyzer.cfg.xml 分词器配置文件

Stopword.dic 分词器停词字典,可自定义添加内容

复制后就可以进行配置scheme.xml了.

现在来验证下是否添加成功,首先使用StartSolrJetty来启动solr服务,启动过程中如果配置出错,一般有两个原因:一是配置的分词器jar找不到,也就是你没有复制jar包到\solr\contrib\analysis-extras\lib目前下;二是分词器版本不对导致的分词器接口API不一样出的错,要是这个错的话就在检查分词器的相关文档,看一下支持的版本是否一样.

如果在启动过程中没有报错的话说明配置成功了.我们可以进入到http://localhost:8983/solr地址进行测试一下刚加入的中文分词器.在首页的Core Selector中选择你配置的Croe后点击下面的Analysis,在Analyse Fieldname / FieldType里选择你刚才设置的字段名称或是分词器类型,在Field Value(index)中输入:中国人,点击右面的分词就行了.

推荐阅读

python
部署solr建立nutch索引

2019独角兽企业重金招聘Python工程师标准接着上篇nutch1.4的部署应用，我们来部署一下solr，solr是对lucene进行了封装的企 ... [详细]

蜡笔小新 2023-10-16 18:06:09
byte
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
config
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
config
Lucene 全文检索技术入门

一、搜索引擎的历史萌芽：Archie、Gopher起步：Robot（网络机器人）的出现与spider（网络爬虫）发展：excite、galax ... [详细]

蜡笔小新 2023-10-11 19:18:42
search
淘淘商城系列——商品搜索功能Service实现

首先我们在taotao-search-interface工程中新建一个SearchService接口，并在接口中添加一个方法，如下图所示。接着，我们到taotao-search-s ... [详细]

蜡笔小新 2023-10-11 18:46:05
search
微信平台上的HTML5游戏开发心得

近期，微信公众平台上的HTML5游戏引起了广泛讨论，预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏，作为一名HTML5技术的倡导者，分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]

蜡笔小新 2024-11-13 16:56:47
js
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
python
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
search
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
数组
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
js
优化Vite 1.0至2.0升级过程中遇到的某些代码块过大问题解决方案

本文详细探讨了在将项目从 Vite 1.0 升级到 2.0 的过程中，如何解决某些代码块过大的问题。通过具体的编码示例，文章提供了全面的解决方案，帮助开发者有效优化打包性能。 ... [详细]

蜡笔小新 2024-11-11 13:35:04
js
Java WinRing0：深入解析WinRing0及其源代码实现

本文深入探讨了WinRing0及其源代码实现，详细解析了如何通过获取Ring0权限在应用程序中直接执行需要Ring0权限的CPU指令。此外，文章还提供了实例截图和核心代码示例，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-09 12:05:46
js
Windows 11系统中Win键失效的解决方法与专业建议

Windows 11系统中Win键失效的解决方法与专业建议 ... [详细]

蜡笔小新 2024-11-06 20:03:10
byte
利用GLSL在iOS上实现YV12到RGB的转换，并附带展示结果图像

本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式，并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例，读者可以轻松掌握这一过程，适用于需要进行视频处理的应用开发。 ... [详细]

蜡笔小新 2024-11-06 19:18:22
js
开发笔记:使用JavaScript解决网页图片拉伸问题

篇首语：本文由编程笔记#小编为大家整理，主要介绍了使用JavaScript解决网页图片拉伸问题相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-13 02:59:58

书友46008531

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章