热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Solr之(分词器)TokenizerFactoriey有哪些

下面来记录并分享下solr都提供了那些分词器:1、solr.Letter.TokenizerFactory创建org.apache.lucene.analysis.

下面来记录并分享下solr都提供了那些分词器:

1、solr.Letter.TokenizerFactory创建org.apache.lucene.analysis.LetterTokenizer.
分词举例:“I can’t” ==> “I”, “can”, “t”,字母切词

2、solr.WhitespaceTokenizerFactory创建org.apache.lucene.analysis.WhitespaceTokenizer,主要是切除所有空白字符。

3、solr.LowerCaseTokenizerFactory创建org.apache.lucene.analysis.LowerCaseTokenizer
分词举例:“I can’t” ===> “i”, “can”, “t”, 主要是大写转小写

4、solr.StandardTokenizerFactory创建org.apache.lucene.analysis.standard.StandardTokenizer
说明,该分词器会自动地给每个分词添加type,以便接下来的对type敏感的过滤器进行处理,目前仅有StandardFilter对Token的类型是敏感的

5、solr.HTMLStripWhitespaceTokenizerFactory
从结果中除去HTML标签,将结果交给WhitespaceTokenizer处理。

6、solr.HTMLStripStandardTokenizerFactory
从结果中除去HTML标签,将结果交给StandTokenizer处理。

7、solr.PatternTokenizerFactory
说明:按照正则表达式对文本进行分词


推荐阅读
author-avatar
mobiledu2502885977
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有