作者:mobiledu2502885977 | 来源:互联网 | 2023-09-16 16:46
下面来记录并分享下solr都提供了那些分词器:1、solr.Letter.TokenizerFactory创建org.apache.lucene.analysis.
下面来记录并分享下solr都提供了那些分词器:
1、solr.Letter.TokenizerFactory创建org.apache.lucene.analysis.LetterTokenizer.
分词举例:“I can’t” ==> “I”, “can”, “t”,字母切词
2、solr.WhitespaceTokenizerFactory创建org.apache.lucene.analysis.WhitespaceTokenizer,主要是切除所有空白字符。
3、solr.LowerCaseTokenizerFactory创建org.apache.lucene.analysis.LowerCaseTokenizer
分词举例:“I can’t” ===> “i”, “can”, “t”, 主要是大写转小写
4、solr.StandardTokenizerFactory创建org.apache.lucene.analysis.standard.StandardTokenizer
说明,该分词器会自动地给每个分词添加type,以便接下来的对type敏感的过滤器进行处理,目前仅有StandardFilter对Token的类型是敏感的
5、solr.HTMLStripWhitespaceTokenizerFactory
从结果中除去HTML标签,将结果交给WhitespaceTokenizer处理。
6、solr.HTMLStripStandardTokenizerFactory
从结果中除去HTML标签,将结果交给StandTokenizer处理。
7、solr.PatternTokenizerFactory
说明:按照正则表达式对文本进行分词