热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于Luceneshingle英文单词NGramAnalyzer的实现

此例为基于Luceneshingle英文单词BiGramAnalyzer的实现importjava.io.Reader;importorg.apache.lucene.analy

此例为基于Lucene shingle英文单词BiGram Analyzer的实现

import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceTokenizer;
import org.apache.lucene.analysis.shingle.ShingleFilter;
import org.apache.lucene.util.Version;public final class BiGramAnalyzer extends Analyzer {@Overridepublic TokenStream tokenStream(String fieldName, Reader reader) {TokenStream result = new WhitespaceTokenizer(Version.LUCENE_36, reader);result = new LowerCaseFilter(Version.LUCENE_36, result);ShingleFilter shingleFilter = new ShingleFilter(result, 2);shingleFilter.setOutputUnigrams(false);result = shingleFilter;return result;}}




http://searchhub.org/2010/12/17/whats-a-shingle-in-lucene-parlance/


推荐阅读
author-avatar
泉水叮咚139
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有