对于这个分词器,我的有一篇博客写了大概的简介(对于像我一样的新手,最好看一下),分词器文章链接:
http://blog.csdn.net/u012965373/article/details/44870855
如果你已经懂了分词器的功能,那么
这里是代码:
/*
* Lucene核心的分词器的结构在这里基本可以分成两种
* 一是:
* TokenFilter可以和别的TokenFilter嵌套在一起使用,
* 形成一个嵌套的管道过滤器的结构;
* 二是:
* TokenFilter可以喝Tokenizer结合在一起,
* 用以过滤从Tokenizer中切分的词条
*
* 在这里代码中使用了Lucene的WritespaceAnalyzer类。
* 对所输入的文本进行分词
* */
package analyzer;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;