Lucene总结（1）小试牛刀

2019独角兽企业重金招聘Python工程师标准>>>

前言

由于接触的工作对文本语义分析较多&＃xff0c;但是实际的应用场景&＃xff0c;如果用solr和es感觉就是杀鸡用牛刀&＃xff0c;

所以学习lucene&＃xff0c;部署运维都方便&＃xff0c;可以学习&＃xff0c;美滋滋。时间点&＃xff1a;2017.8.22 最新版本 6.6.0

pom.xml 如下

org.apache.lucenelucene-core6.6.0org.apache.lucenelucene-queryparser6.6.0org.apache.lucenelucene-analyzers-common6.6.0

建立索引

Directory 索引存储目录

看下具体的几种实现

后面再详细介绍&＃xff0c;这里大致知道有这么多实现即可。

Analyzer 分词器&＃xff0c;同样有多种实现 ,比如&＃xff1a;例子中的标准分词&＃xff0c;IK中文分词&＃xff0c;CJK二分分词等&＃xff1b;

后面具体再介绍

创建索引demo&＃xff1a;

// 指定索引库的地址Directory dir&＃61; NIOFSDirectory.open(FileSystems.getDefault().getPath("E:/lucene_test"));// 创建分词器&＃xff0c;标准分词器Analyzer analyzer &＃61; new StandardAnalyzer();IndexWriterConfig iwc &＃61; new IndexWriterConfig(analyzer);IndexWriter writer &＃61; new IndexWriter(dir, iwc);writer.deleteAll(); // 清除以前的indexDocument document &＃61; new Document();Field id &＃61; new TextField("id", "1"),Field.Store.YES);Field name &＃61; new TextField("name", "我是中国人", Field.Store.YES);// 将field域设置到Document对象中document.add(id);document.add(name);writer.addDocument(document)// 关闭writerwriter.close();

通过索引查询

简单查询demo&＃xff1a;

// 注意与创建索引使用相同的分词器 Analyzer analyzer &＃61; new StandardAnalyzer();// 第一个参数&＃xff1a;默认搜索的域的名称QueryParser parser &＃61; new QueryParser("name", analyzer);Query query &＃61; parser.parse("中国");Directory directory &＃61; NIOFSDirectory.open(FileSystems.getDefault().getPath("E:/lucene_test"));IndexReader reader &＃61; DirectoryReader.open(directory);IndexSearcher searcher &＃61; new IndexSearcher(reader);// 通过searcher来搜索索引库// 第二个参数&＃xff1a;指定需要显示的顶部记录的N条TopDocs topDocs &＃61; searcher.search(query, 10);// 根据查询条件匹配出的记录总数int count &＃61; topDocs.totalHits;System.out.println("匹配出的记录总数:" &＃43; count);// 根据查询条件匹配出的记录ScoreDoc[] scoreDocs &＃61; topDocs.scoreDocs;for (ScoreDoc scoreDoc : scoreDocs) {// 获取文档的IDint docId &＃61; scoreDoc.doc;// 通过ID获取文档Document doc &＃61; searcher.doc(docId);System.out.println("id&＃xff1a;" &＃43; doc.get("id"));System.out.println("name&＃xff1a;" &＃43; doc.get("name"));}// 关闭资源reader.close();