Lucene2.2.0源代码阅读学习(27)

作者：ian | 来源：互联网 | 2023-10-10 14:53

关于Lucene的检索(IndexSearcher)的内容。通过一个例子，然后从例子所涉及到的内容出发，一点点地仔细研究每个类的实现和用法。先写一个

关于Lucene的检索(IndexSearcher)的内容。

通过一个例子&＃xff0c;然后从例子所涉及到的内容出发&＃xff0c;一点点地仔细研究每个类的实现和用法。

先写一个简单的使用Lucene实现的能够检索的类&＃xff0c;如下所示&＃xff1a;

package org.shirdrn.lucene;

import java.io.IOException;
import java.util.Date;
import java.util.List;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermsFilter;

public class MySearcher {

public static void main(String[] args) {

   String indexPath &＃61; "E:\\Lucene\\myindex";
   try {
    IndexSearcher searcher &＃61; new IndexSearcher(indexPath);
    String keyword &＃61; "的";
    Term term &＃61; new Term("contents",keyword);
    IndexReader indexReader &＃61; IndexReader.open(indexPath);
    int numberOfDocumentIncludingGivenTerm &＃61; indexReader.docFreq(term);
    System.out.println("IndexReader的版本为 &＃xff1a; "&＃43;indexReader.getVersion());
    System.out.println("包含词条 ("&＃43;term.field()&＃43;","&＃43;term.text()&＃43;") 的Document的数量为 &＃xff1a; "&＃43;numberOfDocumentIncludingGivenTerm);
    Query query &＃61; new TermQuery(term);
    Date startTime &＃61; new Date();
    Hits hits &＃61; searcher.search(query);
    System.out.println("********************************************************************");
    int No &＃61; 1;
    for(int i&＃61;0;i     System.out.println("【序号】&＃xff1a; " &＃43; No&＃43;&＃43;);
    TermDocs termDocs &＃61; searcher.getIndexReader().termDocs(term);
     while(termDocs.next()){
      if(termDocs.doc() &＃61;&＃61; hits.id(i)){
       System.out.println("Document的内部编号为 &＃xff1a; "&＃43;hits.id(i));
       Document doc &＃61; hits.doc(i);
       List fieldList &＃61; doc.getFields();
      //System.out.println("&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;&＃61;"&＃43;fieldList.size());
       System.out.println("Document(编号) "&＃43;hits.id(i)&＃43;" 的Field的信息&＃xff1a; ");
       System.out.println("    ------------------------------------");
       for(int j&＃61;0;j        Fieldable field &＃61; (Fieldable)fieldList.get(j);
        System.out.println("    Field的名称为 &＃xff1a; "&＃43;field.name());
        System.out.println("    Field的内容为 &＃xff1a; "&＃43;field.stringValue());
        System.out.println("    ------------------------------------");
       }
       System.out.println("Document的内容为 &＃xff1a; "&＃43;doc);
       System.out.println("Document的得分为 &＃xff1a; "&＃43;hits.score(i));
       System.out.println("搜索的该关键字【"&＃43;keyword&＃43;"】在Document(编号) "&＃43;hits.id(i)&＃43;" 中&＃xff0c;出现过 "&＃43;termDocs.freq()&＃43;" 次");
      }
     }
     System.out.println("********************************************************************");
    }
    Date finishTime &＃61; new Date();
    long timeOfSearch &＃61; finishTime.getTime() - startTime.getTime();
    System.out.println("本次搜索所用的时间为 "&＃43;timeOfSearch&＃43;" ms");
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }
}
}

首先要保证索引目录E:\\Lucene\\myindex下面已经存在索引文件&＃xff0c;可以通过文章 Lucene-2.2.0 源代码阅读学习(4) 中一个使用Lucene的Demo中的递归建立索引的方法&＃xff0c;将建立的索引文件存放到E:\\Lucene\\myindex目录之下。

执行上面的主函数&＃xff0c;输出结果如下所示&＃xff1a;

IndexReader的版本为 &＃xff1a; 1207548172961
包含词条 (contents,的) 的Document的数量为 &＃xff1a; 23
********************************************************************
【序号】&＃xff1a; 1
Document的内部编号为 &＃xff1a; 24
Document(编号) 24 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\FAQ.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200604130754
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.5279752
搜索的该关键字【的】在Document(编号) 24 中&＃xff0c;出现过 291 次
********************************************************************
【序号】&＃xff1a; 2
Document的内部编号为 &＃xff1a; 5
Document(编号) 5 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\3实验题目.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200710300744
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.5252467
搜索的该关键字【的】在Document(编号) 5 中&＃xff0c;出现过 2 次
********************************************************************
【序号】&＃xff1a; 3
Document的内部编号为 &＃xff1a; 12
Document(编号) 12 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\CustomKeyInfo.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200406041814
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.51790017
搜索的该关键字【的】在Document(编号) 12 中&＃xff0c;出现过 70 次
********************************************************************
【序号】&＃xff1a; 4
Document的内部编号为 &＃xff1a; 41
Document(编号) 41 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\Update.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200707050028
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.5059122
搜索的该关键字【的】在Document(编号) 41 中&＃xff0c;出现过 171 次
********************************************************************
【序号】&＃xff1a; 5
Document的内部编号为 &＃xff1a; 0
Document(编号) 0 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\120E升级包安装说明.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200803271123
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.43770555
搜索的该关键字【的】在Document(编号) 0 中&＃xff0c;出现过 2 次
********************************************************************
【序号】&＃xff1a; 6
Document的内部编号为 &＃xff1a; 3
Document(编号) 3 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\1实验题目.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200710160733
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.4333064
搜索的该关键字【的】在Document(编号) 3 中&＃xff0c;出现过 1 次
********************************************************************
【序号】&＃xff1a; 7
Document的内部编号为 &＃xff1a; 60
Document(编号) 60 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\猫吉又有个忙&＃xff0c;需要大家帮忙一下.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200706161112
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.4106042
搜索的该关键字【的】在Document(编号) 60 中&＃xff0c;出现过 11 次
********************************************************************
【序号】&＃xff1a; 8
Document的内部编号为 &＃xff1a; 59
Document(编号) 59 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\汉化说明.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200708210247
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.39057708
搜索的该关键字【的】在Document(编号) 59 中&＃xff0c;出现过 13 次
********************************************************************
【序号】&＃xff1a; 9
Document的内部编号为 &＃xff1a; 44
Document(编号) 44 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\Visual Studio 2005注册升级.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200801300512
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.37525433
搜索的该关键字【的】在Document(编号) 44 中&＃xff0c;出现过 3 次
********************************************************************
【序号】&＃xff1a; 10
Document的内部编号为 &＃xff1a; 56
Document(编号) 56 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\新1建文本文档.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200710311142
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.36621076
搜索的该关键字【的】在Document(编号) 56 中&＃xff0c;出现过 35 次
********************************************************************
【序号】&＃xff1a; 11
Document的内部编号为 &＃xff1a; 46
Document(编号) 46 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\使用技巧集萃.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200511210413
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.35693806
搜索的该关键字【的】在Document(编号) 46 中&＃xff0c;出现过 133 次
********************************************************************
【序号】&＃xff1a; 12
Document的内部编号为 &＃xff1a; 30
Document(编号) 30 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\MyEclipse 注册码.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200712061059
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.3460366
搜索的该关键字【的】在Document(编号) 30 中&＃xff0c;出现过 5 次
********************************************************************
【序号】&＃xff1a; 13
Document的内部编号为 &＃xff1a; 63
Document(编号) 63 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\疑问即时记录.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200711141408
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.30325133
搜索的该关键字【的】在Document(编号) 63 中&＃xff0c;出现过 6 次
********************************************************************
【序号】&＃xff1a; 14
Document的内部编号为 &＃xff1a; 37
Document(编号) 37 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\readme.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200803101314
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.26262334
搜索的该关键字【的】在Document(编号) 37 中&＃xff0c;出现过 8 次
********************************************************************
【序号】&＃xff1a; 15
Document的内部编号为 &＃xff1a; 48
Document(编号) 48 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\剑心补丁使用说明(readme).txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200803101357
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.26262334
搜索的该关键字【的】在Document(编号) 48 中&＃xff0c;出现过 8 次
********************************************************************
【序号】&＃xff1a; 16
Document的内部编号为 &＃xff1a; 47
Document(编号) 47 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\关系记录.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200802201145
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.23161201
搜索的该关键字【的】在Document(编号) 47 中&＃xff0c;出现过 14 次
********************************************************************
【序号】&＃xff1a; 17
Document的内部编号为 &＃xff1a; 40
Document(编号) 40 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\Struts之AddressBooks学习笔记.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200710131711
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.21885277
搜索的该关键字【的】在Document(编号) 40 中&＃xff0c;出现过 8 次
********************************************************************
【序号】&＃xff1a; 18
Document的内部编号为 &＃xff1a; 51
Document(编号) 51 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\密码强度检验.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200712010901
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.12380183
搜索的该关键字【的】在Document(编号) 51 中&＃xff0c;出现过 1 次
********************************************************************
【序号】&＃xff1a; 19
Document的内部编号为 &＃xff1a; 50
Document(编号) 50 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\史上最强天籁之声及欧美流行曲超级精选【 FLAC分轨】.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200712231241
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.1083266
搜索的该关键字【的】在Document(编号) 50 中&＃xff0c;出现过 1 次
********************************************************************
【序号】&＃xff1a; 20
Document的内部编号为 &＃xff1a; 57
Document(编号) 57 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\新建文本文档.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200710270258
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.09285137
搜索的该关键字【的】在Document(编号) 57 中&＃xff0c;出现过 4 次
********************************************************************
【序号】&＃xff1a; 21
Document的内部编号为 &＃xff1a; 45
Document(编号) 45 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\书籍网站.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200708071255
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.0670097
搜索的该关键字【的】在Document(编号) 45 中&＃xff0c;出现过 3 次
********************************************************************
【序号】&＃xff1a; 22
Document的内部编号为 &＃xff1a; 61
Document(编号) 61 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\网络查询大全.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200111200655
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.065655835
搜索的该关键字【的】在Document(编号) 61 中&＃xff0c;出现过 2 次
********************************************************************
【序号】&＃xff1a; 23
Document的内部编号为 &＃xff1a; 14
Document(编号) 14 的Field的信息&＃xff1a;
    ------------------------------------
    Field的名称为 &＃xff1a; path
    Field的内容为 &＃xff1a; E:\Lucene\txt1\mytxt\CustomKeysSample.txt
    ------------------------------------
    Field的名称为 &＃xff1a; modified
    Field的内容为 &＃xff1a; 200610100451
    ------------------------------------
Document的内容为 &＃xff1a; Document stored/uncompressed,indexed>
Document的得分为 &＃xff1a; 0.051179506
搜索的该关键字【的】在Document(编号) 14 中&＃xff0c;出现过 7 次
********************************************************************
本次搜索所用的时间为 187 ms

其中&＃xff0c;IndexReader是一个用于读取索引文件的抽象类&＃xff0c;可以参考该类的源代码。IndexReader类可以很方便地打开一个索引目录(即创建一个输入流)&＃xff0c;这要使用到它的静态(static)方法open()打开即可&＃xff0c;然后就可以访问索引文件了&＃xff0c;从而实现对索引文件的维护。

IndexReader类实现了各种打开索引文件的方式&＃xff0c;由于定义为static的&＃xff0c;所以非常方便地调用&＃xff0c;如下所示&＃xff1a;

public static IndexReader open(String path) throws CorruptIndexException, IOException { // 通过String的索引目录的路径
return open(FSDirectory.getDirectory(path), true, null);
}

public static IndexReader open(File path) throws CorruptIndexException, IOException { // 通过File构造的索引目录文件
return open(FSDirectory.getDirectory(path), true, null);
}

public static IndexReader open(final Directory directory) throws CorruptIndexException, IOException { // 直接通过Directory来打开
return open(directory, false, null);
}

public static IndexReader open(final Directory directory, IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException { // 直接通过Directory来打开&＃xff0c;并指定一种索引文件删除策略&＃xff0c;可以对索引文件进行维护(删除操作)

return open(directory, false, deletionPolicy);
}

其中&＃xff0c;最核心的实现是在一个私有的open()方法中实现的&＃xff0c;如下所示&＃xff1a;

private static IndexReader open(final Directory directory, final boolean closeDirectory, final IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException {

return (IndexReader) new SegmentInfos.FindSegmentsFile(directory) {

protected Object doBody(String segmentFileName) throws CorruptIndexException, IOException {

SegmentInfos infos &＃61; new SegmentInfos();
infos.read(directory, segmentFileName);

IndexReader reader;

        if (infos.size() &＃61;&＃61; 1) {    // index is optimized
          reader &＃61; SegmentReader.get(infos, infos.info(0), closeDirectory);
        } else {

         // To reduce the chance of hitting FileNotFound
          // (and having to retry), we open segments in
          // reverse because IndexWriter merges & deletes
          // the newest segments first.

          IndexReader[] readers &＃61; new IndexReader[infos.size()];
          for (int i &＃61; infos.size()-1; i >&＃61; 0; i--) {
            try {
              readers[i] &＃61; SegmentReader.get(infos.info(i));
            } catch (IOException e) {
              // Close all readers we had opened:
              for(i&＃43;&＃43;;i                readers[i].close();
              }
              throw e;
            }
          }

          reader &＃61; new MultiReader(directory, infos, closeDirectory, readers);
        }
        reader.deletionPolicy &＃61; deletionPolicy;
        return reader;
      }
    }.run();
}

上面测试程序中&＃xff0c;IndexSearcher类是实现检索的核心类。它提供了很多中不同的检索方式&＃xff0c;返回的对象也可以适用于不同的需要&＃xff0c;比如Hits、TopFieldDocs、TopDocs&＃xff0c;而且&＃xff0c;还可以指定排序Sort、权重Weight、过滤器Filter作为search()方法的参数&＃xff0c;用起来的灵活、方便。

通过程序中&＃xff0c;红色标注的代码行&＃xff1a;

TermDocs termDocs &＃61; searcher.getIndexReader().termDocs(term);

其实&＃xff0c;一个IndexSearcher实例化以后&＃xff0c;可以通过它获取到一个IndexReader的实例&＃xff0c;从而打开一个索引目录。

然后从就可以从创建的输入流中读取索引文件的详细信息&＃xff1a;

1、每个Document的内部编号(是唯一的&＃xff0c;可以通过这个编号对其进行维护)&＃xff1b;

2、每个Document中都有多个Field&＃xff0c;可以读取Field的名称、路径、Field的内容等等。

上面的测试程序中&＃xff0c;没有输出名称为“contents”的Field&＃xff0c;是因为在索引文件中没有存储Fielde的内容(即文本信息)。因为Field的内容是根据从指定的数据源中获取&＃xff0c;而数据源可能是数据量非常大的一些文件&＃xff0c;如果直接将它们保存到索引文件中&＃xff0c;会占用很大的磁盘空间。

其实&＃xff0c;可以根据需要存储。上面之所以没有存储&＃xff0c;可以追溯到Lucene自带的Demo中的设置&＃xff0c;在org.apache.lucene.demo.FileDocument中创建Field&＃xff0c;如下所示&＃xff1a;

// 构造一个Field&＃xff0c;这个Field可以从一个文件流中读取&＃xff0c;必须保证由f所构造的文件流是打开的
doc.add(new Field("contents", new FileReader(f)));

然后&＃xff0c;看Field的该构造方法的定义&＃xff1a;

public Field(String name, Reader reader) {
this(name, reader, TermVector.NO);
}

这个构造方法指定了要为这个创建的Field进行分词、索引&＃xff0c;但是不存储。

可以参考调用的另一个构造方法&＃xff1a;

public Field(String name, Reader reader, TermVector termVector) {
    if (name &＃61;&＃61; null)
      throw new NullPointerException("name cannot be null");
    if (reader &＃61;&＃61; null)
      throw new NullPointerException("reader cannot be null");

    this.name &＃61; name.intern();        // field names are interned
    this.fieldsData &＃61; reader;

    this.isStored &＃61; false;    // 指定不进行存储
    this.isCompressed &＃61; false;

    this.isIndexed &＃61; true;    // 要进行索引
    this.isTokenized &＃61; true;    // 要进行分词

    this.isBinary &＃61; false;

    setStoreTermVector(termVector);
}