Lucene之索引建立

作者：我-是二毛控控控_ | 来源：互联网 | 2023-05-30 19:40

[b]Lucene[b]可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能

[b]Lucene[/b]可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.

[color&＃61;blue]Index的建立大致步骤:[/color]

[color&＃61;gray]1.源数据文本化[/color]

由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到[url&＃61;http://lucene.apache.org/tika/]Tika[/url]框架.

[color&＃61;gray]2.当源数据文本化后,需要对其做处理—[b]analysis[/b][/color]

这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.

[color&＃61;gray]3.文件的存储[/color]

分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.

例如: Xxx – abcd cde x 索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.

[img]http://dl.iteye.com/upload/attachment/210189/d59b617a-5e4c-38d7-9db4-3256aa4516b2.jpg[/img]

每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.

每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.

块文件命名更是 segments_,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.

addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同. addDocument(Document,Anayzer)

[b]添加索引[/b]

a.new Document

b.new Field->添加内容

c.document.add(field);

d.indexWriter.add(document);

Document doc &＃61; new Document(); doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES, Field.Index.NOT_ANALYZED)); doc.add(new Field("city", text[i] /*array*/, Field.Store.YES, Field.Index.ANALYZED)); writer.addDocument(doc);

[b]删除索引[/b]

在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.

a.Term/Query

b.indexWriter.deleteDocument(??)

deleteDocuments(Term)// deletes all documents containing the provided term. deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array. deleteDocuments(Query)// deletes all documents matching the provided query. deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.

&＃64;Test public void testDelete() throws Exception{ IndexWriter iw &＃61; new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED); Term term &＃61; new Term("id", "1"); iw.deleteDocuments(term); iw.optimize(); assertEquals(iw.numDocs(), 1); iw.close(); }

通过各Term删除单个document.

IndexWriter,IndexReader中的maxDoc()与numDocs()

maxDoc()返回下一个可取得文档的内部编号.

numDocs()返回未被删除的document数目.

[b]更新索引[/b]

updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer. updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.

&＃64;Test public void testUpdate() throws Exception { IndexWriter iw &＃61; new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED); Term term &＃61; new Term("id", "1"); Document doc &＃61; new Document(); doc.add(new Field("id", "3", Field.Store.YES, Field.Index.NOT_ANALYZED)); iw.updateDocument(term, doc); iw.optimize(); assertEquals(iw.maxDoc(),2); iw.close(); }

从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型

Index,Store,TermVector

Index:

Index.ANALYZED Index.NOT_ANALYZED Index.ANALYZED_NO_NORMS Index.NOT_ANALYZED_NO_NORMS Index.NO

查询会用到Field,会关系到Field的存储类型

Store

Store.YES //保存,可以被IndexReader说读取. Store.NO //不保存.

介于Store与 Index之间的参数,用来提供向量机制的模糊查询

TermVector

TermVector.YES //保存term vectors TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息) TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息) TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息) TermVector.NO //不保存term vectors

推荐阅读

web
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
web
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
go
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
go
Java高并发程序设计学习-线程安全的概念与synchronized

本文介绍了Java高并发程序设计中线程安全的概念与synchronized关键字的使用。通过一个计数器的例子，演示了多线程同时对变量进行累加操作时可能出现的问题。最终值会小于预期的原因是因为两个线程同时对变量进行写入时，其中一个线程的结果会覆盖另一个线程的结果。为了解决这个问题，可以使用synchronized关键字来保证线程安全。 ... [详细]

蜡笔小新 2023-12-13 15:43:03
web
web.py开发web 第八章 Formalchemy 服务端验证方法

本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例，详细说明了对各字段的验证要求，包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]

蜡笔小新 2023-12-12 16:36:00
web
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
post
无法使用fetch在服务器端读取/获取发布的数据

本文介绍了一个React Native新手在尝试将数据发布到服务器时遇到的问题，以及他的React Native代码和服务器端代码。他使用fetch方法将数据发送到服务器，但无法在服务器端读取/获取发布的数据。 ... [详细]

蜡笔小新 2023-12-11 11:26:28
post
Gitlab接入公司内部单点登录的安装和配置教程

本文介绍了如何将公司内部的Gitlab系统接入单点登录服务，并提供了安装和配置的详细教程。通过使用oauth2协议，将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤，并解决了在迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2023-12-10 14:38:53
go
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
go
linux进阶50——无锁CAS

1.概念比较并交换(compareandswap，CAS)，是原⼦操作的⼀种，可⽤于在多线程编程中实现不被打断的数据交换操作࿰ ... [详细]

蜡笔小新 2023-12-09 10:10:40
go
初学者遇到的dubbo设计架构问题及解决方法总结

本文总结了初学者在使用dubbo设计架构过程中遇到的问题，并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题，初学者能够更好地理解和应用dubbo设计架构。 ... [详细]

蜡笔小新 2023-12-09 10:07:18
go
Git版本控制工具中自动增加版本号的替代方案

本文讨论了在使用Git进行版本控制时，如何提供类似CVS中自动增加版本号的功能。作者介绍了Git中的其他版本表示方式，如git describe命令，并提供了使用这些表示方式来确定文件更新情况的示例。此外，文章还介绍了启用$Id:$功能的方法，并讨论了一些开发者在使用Git时的需求和使用场景。 ... [详细]

蜡笔小新 2023-12-09 09:55:13
go
Java多线程总结（8）concurrent.locks包下的锁机制的使用

1Lock与ReadWriteLock1.1LockpublicinterfaceLock{voidlock();voidlockInterruptibl ... [详细]

蜡笔小新 2023-12-09 09:15:17
stream
python3 logging

python3logginghttps:docs.python.org3.5librarylogging.html，先3.5是因为我当前的python版本是3.5之所 ... [详细]

蜡笔小新 2023-10-17 18:11:45

我-是二毛控控控_

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章