热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

分布式检索系统的简单设计

(1)XML预处理读取test.xml并修改url节点下的localhost信息,以保证预览和下载用户所需正确资源。过程如下:

(1) XML预处理

读取test.xml并修改url节点下的localhost信息,以保证预览和下载用户所需正确资源。过程如下:

List list = document.selectNodes("allresource/resourceitem/url");

Iterator iter = list.iterator();

while (iter.hasNext()) {

Element url = (Element)iter.next();

String ur=url.getText();

String str1=ur.substring(0,7);

String str2=ur.substring(ur.indexOf(":8080"));

String str3=str1+LocalIP+str2;

url.setText(str3);

}

(2)服务器注册、注销和选举

开启服务器后,可以实现单机搜索。考虑到test.xml中关于服务器IP信息的不确定性,我们采取获取本机IP后,在后台手动输入主服务器IP并添加从机的方式(详细步骤请看用户操作手册)来实现服务器的分布式,这种方式能够适合多种情况。

1、服务器初始化步骤如下:

(1)主服务器先行注册后,开启监听服务

(2)从机获取主服务器IP后存入本地XML

(3)开启RMI注册服务,远程机器实现向主服务器注册、注销

(4)每台服务器将在线服务器的IP动态写入本地的数据文件

(5)由Socket通信服务监听各服务器状态

2、从机向主服务器远程注册成功和注销成功后,主服务器会通知已连接在线的其他从机有新的机器加入或有机器掉线。当由于网络不稳定等异常发生导致主服务器掉线,通过选举算法在从机中选举出新主服务器,其他从机向新主服务器注册建立连接,以保证用户能继续搜索。

3、具体实现通过Socket通信技术,主服务器端开启监听服务,监听已注册客户端的状态,当有客户端因为异常掉线时,主服务器通过线程负责通知其他从机该客户端已不在线。已注册客户端向服务端发送信息并接受主服务器端的反馈信息,当客户端没有收到服务器端信息时,说明主服务器因异常掉线,各客户端相互通知,并通过选举算法选举出新主服务器。

(3) 拼音搜索功能

该搜索引擎实现拼音搜索功能。因为直接实现拼音转为汉字较为困难,我们通过将资源关键字以及对应拼音写入数据库,实现拼音搜索功能。

实现步骤:

  1. 在服务器启动时,检索xml文件。

  2. xml中所有关键字检索,并利用pinyin4j包分别将所有关键字转化为对应拼音。

  3. 将汉字及其对应拼音作为一行记录写入数据库中。

  4. 搜索时,从数据库中提取出与输入拼音相对应的关键字,作为参数传递给搜索方法,进行搜索。

(4)搜索过程

   1.分词.

索引过程与搜索过程中运用的是JE分词器,JE分词器是一款轻量级的、易于安装的分词器,只需将包导入项目的lib中即可,JE分词器分词效率不错,准确度也不错。

 2.索引.

dom4j读取xml文档,将节点信息封装进javabean中,然后利用lucene建立倒排索引表。

 3.普通搜索.

判断输入的关键字是否为拼音,如果为拼音则查询数据库选出相应的汉语。然后,然后利用JE分词器将关键字分词,建立关键字数组,遍历关键字数组,通过TermQuery建立BooleanQuery,然后对索引进行查找。

 4.模糊查找.

判断输入的关键字是否为拼音,如果为拼音则查询数据库选出相应的汉语。然后,然后利用JE分词器将关键字分词,建立关键字数组,遍历关键字数组,通过FuzzyQuery建立BooleanQuery,然后对索引进行查找。

   5.按种类进行搜索.

在普通搜索的基础上,通过重写了lucene的过滤器,对多种格式的文件进行了过滤,以实现按类别查找。

     6.高级搜索.

包括包含多关键字的搜索,包一任意关键字的搜索,包含完整关键字的搜索以及前缀搜索。包含多关键字可以通过BooleanQueryMUSTSHOULD属性来实现。包含任一关键字用BooleanQuery实现。包含完整关键字可以通过不对关键字进行分词而直接对索引进行搜索的方式来实现。前缀搜索可以通过lucenePrefixQuery来实现。

高级搜索还添加了不包含关键字,资源的作者和上传者等限制条件,这些都是通过重写lucene过滤器实现的.

  7.高亮显示模块.

利用luceneHighlighter 类对于关键字匹配的信息进行变红处理,以供前台的高亮显示。

    8.对结果集的去除重复处理.

利用自己编写的方法将检索结果中的重复项去掉,然后通过冒泡排序算法对分布式检索的结果进行排序,排序是比较的是文档的得分。lucene对文档的匹配程度的衡量有一套评分公式,通过计算得出每个文档的得分情况,通过得分来评价文档的相关程度。

   9.将返回结果输出到jsp页面上.

    lucene : Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;

dom4j:dom4j是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件

(4)后台管理

     1用户注册:用户可以通过用户注册登陆我们的系统,成为用户,出于对资源安全的考虑,我们只允许已经注册过得用户上传资源,然后就可以使用我们的上传功能。

     2、资源上传:用户可以通过上传功能上传包括(文档,视频,音频,以及图片),由于我们有大小以及格式的限制,所以会有一些格式的文件不

上传;

     3、资源审核:对于用户上传的资源并不是直接就能搜索到的,而是要通过后台管理员的确定,这里我们完成的是对已经上传的资源的审核功能,

定其合法性和有用性。

     4、上传功能:在这里我们可以把已经通过审核的资源批量的上传,并且建立起索引,直接就可以把他们搜索出来。

     5、普通删除:管理员可以通过普通删除把不需要的文件进行删除,这里支持单个删除也可以批量删除。

     6、时间删除:管理员可以把已经过时的文件通过时间删除进行删除,进行文件的更新。

    用户列表:管理员查看用户列表信息,可以在这里把已经注册的用户进行删除。

     7、服务器添加:可以手动的添加服务器;

     8、服务器列表:可以查看在线的服务器


转载于:https://www.cnblogs.com/yimindu/p/3367030.html


推荐阅读
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 本文详细探讨了KMP算法中next数组的构建及其应用,重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现,帮助读者更好地理解KMP算法的核心原理。 ... [详细]
  • 本文详细介绍如何使用arm-eabi-gdb调试Android平台上的C/C++程序。通过具体步骤和实用技巧,帮助开发者更高效地进行调试工作。 ... [详细]
  • 导航栏样式练习:项目实例解析
    本文详细介绍了如何创建一个具有动态效果的导航栏,包括HTML、CSS和JavaScript代码的实现,并附有详细的说明和效果图。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表
    本文介绍了一段通用代码示例,该代码不仅能够操作 Azure Active Directory (AAD),还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级:AAD 和 Subscription。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
author-avatar
周周微商互联
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有