热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ElasticSerach之分词器进阶-短语搜索不准确bug及修复实现

在ES中,针对全文检索我们都会采用分词的方式进行搜索。分词器的种类也比较多,使用得较多的分词器比如ansj,ik等。ES使用了这些分词器后,中文搜索体验得到较大的改善,但是在使用这些分词器的
   在ES中,针对全文检索我们都会采用分词的方式进行搜索。分词器的种类也比较多,使用得较多的分词器比如ansj,ik  等。ES使用了这些分词器后,中文搜索体验得到较大的改善,但是在使用这些分词器的同时,也会暴露出一些问题或bug,比如高亮、分词不准确、搜索数据丢失等,本章就介绍下使用ansj分词器出现的短语搜索丢失数据(不准确)问题以及如何解决该问题。


为了更清晰的描述问题,我们做个如下实验:

1.随机抽取包含“新能源” 且包含 "汽车"的数据M 条(本例中43条)


2.设置样本中包含 “新能源汽车” 的数据N条(N



3.建立搜索引擎字段映射(字段采用ansj分词),将此批数据导入搜索引擎



搜索测试:

1.搜索引擎中搜索关键词“新能源汽车”,可以看到结果数与数据库 中的记录相同


2.搜索短语“新能源汽车”时候发现搜索出来的条数仅有 18条,通过对比数据库,可找到若干包含”新能源汽车“但没有被搜索到的数据,例如数据:50993755





大家都知道lucene中的查询是通过倒排索引查询,而配置了分词器的字段是通过分词查找,短语查询内部实现也是分词查找,但其又与非短语查询存在一些差别,短语查询步骤如下:

首先,短语查询在语法解析的时候会解析提取到短语单元、关键词

其次,将短语单元分析成一个或多个关键词,使用生成的所有关键词到索引中查找并计算文档是否满足了输出逻辑条件

最后,lucene对文档进行短语检查,若文档包目标短语,则将文档加入结果集,若不满足则抛弃。


我们再来看看lucene检查文档是否存在短语的逻辑(如下为检查是否存在短语的lucene函数):


通过代码可以知道,lucene检查短语是否在文档中存在是通过索引中关键词的位置差与输入样本中的位置差的差值是否相等来进行判定的。


我们再来看看分词情况,由于建索引时候我们需要将词分的较细,故采用index的模式来进行分词。

以 "新能源汽车行业进入一个全新时代" 为例,采用ansj官方提供的分词插件分词后,lucene中的索引位置信息如下:

(新能源 , pos:0),(汽车行业 , pos:1),(进入 , pos:2),(一个 , pos:3),(全新 , pos:4),(的 , pos:5),(时代 , pos:6),(新 , pos:7),(新能 , pos:8),(能 , pos:9),(能源 , pos:10),(源 , pos:11),(源汽 , pos:12),(汽 , pos:13),(汽车 , pos:14),(车 ,pos:15),(车行 , pos:16),(行 , pos:17),(行业 , pos:18),(业 , pos:19),(业进 , pos:20),(进 , pos:21),(入 , pos:22),(一 , pos:23),(个 , pos:24),(全 , pos:25),(新 , pos:26),(新的 , pos:27),(时 , pos:28),(代 , pos:29)


而查询时候采用基于向量的分词方式,以“新能源汽车”为例,系统将会才分为如下信息:

(新能源 , pos:0),(汽车 , pos:1)


通过分词信息可以看到,输入样本中,关键词“汽车” 与关键词 “新能源” 距离差为 1 ,而在索引样本中,关键词“汽车” 与关键词 “新能源” 的距离为 14, 因此在lucene上会判定 该条文档中不存在“新能源汽车”的短语。



解决方案:

   lucene判定是否存在短语的方式是为  索引关键词(n)位置 + 输入样本关键词(n+1)偏移 =  索引起始关键词(n+1)位置 ,故只要将分词阶段分析出的词的位置以及位置差满足该公式,该bug即可解决。目前在ansj方式常用的分词方式中,仅ToAnalysis 满足该关系式,为能将index与query方式均能满足该公式,我们需要将ansj输出的关键词统一设置一个位置输出信息。按照该关系式,我们只要将分词结果按照词的终止地址做排序输出,词的偏移量采用词的终止地址做位置差即可。


因在lucene中首个词位置增量值不能小于等于0,故可将所有词按照终止偏移地址(采用起始地址会导致首个曾量值为0)排序以后依次数据,输出过程的位置差即为位置增量。

修改点1:

ansj 源码修改,在分词器中进行修改:

修改 IndexAnalysis.java 中result 方法,

 将原来的sort方法修改为(低版本没有sort函数,无sort函数的直接在setRealName(graph, result) 函数上方加上如下函数即可):

                Collections.sort(result, new Comparator() {
                    @Override
                    public int compare(Term o1, Term o2) {
                         int offset = o1.getOffe() - o2.getOffe() + o1.getName().length() - o2.getName().length();
                        if (0==offset) {
                            return o1.getName().length() - o2.getName().length();
                        } else {
                            return offset;
                        }
                    }

                });

修改点2:

ansj_lucene_plug 源码修改:

修改 AnsjTokenizer.java 类

a.添加成员变量 private int position = 0;

b.修改incrementToken 方法:

    @Override
    public final boolean incrementToken() throws IOException {

        中间省略

        if (obj instanceof Term) {
            中间省略
            offsetAtt.setOffset(term.getOffe(), term.getOffe() + term.getName().length());
            typeAtt.setType(term.getNatureStr());
            int incPosition = term.getOffe() - position;
            position += incPosition;

            positionAttr.setPositionIncrement(incPosition);
            termAtt.setEmpty().append(rName);

        } else {
            positionAttr.setPositionIncrement(0);
            termAtt.setEmpty().append(obj.toString());
        }

        return true;
    }

c.修改parse方法:

      private void parse() throws IOException {
        Result parse = ta.parse();
        if (synonyms != null) {
            for (SynonymsRecgnition sr : synonyms) {
                parse.recognition(sr);
            }
        }
        this.position =0;
        result = new LinkedList(parse.getTerms());
    }

到此,所有修改已完成,我们同样以 "新能源汽车行业进入一个全新时代" 为例,采用ansj建索引后,lucene中的索引位置信息如下:

(新 , pos:1),(新能 , pos:2),(能 , pos:2),( 新能源 , pos:3),(能源 , pos:3),(源 , pos:3),(源汽 , pos:4),(汽 , pos:4),( 汽车 , pos:5),(车 , pos:5),(车行 , pos:6),(行 , pos:6),(汽车行业 , pos:7),(行业 , pos:7),(业 , pos:7),(业进 , pos:8),(进 , pos:8),(进入 , pos:9),(入 , pos:9),(了 , pos:10),(了一 , pos:11),(一 , pos:11),(一个 , pos:12),(个 , pos:12),(全 , pos:13),(全新 , pos:14),(新 , pos:14),(新时 , pos:15),(时 , pos:15),(新时代 , pos:16),(时代 , pos:16),(代 , pos:16)

查询时候同样以“新能源汽车”为例,系统将会拆分为如下信息:

(新能源 , pos:3),(汽车 , pos:5)

可以看到,输入样本中词的距离为 2,而在lucene索引中,关键词" 汽车"与 关键词"新能源" 的距离同样为 2,代码修改达理论上已正确。


更新ansj相关的插件后重建索引,重新执行短语“新能源汽车” 搜索,可以看到结果已完全正确





 
推荐阅读
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • Java中包装类的设计原因以及操作方法
    本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中,除了对象类型,还有八大基本类型,为了将基本类型转换成对象,Java引入了包装类。文章通过介绍包装类的定义和实现,解答了为什么需要包装类的问题,并提供了简单易用的操作方法。通过本文的学习,读者可以更好地理解和应用Java中的包装类。 ... [详细]
  • Week04面向对象设计与继承学习总结及作业要求
    本文总结了Week04面向对象设计与继承的重要知识点,包括对象、类、封装性、静态属性、静态方法、重载、继承和多态等。同时,还介绍了私有构造函数在类外部无法被调用、static不能访问非静态属性以及该类实例可以共享类里的static属性等内容。此外,还提到了作业要求,包括讲述一个在网上商城购物或在班级博客进行学习的故事,并使用Markdown的加粗标记和语句块标记标注关键名词和动词。最后,还提到了参考资料中关于UML类图如何绘制的范例。 ... [详细]
  • 本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式,然后详细介绍了相关API,包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List,以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较,指出了JSON的优势和缺点。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • JDK源码学习之HashTable(附带面试题)的学习笔记
    本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记,包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货,并附带了其他相关主题的学习笔记。 ... [详细]
  • 重入锁(ReentrantLock)学习及实现原理
    本文介绍了重入锁(ReentrantLock)的学习及实现原理。在学习synchronized的基础上,重入锁提供了更多的灵活性和功能。文章详细介绍了重入锁的特性、使用方法和实现原理,并提供了类图和测试代码供读者参考。重入锁支持重入和公平与非公平两种实现方式,通过对比和分析,读者可以更好地理解和应用重入锁。 ... [详细]
author-avatar
曾经的诺系列
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有