热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

纯MongoDB实现中文全文搜索

纯MongoDB实现中文全文搜索-摘要MongoDB在2.4版中引入全文索引后几经迭代更新已经比较完美地支持以空格分隔的西语,但一直不支持中日韩等语言,社区版用户不得不通过挂接El

摘要

MongoDB在2.4版中引入全文索引后几经迭代更新已经比较完美地支持以空格分隔的西语,但一直不支持中日韩等语言,社区版用户不得不通过挂接ElasticSearch等支持中文全文搜索的数据库来实现业务需求,由此引入了许多业务限制、安全问题、性能问题和技术复杂性。作者独辟蹊径,基于纯MongoDB社区版(v4.x和v5.0)实现中文全文搜索,在接近四千万个记录的商品表搜索商品名,检索时间在200ms以内,并使用Change Streams技术同步数据变化,满足了业务需要和用户体验需求。

本文首先描述遇到的业务需求和困难,介绍了MongoDB和Atlas Search对全文搜索的支持现状,然后从全文搜索原理讲起,结合MongoDB全文搜索实现,挂接中文分词程序,达到纯MongoDB社区版实现中文全文搜索的目标;针对性能需求,从分词、组合文本索引、用户体验、实时性等多方面给出了优化实践,使整个方案达到商业级的实用性。

业务需求和困难

电商易是作者公司的电商大数据工具品牌,旗下多个产品都有搜索商品的业务需求。早期的时候,我们的搜索是直接用$regex去匹配的,在数据量比较大的时候,需要耗时十几秒甚至几分钟,所以用户总是反馈说搜不出东西来。其实不是搜不出来,而是搜的时间太长,服务器掐断连接了。加上我们普遍使用极简风格的首页,像搜索引擎那样,有个框,右侧是一个“一键分析”的按钮,用户点击后显示相关的商品的数据。搜索成为用户最常用的功能,搜索性能的问题也就变得更加突出了,优化搜索成为了迫在眉睫的任务。

MongoDB在2.4版中引入文本索引(Text Index)实现了全文搜索(Full Text Search,下文简称FTS),虽然后来在2.6和3.2版本中两经改版优化,但一直不支持中日韩等语言。MongoDB官网推出服务Atlas Search,也是通过外挂Lucene的方式支持的,这个服务需要付费,而且未在中国大陆地区运营,与我们无缘,所以还是要寻找自己的解决之道。

那么能否仅仅基于MongoDB社区版实现中文全文搜索呢?带着这个问题,作者深入到MongoDB文本索引的文档、代码中去,发现了些许端倪,并逐步实现和优化了纯MongoDB实现中文全文搜索的方案,下文将从全文搜索的原理讲起,详细描述这个方案。

过程

全文搜索原理

倒排索引是搜索引警的基础。倒排是与正排相对的,假设有一个 ID 为 1 的文档,内容为“ My name is LaiYonghao.“,那么通过 ID 1 总能找到这个文档所有的词。通过文档 ID 找包含的词,称为正排;反过来通过词找到包括该词的文档 ID,称为倒排,词与文档ID的对应关系称为倒排索引。下面直接引用一下维基百科上的例子。

0 "it is what it is"
1 "what is it"
2 "it is a banana"

上面 3 个文档的倒排索引大概如下:

"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}

这时如果要搜索banana的话,利用倒排索引可以马上查找到包括这个词的文档是ID为2的文档。而正排的话,只能一个一个文档找过去,找完3个文档才能找到(也就是$regex的方式),这种情况下的耗时大部分是无法接受的。

倒排索引是所有支持全文搜索的数据库的基础,无论是PostgreSQL还是MySQL都是用它来实现全文搜索的,MongoDB也不例外,这也是我们最终解决问题的基础底座。简单来说,倒排索引类似MongoDB里的多键索引(Multikey Index),能够通过内容元素找到对应的文档。文本索引可以简单类比为对字符串分割(即分词)转换为由词组成的数组,并建立多键索引。虽然文本索引还是停止词、同义词、大小写、权重和位置等信息需要处理,但大致如此理解是可以的。

西文的分词较为简单,基本上是按空格分切即可,这就是MongoDB内置的默认分词器:当建立文本索引时,默认分词器将按空格分切句子。而CJK语言并不使用空格切分,而且最小单位是字,所以没有办法直接利用MongoDB的全文搜索。那么如果我们预先将中文句子进行分词,并用空格分隔重新组装为“句子”,不就可以利用上MongoDB的全文搜索功能了吗?通过这一个突破点进行深挖,实验证明,这是可行的,由此我们的问题就转化为了分词问题。

一元分词和二元分词

从上文可知,数据库的全文搜索是基于空格切分的词作为最小单位实现的。中文分词的方法有很多,最基础的是一元分词和二元分词。

所谓一元分词:就是一个字一个字地切分,把字当成词。如我爱北京天安门,可以切分为我爱北京天安门,这是最简单的分词方法。这种方法带来的问题就是文档过于集中,常用汉字只有几千个,姑且算作一万个,如果有一千万个文档,每一个字会对应到10000000/10000*avg_len(doc)个。以文档内容是电商平台的商品名字为例,平均长度约为 60 个汉字,那每一个汉子对应 6 万个文档,用北京两字搜索的话,要求两个长度为6万的集合的交集,就会要很久的时间。所以大家更常使用二元分词法。

所谓二元分词:就是按两字两个分词。如我爱北京天安门,分词结果是我爱爱北北京京天天安安门。可见两个字的组合数量多了很多,相对地一个词对应的文档也少了许多,当搜索两个字的时候,如北京不用再求交集,可以直接得到结果。而搜索三个字以上的话,如天安门也是由天安和安门两个不太常见的词对应的文档集合求交集,数量少,运算量也小,速度就很快。下面是纯中文的二元分词Python代码,实际工作中需要考虑多语言混合的处理,在此仅作示例:

def bigram_tokenize(word):
  return' '.join(
    word[i:i+2]for i inrange(len(word))if i+2<=len(word)
  )

print(bigram_tokenize('我爱北京天安门'))
# 输出结果:我爱 爱北 北京 京天 天安 安门

Lucene自带一元分词和二元分词,它的中文全文搜索也是基于二元分词和倒排索引实现的。接下来只需要预先把句子进行二元分词再存入MongoDB,就可以借助它已有的西语全文搜索功能实现对中文的搜索。

编写索引程序

编写一个分词程序,它将全表遍历需要实现全文搜索的集合(Collection),并将指定的文本字段内容进行分词,存入指定的全文索引字段。

以对products表的name字段建立全文索引为例,代码大概如下:

def build_products_name_fts():
  # 在 _t 字段建立全文索引
 db.products.create_index([('_t', 'TEXT')])
  # 遍历集合
  for prod in db.products.find({}):
   db.products.update_one(
      {'_id': prod['_id']},
      {
        '$set': {
          '_t': bigram_tokenize(prod['name'])  # 写入二元分词结果
        }
      }
    )

if__name__=="__main__":
   build_products_name_fts()

只需要10来行代码就行了,它在首次运行的时候会做一次全表更新,完成后即可用以全文搜索。MongoDB的高级用户也可以用带更新的聚合管道完成这个功能,只需要写针对二元分词实现一个Javascript函数(使用$function操作符)放到数据库中执行即可。

查询词预处理

因为我们针对二元分词的结果做搜索,所以无法直接搜索。以牛仔裤为例,二元分词的全文索引里根本没有三个字的词,是搜索不出来结果的,必须转换成短语"牛仔仔裤"这样才能匹配上,所以要对查询词作预处理:进行二元分词,并用双引号约束位置,这样才能正确查询。

products = db.products.find(
    {
        '$text': {
            '$search': f'"{bigram_tokenize(kw)}"',
        }
    }
)

如果有多个查询词或带有反向查询词,则需要作相应的处理,在此仅以独词查询示例,具体不用细述。

MongoDB不仅支持在find中使用全文搜索,也可在aggregate中使用,在find中使用是差不多的,不过要留意的是只能在第一阶段使用带$text的$match。

初步结果

首先值得肯定的是做了简单的二元分词处理之后,纯MongoDB就能够实现中文全文搜索,搜索结果是精准的,没有错搜或漏搜的情况。

不过在性能上比较差强人意,在约4000万文档的products集合中,搜索牛仔裤需要10秒钟以上。而且在项目的使用场景中,我们发现用户实际查询的词很长,往往是直接在电商平台复制商品名的一部分,甚至全部,这种极端情况需要几分钟才能得到查询结果。

在产品层面,可以对用户查询的词长度进行限制,比如最多3个词(即2个空格)且总长度不要超过10个汉字(或20个字母,每汉字按两个字母计算),这样可以控制相对快一点。但这样的规则不容易让用户明白,用户体验受损,需要想办法优化性能。

优化

结巴中文分词

结巴中文分词是最流行的Python中文分词组件,它有一种搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。下面是引用自它项目主页的示例:

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
# 结果:【搜索引擎模式】:小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

可见它的分词数量比二元分词少了很多,对应地索引产寸也小了。使用二元分词时,4000万文档的products表索引超过40GB,而使用结巴分词后,减少到约26GB。

由上例也可看出,结巴分词的结果丢失了位置信息,所以查询词预处理过程也可以省略加入双引号,这样MongoDB在全文搜索时计算量也大大少,搜索速度加速了数十倍。以牛仔裤为例,使用结巴分词后查询时间由10秒以上降到约400ms,而直接复制商品名进行长词查询,也基本上能够在5秒钟之内完成查询,可用性和用户体验都得到了巨大提升。

结巴分词的缺陷是需要行业词典进行分词。比如电商平台的商品名都有长度限制,都是针对搜索引擎优化过的,日常用语“男装牛仔裤”在电商平台上被优化成了“牛仔裤男”,这显然不是一个通常意义上的词。在没有行业词典的情况下,结巴分词的结果是牛仔裤男,用户搜索时,将计算“牛仔裤”和“男”的结果交集;如果使用自定义词典,将优化为牛仔裤牛仔裤男,则无需计算,搜索速度更快,但增加了维护自定义词典的成本。

组合全文索引(Compound textIndex)

组合全文索引是MongoDB的一个特色功能,是指带有全文索引的组合索引。下面引用一个官方文档的例子:

db.inventory.createIndex(
   {
     dept:1,
     description:"text"
   }
)
// 查询
db.inventory.find( { dept:"kitchen",$text: { $search:"green" } } )

通过这种方式,当查询部门(dept)字段的描述中是否有某些词时,因为先过滤掉了大量的非同dept的文档,可以大大减少全文搜索的时间,从而实现性能优化。

尽管组合全文索引有许多限制,如查询时必须指定前缀字段,且前缀字段只支持等值条件匹配等,但实际应用中还是有很多适用场景的,比如商品集合中有分类字段,天然就是等值条件匹配的,在此情况根据前缀字段的分散程度,基本上可以获得同等比例的性能提升,一般都在10倍以上。

用户体验优化

MongoDB的全文搜索其实是很快的,但当需要根据其它字段进行排序的时候,就会显著变慢。比如在我们的场景中,当搜索牛仔裤并按销量排序时,速度显著变慢。所以在产品设计时,应将搜索功能独立,只解决“快速找出最想要的产品”这一个问题,想在一个功能里解决多个问题,必然需要付出性能代价。

另一个有助于提升提升用户体验的技术手段是一次搜索,大量缓存。就是一个搜索词第一次被查询时,直接返回前面若干条结果,缓存起来(比如放到Redis),当用户翻页或其他用户查询此词时,直接从缓存中读取即可,速度大幅提升。

实时性优化

前文提到编写索引程序对全文索引字段进行更新,但如果后面持续增加或修改数据时,也需要及时更新,否则实时性没有保障。在此可以引入Change Streams,它允许应用程序访问实时数据更改,而不必担心跟踪 oplog 的复杂性和风险。应用程序可以使用Change Streams来订阅单个集合、数据库或整个部署中的所有数据更改,并立即对它们作出反应。由于Change Streams使用聚合框架,应用程序还可以根据需要筛选特定的更改或转换通知。Change Streams也是MongoDB Atlas Search同步数据变化的方法,所以它是非常可靠的。使用Change Streams非常简单,我们的代码片断类似于这样:

try:
    # 订阅 products 集合的新增和修改Change Streams
    with db.products.watch(
            [{'$match': {'operationType': {'$in':['insert', 'update']}}}]) as stream:
        for insert_change in stream:
            check_name_changed_then_update(insert_change)
exceptpymongo.errors.PyMongoError:
    logging.error('...')

在check_name_changed_then_update()函数中我们检查可搜索字段是否产生了变化(更新或删除),如果是则对该文档更新_t字段,从而实时数据更新。

优化

本文描述了作者实现纯MongoDB实现中文全文搜索的过程,最终方案在生产环境中稳定运营了一年多时间,并为多个产品采纳,经受住了业务和时间的考验,证明了方案的可行性和稳定性。在性能上在接近四千万个记录的商品表搜索商品名,检索时间在200ms以内,并使用Change Streams技术同步数据变化,满足了业务需要和用户体验需求。

作者在完成对中文全文搜索的探索过程中,经过对MongoDB源代码的分析,发现mongo/src/mongo/db/fts目录包含了对不同语言的分词框架,在未来,作者将尝试在MongoDB中实现中文分词,期待用上内建中文全文搜索支持的那一天。

关于作者:赖勇浩

广州天勤数据有限公司

2005年至2012年在网易(广州)、广州银汉等公司从事网络游戏开发和技术管理工作。2013年至2014年在广东彩惠带领团队从事彩票行业数字化研发和实施。2015年至今,创办广州齐昌网络科技有限公司,后并入广东天勤科技有限公司,任职CTO,并且担任广州天勤数据有限公司联合创始人&CEO,现带领团队负责电商大数据分析软件的研发工作,形成由看店宝等十余个数据工具组成的产品矩阵,覆盖分析淘宝、天猫、拼多多和抖音等多个电商平台数据,服务全国各地200多万电商从业人员。热爱分享,于2009年联合创办程序员社区TechParty(原珠三角技术沙龙)并担任两届组委主席,于2021年创办中小团队技术管理者和技术专家社区小红花俱乐部,均深受目标群体的喜爱。

精通Python、C++、Java等编程语言和Linux操作系统,熟悉大规模多人在线系统的设计与实现,在大数据方面,对数据收集、清洗、存储、治理、分析等方面有丰富经验,设计和实现了准PB级别的基于MongoDB的电商数据湖系统,对冷热数据分级处理、系统成本控制和数据产品设计研发有一定心得。

曾在《计算机工程》等期刊发表多篇论文,于2014年出版《编写高质量代码:改善Python程序的91个建议》一书。


推荐阅读
  • php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]
  • MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术
    在关系型数据库中,表的设计与SQL语句的编写对性能的影响至关重要,甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧,通过实例分析和优化建议,帮助读者深入理解并掌握这一重要知识点。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 如何在MySQL中选择合适的表空间以优化性能和管理效率
    在MySQL中,合理选择表空间对于提升表的管理和访问性能至关重要。表空间作为MySQL中用于组织和管理数据的一种机制,能够显著影响数据库的运行效率和维护便利性。通过科学地配置和使用表空间,可以优化存储结构,提高查询速度,简化数据管理流程,从而全面提升系统的整体性能。 ... [详细]
  • 一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]
  • 本文介绍如何在将数据库从服务器复制到本地时,处理因外键约束导致的数据插入失败问题。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • MySQL 5.7 学习指南:SQLyog 中的主键、列属性和数据类型
    本文介绍了 MySQL 5.7 中主键(Primary Key)和自增(Auto-Increment)的概念,以及如何在 SQLyog 中设置这些属性。同时,还探讨了数据类型的分类和选择,以及列属性的设置方法。 ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 通过使用Sqoop导入工具,可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言,可以通过在导入命令中添加WHERE子句来指定所需的数据范围,从而在数据库服务器上执行相应的SQL查询,并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性,还确保了数据的准确性和完整性。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • Oracle字符集详解:图表解析与中文乱码解决方案
    本文详细解析了 Oracle 数据库中的字符集机制,通过图表展示了不同字符集之间的转换过程,并针对中文乱码问题提供了有效的解决方案。文章深入探讨了字符集配置、数据迁移和兼容性问题,为数据库管理员和开发人员提供了实用的参考和指导。 ... [详细]
  • MySQL 数据变更后如何实现实时同步至 Elasticsearch
    在 MySQL 数据变更后,如何实现与 Elasticsearch 的实时同步是一个常见的需求。本文介绍了通过配置 MySQL 的 Binlog 功能,结合中间件如 Canal 或 Debezium,将数据变更事件实时捕获并同步到 Elasticsearch 中的方法。此外,还探讨了如何处理数据删除操作,确保 Elasticsearch 中的数据与 MySQL 保持一致。文章还简要对比了 VSCode 和 Dev 两种开发环境的优缺点,为开发者提供参考。 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • 本文介绍了在 Spring Boot 中使用 JPA 进行数据删除操作时遇到的 SQL 错误及其解决方法。错误表现为:删除操作失败,原因是无法打开 JPA EntityManager 以进行事务处理。 ... [详细]
author-avatar
壮丁1987_536
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有