ElasticSearchpinyin分词支持多音字

作者：捕鱼达人2502868831 | 来源：互联网 | 2023-07-27 15:16

ElasticSearchpinyin分词支持多音字背景我们有一个搜索业务底层采用ElasticSearch作为搜索引擎，在索引的过程中，使用了ik中文分词、拼音分词、同义词等多种

ElasticSearch pinyin分词支持多音字

背景

我们有一个搜索业务底层采用ElasticSearch作为搜索引擎，在索引的过程中，使用了ik中文分词、拼音分词、同义词等多种分词器。ES和各种插件的组合已经能满足我们线上90%的需求，但是仍有部分需求无法覆盖，我们在拼音分词的时候过程中就遇到了无法解决的问题。

比如在 三一重工 中，一重 这个词在拼音词库 polyphone.txt 中有对应的词汇，读作 yichong，因此这整个词的读音为 sanyichonggong，但是其真实读音应该为 sanyizhonggong。这是因为在拼音分词过程中会先去词库中检索是否有对应的词汇，没有的话再用单字拼音代替最后拼接在一起。

再比如在 蔚来汽车 中，蔚来 算是一个新词，在拼音词库 polyphone.txt 中没有对应的词汇，因此这个词对应的拼音是每个字的拼音拼接而成，结果为 yulai 。但是其真实读音应该为 weilai, 那么我们的用户就无法通过拼音 weilai 搜索到相关的内容。

经过查看拼音分词源代码发现，拼音分词其实是调用nlp-lang这个项目里的方法实现的分词器。而这个nlp-lang项目中，拼音解析如果遇到多音字仅仅返回第一个拼音，这样很多读音都无法获取到。

if(temp.length()==1){ //单个字取第一个拼音 lists.add(PinyinFormatter.formatPinyin(word.getParam()[0], format)); } else { for (String t : word.getParam()) { lists.add(PinyinFormatter.formatPinyin(t, format)); } }

面对庞大的多音字列表，通过手工维护、修改词汇列表显然无法完全达到目的。

为此，我们决定调整这部分代码满足我们线上业务的需求。

调整

这部分仅仅介绍调整思路，不设计具体代码实现。

1. nlp-lang

拼音分词会调用 nlp-lang 中的一个方法，把中文字符串转换为拼音，获得一个字符串列表

List<String> pinyinList = Pinyin.pinyin(source);

我们在这个基础上新增了一个 multiplePinyin 方法，可以获取多音字所有读音，并且不再检索 polyphone.txt 中的词库对照表。

System.out.println(Pinyin.pinyin("蔚来")) >>> ['yu', 'lai'] System.out.println(Pinyin.multiplePinyin("蔚来")) >>> ['yu wei', 'lai'] System.out.println(Pinyin.pinyin("三一重工")) >>> ['san', 'yi', 'chong', 'gong'] System.out.println(Pinyin.multiplePinyin("三一重工")) >>> ['san', 'yi', 'zhong chong', 'gong']

多音字的多个读音用空格分割。

2. elasticsearch-analysis-pinyin

首先在原来的分词器基础上新增 multiple_pinyin 类型的分词器和过滤器，确保不会影响到之前的拼音分词的功能。

public Map<String, AnalysisModule.AnalysisProvider<org.elasticsearch.index.analysis.TokenFilterFactory>> getTokenFilters() { Map<String, AnalysisModule.AnalysisProvider<org.elasticsearch.index.analysis.TokenFilterFactory>> extra = new HashMap<>(); extra.put("pinyin", PinyinTokenFilterFactory::new); // 新增加的分词类型 extra.put("multiple_pinyin", MultiplePinyinTokenFilterFactory::new); return extra; }

multiple_pinyin的分词器中使用上面新增的 Pinyin.multiplePinyin 方法获取到每个字的多音字。然后根据空格拆分后将所有可能的结果组合在一起。

// pinyin "蔚来" ["yulai"] // multiple_pinyin "蔚来" ["yulai", "weilai"] // pinyin "三一重工" ["sanyichonggong"] // multiple_pinyin "三一重工" ["sanyizhonggong", "sanyichonggong"] // pinyin "厦门重工" (两个多音字：夏、重) ["xiamenzhonggong"] // multiple_pinyin "厦门重工" ["shamenzhonggong", "shamenchonggong", "xiamenzhonggong", "xiamenchonggong"]

问题

因为支持多音字的拼音分词是所有读音可能结果的笛卡尔积，因此当输入的字符串长度过大时，分词的结果可能会特别大。假如输入的字符串中有10个字是多音字，每个字都有2种读音，那么分词结果就有2^10个。可想而之，耗时会非常长。

我们的使用场景中，仅仅针对物品名称进行分词，名称不会很长，暂时没有遇到性能瓶颈。

相关代码

nlp-lang
elasticsearch-analysis-pinyin

推荐阅读

format
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
instance
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
python
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
python
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
string
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
match
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
post
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
select
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
io
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
express
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
string
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
python
探讨Redis的最佳应用场景

本文将深入探讨Redis在不同场景下的最佳应用，包括其优势和适用范围。 ... [详细]

蜡笔小新 2024-11-13 12:35:53
go
关于亚像素运动估计的二次模型6之A Quadratic Prediction Based FractionalPixel Motion Estimation Algorithm for H.264

基于二次预测的H.264分数像素运动估计算法在这项研究中，提出了一种基于二次预测的H.264分数像素运动估计（ME）算法。这里ÿ ... [详细]

蜡笔小新 2024-11-12 17:53:48
python
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
format
如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解

如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]

蜡笔小新 2024-11-01 19:30:32

捕鱼达人2502868831

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章