当前位置: 开发笔记 > 编程语言 > 正文

中文文本纠错算法走到多远了？

作者：刚辉19861126 | 来源：互联网 | 2023-08-14 16:52

纠错是从互联网起始时就在一直解决的问题，但是一直作为一些重要技术的辅助、附属功能而默默无闻，譬如搜索引擎、譬如火热的智能写作等。素质整理！

纠错是从互联网起始时就在一直解决的问题&＃xff0c;但是一直作为一些重要技术的辅助、附属功能而默默无闻&＃xff0c;譬如搜索引擎、譬如火热的智能写作等。
素质整理&＃xff01;

中文文本纠错任务&＃xff0c;常见错误类型包括&＃xff1a;

谐音字词&＃xff0c;如配副眼睛-配副眼镜
混淆音字词&＃xff0c;如流浪织女-牛郎织女
字词顺序颠倒&＃xff0c;如伍迪艾伦-艾伦伍迪
字词补全&＃xff0c;如爱有天意-假如爱有天意
形似字错误&＃xff0c;如高梁-高粱
中文拼音全拼&＃xff0c;如 xingfu-幸福
中文拼音缩写&＃xff0c;如 sz-深圳
语法错误&＃xff0c;如想象难以-难以想象

目前来看&＃xff0c;纠错算法分为两个方向&＃xff1a;基于规则、深度模型

规则的解决思路

中文纠错分为两步走&＃xff0c;第一步是错误检测&＃xff0c;第二步是错误纠正&＃xff1b;

错误检测部分先通过结巴中文分词器切词&＃xff0c;由于句子中含有错别字&＃xff0c;所以切词结果往往会有切分错误的情况&＃xff0c;这样从字粒度和词粒度两方面检测错误&＃xff0c; 整合这两种粒度的疑似错误结果&＃xff0c;形成疑似错误位置候选集&＃xff1b;

错误纠正部分&＃xff0c;是遍历所有的疑似错误位置&＃xff0c;并使用音似、形似词典替换错误位置的词&＃xff0c;然后通过语言模型计算句子困惑度&＃xff0c;对所有候选集结果比较并排序&＃xff0c;得到最优纠正词。

深度模型的解决思路

端到端的深度模型可以避免人工提取特征&＃xff0c;减少人工工作量&＃xff0c;RNN序列模型对文本任务拟合能力强&＃xff0c;rnn_attention在英文文本纠错比赛中取得第一名成绩&＃xff0c;证明应用效果不错&＃xff1b;

CRF会计算全局最优输出节点的条件概率&＃xff0c;对句子中特定错误类型的检测&＃xff0c;会根据整句话判定该错误&＃xff0c;阿里参赛2016中文语法纠错任务并取得第一名&＃xff0c;证明应用效果不错&＃xff1b;

seq2seq模型是使用encoder-decoder结构解决序列转换问题&＃xff0c;目前在序列转换任务中&＃xff08;如机器翻译、对话生成、文本摘要、图像描述&＃xff09;使用最广泛、效果最好的模型之一。

那么笔者最近刚刚听了百度的纠错算法框架&＃xff0c;就把听到的和之前收集到的一些材料整理如下。

百度智能纠错技术

可参考百度纠错开放平台&＃xff1a;

https://ai.baidu.com/tech/nlp/text_corrector

百度智能纠错体系&＃xff1a;

常见错误分三类&＃xff1a;

用词错误
文法、句法错误
知识错误

百度纠错的整体框架&＃xff1a;

其中核心的关键步骤为&＃xff1a;

1 错误检测
2 候选召回
3 纠错排序

1 错误检测&＃xff1a;

先定位&＃xff0c;一句话中哪些可能是错误的&＃xff01;

2 候选召回

步骤为&＃xff0c;输入句子&＃xff0c;然后检测句子中可能的错误点&＃xff0c;根据两者在亿级别的数据上进行文本召回&＃xff0c;候选对齐

3 纠错排序

召回了一堆&＃xff0c;应该怎么选&＃xff0c;W&D模型

三大核心技术

语言知识、模型

知识计算 - 关联

基于知识图谱的纠错&＃xff0c;基于关联

知识计算 - 文本理解

意图理解之后&＃xff0c;槽位填满了&＃xff0c;根据槽来填错的POI

腾讯&＃xff1a;基于语义关联的中文查询纠错框架

一个好的纠错系统能够将用户输入查询词进行纠错提示, 或者将正确结果直接展示给用户&＃xff0c;提高了搜索引擎的智能化。

对于垂直搜索引擎,尤其是比较小的垂直apps,如何进行查询纠错,文献中基本没有探讨过. 普遍做法是,使用商业搜索引擎中网页搜索训练的纠错模型直接作用在垂直引擎中。但是在我们调研过程中, 发现不同的垂直业务, 用户的检索目的是不一样的&＃xff0c;从而导致纠错的也不是通用的.例如,用户输入”消星星”, 在音乐业务中, 应该纠错成一首歌曲——”小星星”; 而在游戏app分发平台上就应该纠成一个游戏app——”消灭星星”。

文献研究传统文本纠错包含两种类型&＃xff1a;

一种是“单词”错误的纠错类型
另外一种是“词条搭配”的错误类型

早期的纠错一般是第一种,使用编辑距离进行相近查找&＃xff1b;

第二种错误类型&＃xff0c;通过探测query中词条的上下文搭配来判定是否存在错误&＃xff0c;使用噪音信道和语言模型作为纠错的主要方法。例如, “peace” and “piece"在上下文"a _ of cake"中只能用"piece”。英文中也有将二者结合训练模型进行预测&＃xff0c;进行单词字符的纠错。

语义关联在垂直app和web页面中&＃xff0c;资源数据之间不是孤立的&＃xff0c;而是存在着某种联系。

我们先看一些例子&＃xff0c;音乐app中&＃xff0c;歌手“吴俊余”演唱过歌曲“17岁的雨季”&＃xff0c;这两个数据资源就是一种“演唱”关系&＃xff1b;在视频app中&＃xff0c; 电视台“湖南卫视”制作了一档娱乐节目“变形计”&＃xff0c;这两个数据资源是一种“制作”关系。

同样的道理&＃xff0c;音乐业务中还存在&＃xff0c;歌手“演唱”歌曲&＃xff0c; 歌手“发行”专辑&＃xff0c;专辑“包含”歌曲等&＃xff1b;在视频业务中&＃xff0c;导演“拍摄”电影&＃xff0c;演员“出演”电影&＃xff0c;演员“出演”娱乐节目&＃xff0c;导演“拍摄”电视剧等&＃xff1b;在小说业务中&＃xff0c;作者“创作”小说&＃xff0c;小说“包含”主人公等。

定义1&＃xff1a;资源数据——在垂直业务中&＃xff0c;数据会分为若干的分类&＃xff0c;每个类别中可以单独表述完整意义的词条。例如&＃xff0c;音乐业务中&＃xff0c;歌曲、歌手、专辑、mv、歌词这些类别覆盖的数据都是资源数据。

-定义2&＃xff1a;数据关联——如果两个资源数据存在着某种关系&＃xff0c;则这两个资源数据就存在数据关联。

-定义3&＃xff1a;关联热度——两个关联资源共同被作用的频次。例如&＃xff0c;两个被共同点击的次数&＃xff0c;或者在web中出现在同一段话中的频次等。

关联挖掘

传统的知识图谱是由三元组&＃xff08;spo&＃xff09;组成&＃xff0c;关联挖掘最大的差异是&＃xff0c;只需要挖掘存在一定关系的两个数据&＃xff0c;不需要记录非常明确的关系。大致流程如下&＃xff1a;
一是对句子进行句法分析&＃xff0c;从句法树中查找主语&＃xff08;s&＃xff09;、谓语&＃xff08;p&＃xff09;、宾语&＃xff08;o&＃xff09;三个部分&＃xff0c;选取主语&＃xff08;s&＃xff09;和宾语&＃xff08;o&＃xff09;作为候选关联数据&＃xff1b;
其次是结合垂直数据和query logs对候选进行统计&＃xff0c;筛选频度较高的放入关联数据集合。

关联纠错在分析query logs中&＃xff0c;发现一个有意思的现象&＃xff1a;

很多查询串往往包含两个或多个资源片段&＃xff0c;并且这些query错误比例很高。分析原因应该是用户输入多个片段是为了得到一条明确的结果&＃xff0c;而不愿意拿到一个结果列表&＃xff1b;
而错误比例较高应该是用户记忆比较模糊&＃xff0c;希望使用两个或多个资源片段的关联关系得到明确的结果。但是如果其中一个片段或者多个片段存在错误&＃xff0c;则结果会非常差&＃xff0c;因为这些片段自身可能都代表一个正确的资源。

例如&＃xff0c;视频app中query“变形记湖南卫视”&＃xff0c;包含两个资源片段&＃xff0c;电影“变形记”&＃xff0c;电视台“湖南卫视”&＃xff0c;两个资源都是正确的&＃xff0c;而这两个资源没有任何关系&＃xff0c;这种情况可能存在错误&＃xff0c;用户真正想要的是“湖南卫视”的一档娱乐节目“变形计”&＃xff0c;正确纠错形式应该是“变形记湖南卫视”->“变形计湖南卫视”。音乐app中更多例子如下&＃xff1a;

关联纠错就是使用数据之间的关联关系&＃xff0c;对用户输入的多个资源片段判定是否存在错误&＃xff0c;继而进行纠错处理。因为每一个资源片段可能都是正确的资源&＃xff0c;纠错的目的是寻找多个片段的是否存在语义关联&＃xff0c;所以这种纠错是一种新的纠错类型。

我们将整个过程分为三个步骤&＃xff1a;

第一步&＃xff0c;片段切分。将整个query切分成一些可以独立表达的语义片段&＃xff0c;切分过程中尽量保证资源的完整性。
第二步&＃xff0c;片段之间计算是否存在关联关系。如果存在关联关系则退出&＃xff0c;否则对每个片段查找候选结果。算法使用噪音信道模型&＃xff0c;从看到的query output(O)&＃xff0c;推测正确的候选 input(i),取得分最高的若干最为候选。
第三步&＃xff0c;将每个片段的候选结果进行拼接&＃xff0c;拼接后可能有多个串&＃xff0c; 使用关联关系计算得分&＃xff0c;返回得分最高的一个作为纠错结果。算法表述如下&＃xff0c;假设一个query拆分成两个片段S1和S2对应的纠错串和算任意两两组合得分&＃xff0c;其中u(si)、u(sj)分别代表S1和S2基于噪音信道模型计算的得分&＃xff0c;f(si,sj)表示si和sj在关联数据中的热度&＃xff0c;f(si)、f(sj)分别代表si和sj自身的热度。取得分最高的1组作为最终结果。

数据集合我们选取一个垂直app——QQ music来验证我们的算法&＃xff0c;qq music是腾讯公司推出的中文最大的网络音乐平台&＃xff0c;每天约6000w左右的搜索量。从一个月的query logs中&＃xff0c;随机抽取3w条query&＃xff0c;分别抓取baidu网页搜索纠错结果和自身纠错结果&＃xff0c; 取两个纠错结果的并集共3.1k&＃xff0c;进行人工标注&＃xff0c;其中有200条存在关联纠错&＃xff0c;作为实验的数据集合。

抓取baidu网页搜索的纠错结果&＃xff0c;主要是为了对比垂直纠错框架和网页搜索纠错效果进行对比&＃xff0c;而baidu是中文网页搜索中最权威的。

人工测评在3.1k数据集合上和网页纠错对比&＃xff0c;召回提高了28.5%&＃xff0c;F1提高了0.26。在200条存在关联纠错的集合上&＃xff0c;我们的方法召回提高42.4%&＃xff0c;F1提高了0.39.说明我们的垂直通用纠错框架&＃xff08;DCQC&＃xff09;和关联纠错算法能够明显胜出网页搜索的纠错结果,也证明了垂直业务需要搭建自身纠错系统的必要性。

Webpage vs domain &＃xff08;ALL data set&＃xff09;

Semantic Association Correction &＃xff08;small data set&＃xff09;

线上用户点击对线上流量进行随机切分三分&＃xff0c;每一份代表一种纠错算法&＃xff0c;使用用户的真实点击数据进行对比。为了排除排序位置的影响&＃xff0c;只取第一条结果的点击数据进行分析。实验证明&＃xff0c;和原始query相比&＃xff0c;网页纠错后用户点击率提高2%&＃xff0c;我们的框架能够提高8.4%&＃xff0c; 效果更为明显。

中文纠错的开源项目

pycorrector

https://github.com/shibing624/pycorrector
https://shibing624.github.io/pycorrector/

本项目的初衷之一是比对、共享各种文本纠错方法&＃xff0c;抛砖引玉的作用&＃xff0c;如果对大家在文件纠错任务上有一点小小的启发就是我莫大的荣幸了。

主要使用了4种深度模型应用于文本纠错任务&＃xff0c;分别是前面模型小节介绍的rnn_attention、rnn_crf、seq2seq、seq2seq_attention&＃xff0c;每种方法单独放在文件夹中&＃xff0c; 都可以独立运行&＃xff0c;相互之间无依赖。

demo地址&＃xff1a;

https://www.borntowin.cn/product/corrector/

Chinese “spelling” error correction

https://github.com/ccheng16/correction

特点&＃xff1a;

训练的语言模型很多&＃xff0c;根据介绍看&＃xff0c;整体比较完善&＃xff0c;看起来高大上。不过code跑不起来&＃xff0c;作者没回应—–后面再改一下作者代码&＃xff0c;看看能否跑起来。

中文单词自动纠错Cn_Speck_Checker

https://github.com/PengheLiu/Cn_Speck_Checker

简介&＃xff1a;

针对医学数据训练出来的&＃xff0c;基于编辑距离&＃xff0c;可自行训练–效果一般&＃xff0c;统计词频和共现信息&＃xff0c;不太完善&＃xff0c;返回大量candidates

特点&＃xff1a;

· 人们通常越往后字打错的可能越大&＃xff0c;因而可以考虑每个字在单词中的位置给予一定权重&＃xff0c;这中方法有助于改进上面的第一种“传然”&＃xff0d; "虽然"的情况&＃xff1b;

· 考虑拼音的重要性&＃xff0c;对汉语来讲&＃xff0c;通常人们打错时拼音是拼对的&＃xff0c;只是选择时候选择错了&＃xff0c;因而对候选词也可以优先选择同拼音的字。

京东&＃xff1a;简易的中文纠错和消歧

https://github.com/taozhijiang/chinese_correct_wsd

京东客服机器人语料做的中文纠错–更接近我们的应用场景&＃xff0c;主要解决同音自动纠错问题&＃xff0c;比如&＃xff1a;

对京东新人度大打折扣 – > 对京东信任度大打折扣

我想买哥苹果手机纠正句:我想买个苹果手机

但代码四年未更新&＃xff0c;目前跑不起来。

Autochecker & autocorrecter for chinese

https://github.com/beyondacm/Autochecker4Chinese

单词、短句效果&＃xff1a;5/13 效果差

速度&＃xff1a;2.860311 all &＃xff0c; 0.220023 avg&＃xff1b; with print

可扩展性&＃xff1a;词典可扩展&＃xff0c;不使用自己的语料进行训练。扩展性一般。

小明NLP

提供中文分词, 词性标注, 拼写检查&＃xff0c;文本转拼音&＃xff0c;情感分析&＃xff0c;文本摘要&＃xff0c;偏旁部首

https://github.com/SeanLee97/xmnlp

单词、短句效果&＃xff1a;3/13 效果差

速度&＃xff1a;2.860311 all &＃xff0c; 0.220023 avg&＃xff1b; without print: 0:00:00.000017 all

可扩展性&＃xff1a;既没发现词典、也没发现模型。扩展性较差。

云查错 - 智能查错

http://www.yunchacuo.com/

参考文献&＃xff1a;

基于语义关联的中文查询纠错框架
https://cloud.tencent.com/developer/article/1030059

中文文本纠错算法–错别字纠正的二三事
https://zhuanlan.zhihu.com/p/40806718

pycorrector文档
https://shibing624.github.io/pycorrector/

推荐阅读

default
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
get
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
text
每日前端实战：148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果

通过点击页面右侧的“预览”按钮，您可以直接在当前页面查看效果，或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性，观众可以实时调整代码并观察变化。访问以下链接体验完整效果：https://codepen.io/comehope/pen/yRyOZr。 ... [详细]

蜡笔小新 2024-11-07 14:24:29
get
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
get
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
get
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
get
C++实现的键盘输入记录程序源代码分析与应用

本文详细解析了使用C++实现的键盘输入记录程序的源代码，该程序在Windows应用程序开发中具有很高的实用价值。键盘记录功能不仅在远程控制软件中广泛应用，还为开发者提供了强大的调试和监控工具。通过具体实例，本文深入探讨了C++键盘记录程序的设计与实现，适合需要相关技术的开发者参考。 ... [详细]

蜡笔小新 2024-11-10 15:44:03
数组
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
audio
汽车电子架构与CAN网络基础解析——鉴源实验室专业解读

汽车电子架构与CAN网络基础解析——鉴源实验室专业解读 ... [详细]

蜡笔小新 2024-11-06 14:10:48
get
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
get
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17
char
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
default
汇集开发者必备的实用参考网站与链接资源

为开发者提供了一系列实用的参考网站和资源链接，包括HTML速查手册（和），帮助开发者快速查找和学习相关技术知识。此外，还涵盖了其他重要的开发工具和文档，为编程工作提供全面支持。 ... [详细]

蜡笔小新 2024-11-08 12:23:08
get
【整理】JavaScript中DOM操作全面解析与实践指南

本文全面解析了JavaScript中的DOM操作，并提供了详细的实践指南。DOM节点（Node）通常代表一个标签、文本或HTML属性，每个节点都具有一个nodeType属性，用于标识其类型。文章深入探讨了DOM节点的创建、查询、修改和删除等操作，结合实际案例，帮助读者更好地理解和掌握DOM编程技术。 ... [详细]

蜡笔小新 2024-11-07 19:20:50
controller
Java分层设计模式：详解与应用

在Java分层设计模式中，典型的三层架构（3-tier application）将业务应用细分为表现层（UI）、业务逻辑层（BLL）和数据访问层（DAL）。这种分层结构不仅有助于提高代码的可维护性和可扩展性，还能有效分离关注点，使各层职责更加明确。通过合理的设计和实现，三层架构能够显著提升系统的整体性能和稳定性。 ... [详细]

蜡笔小新 2024-11-07 17:14:51

刚辉19861126

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章