当前位置: 开发笔记 > 编程语言 > 正文

c语言英文分词,英文分词的算法和原理

作者：等待的承诺灬_231 | 来源：互联网 | 2023-08-14 22:52

英文分词的算法和原理根据文档相关性计算公式分词质量对于基于词频的相关性计算是无比重要的英文(西方语言)语言的基本单位就是单词，所以分词特别容易做，只需要

英文分词的算法和原理

根据文档相关性计算公式

分词质量对于基于词频的相关性计算是无比重要的

英文(西方语言)语言的基本单位就是单词，所以分词特别容易做，只需要3步：

根据空格/符号/段落分隔,得到单词组

过滤，排除掉stop word

提取词干

第一步：按空格/符号分词

用正则表达式很容易

pattern = r&＃39;&＃39;&＃39;(?x) # set flag to allow verbose regexps

([A-Z]\.)+ # abbreviations, e.g. U.S.A.

| \w+(-\w+)* # words with optional internal hyphens

| \$?\d+(\.\d+)?%? # currency and percentages, e.g. $12.40, 82%

| \.\.\. # ellipsis

| [][.,;"&＃39;?():-_`] # these are separate tokens

&＃39;&＃39;&＃39;

re.findall(pattern,待分词文本)

第二步：排除stop word

stopword就是类似a/an/and/are/then 的这类高频词，高频词会对基于词频的算分公式产生极大的干扰，所以需要过滤

第三步：提取词干

词干提取(Stemming) 这是西方语言特有的处理，比如说英文单词有单数复数的变形，-ing和-ed的变形，但是在计算相关性的时候，应该当做同一个单词。比如 apple和apples，doing和done是同一个词，提取词干的目的就是要合并这些变态

Stemming有3大主流算法

Lucene 英文分词自带了3个stemming算法，分别是

EnglishMinimalStemmer

著名的 Porter Stemming

KStemmer

词干提取算法并不复杂，要么是一堆规则，要么用映射表，编程容易，但是必须是这种语言的专家，了解构词法才行啊

Lemmatisation

Lemmatisation是和词干提取(Stemming) 齐名的一个语言学名词，中文可以叫做词形还原 ,就是通过查询字典，把 "drove" 还原到 "drive"

而stemming会把单词变短，"apples","apple"处理之后都变成了 "appl"

做计算机语言学研究才会涉及到lemmatization，我个人觉得做搜索完全可以不考虑，Stemming已经可以解决大问题了

参考

搜索相关度算法公式: BM25

BM25算法的全称是 Okapi BM25，是一种二元独立模型的扩展，也可以用来做搜索的相关度排序。

Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr，只需要修改schema.xml，加入下面这行就可以

BM25也是基于词频的算分公式，分词对它的算分结果也很重要

IDF公式

f(qi,D):就是词频

|D|：[给定文档]D长度。

avgdl:索引中所有文档长度。

抽象点看，BM25的公式其实和TF-IDF公式大同小异，可以也可以当做 = ∑ idf(q) * fx(tf),

只不过，BM25的idf和tf都做了一些变形，特别是tf公式，还加入了两个经验参数k1和b,K1和b用来调整精准度，一般情况下我们取K1=2，b=0.75

至于BM25和TF-IDF 哪种相关性算法更更好，我认为依赖于搜索质量评估标准

参考

Lucene TF-IDF 相关性算分公式

Lucene在进行关键词查询的时候，默认用TF-IDF算法来计算关键词和文档的相关性，用这个数据排序

TF:词频,IDF：逆向文档频率，TF-IDF是一种统计方法，或者被称为向量空间模型,名字听起来很复杂，但是它其实只包含了两个简单规则

某个词或短语在一篇文章中出现的次数越多，越相关

整个文档集合中包含某个词的文档数量越少，这个词越重要

所以一个term的TF-IDF相关性等于 TF * IDF

这两个规则非常简单，这就是TF-IDF的核心规则，第二个的规则其实有缺陷的，他单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用，显然这并不是完全正确的。并不能有效地反映单词的重要程度和特征词的分布情况，比如说搜索web文档的时候，处于HTML不同结构的特征词中对文章内容的反映程度不同，应该有不同的权重

TF-IDF的优点是算法简单，运算速度很快

Lucene为了提高可编程行，在上述规则做了一些扩充，就是加入一些编程接口，对不同的查询做了权重归一化处理，但是核心公式还是TF * IDF

Lucene算法公式如下

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

tf(t in d ), = frequency½

idf(t) = 1 +log(文档总数/(包含t的文档数+1))

coord(q,d) 评分因子,。越多的查询项在一个文档中，说明些文档的匹配程序越高，比如说，查询"A B C",那么同时包含A/B/C3个词的文档是3分，只包含A/B的文档是2分，coord可以在query中关掉的

queryNorm(q)查询的标准查询，使不同查询之间可以比较

t.getBoost() 和 norm(t,d) 都是提供的可编程接口，可以调整 field/文档/query项的权重

各种编程插口显得很麻烦，可以不使用，所以我们可以把Lucence的算分公式进行简化

score(q,d) = coord(q,d) · ∑ ( tf(t in d) · idf(t)2 )

结论

TF-IDF 算法是以 term为基础的，term就是最小的分词单元，这说明分词算法对基于统计的ranking无比重要，如果你对中文用单字切分，那么就会损失所有的语义相关性，这个时候搜索只是当做一种高效的全文匹配方法

按照规则1 某个词或短语在一篇文章中出现的次数越多，越相关一定要去除掉stop word，因为这些词出现的频率太高了，也就是TF的值很大，会严重干扰算分结果

TF和IDF在生成索引的时候，就会计算出来： TF会和DocID保存在一起(docIDs的一部分)，而IDF= 总文档数 / 当前term拥有的docIDs 长度

http://my.oschina.net/bruceray/blog/493317

推荐阅读

default
web页面报表js下载,web报表软件

web页面报表js下载,web报表软件 ... [详细]

蜡笔小新 2024-11-16 18:37:21
jsp
2023年最新解读：PHP中C的作用

本文将详细探讨PHP中C的作用，并对比其他编程语言如Java和C的特点及其适用场景。 ... [详细]

蜡笔小新 2024-11-16 16:14:42
jsp
开发笔记:前端之前端初识

开发笔记:前端之前端初识 ... [详细]

蜡笔小新 2024-11-16 16:05:59
python
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
match
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
python
您的数据库配置是否安全？DBSAT工具助您一臂之力！

本文探讨了Oracle提供的免费工具DBSAT，该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告，DBSAT帮助用户识别潜在的安全漏洞，并提供针对性的改进建议，确保数据库系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-11-11 14:44:47
install
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
install
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
import
利用Java实现WebSocket实时消息推送技术

本文探讨了利用Java实现WebSocket实时消息推送技术的方法。与传统的轮询、长连接或短连接等方案相比，WebSocket提供了一种更为高效和低延迟的双向通信机制。通过建立持久连接，服务器能够主动向客户端推送数据，从而实现真正的实时消息传递。此外，本文还介绍了WebSocket在实际应用中的优势和应用场景，并提供了详细的实现步骤和技术细节。 ... [详细]

蜡笔小新 2024-11-04 15:50:18
python
掌握Android UI设计：利用ZoomControls实现图片缩放功能

本文介绍了如何在Android应用中通过使用ZoomControls组件来实现图片的缩放功能。ZoomControls提供了一种简单且直观的方式，让用户可以通过点击放大和缩小按钮来调整图片的显示大小。文章详细讲解了ZoomControls的基本用法、布局设置以及与ImageView的结合使用方法，适合初学者快速掌握Android UI设计中的这一重要功能。 ... [详细]

蜡笔小新 2024-11-04 14:29:34
python
DedeCMS 常用标签分类及应用

本文整理了 DedeCMS 中常用的标签分类及其具体应用方法，包括标题调用、导航调用、文章列表、子栏目调用、尾部信息调用等。 ... [详细]

蜡笔小新 2024-11-16 19:56:38
int
Linux中使用find与grep进行文件和文本查找

在Linux系统中，find和grep是两个常用的命令，用于文件和文本的查找。本文将详细介绍这两个命令的区别及其常见用法。 ... [详细]

蜡笔小新 2024-11-14 12:58:29
python
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
default
MySQL与MariaDB数据库管理：约束与键操作详解

在关系型数据库中，数据约束是指在向数据表中插入数据时必须遵循的限制条件。在MySQL和MariaDB中，常见的数据约束包括主键约束、唯一键约束、外键约束以及非空约束等。这些约束确保了数据的完整性和一致性，是数据库管理中的重要组成部分。通过合理设置和使用这些约束，可以有效防止数据冗余和错误，提升数据库的可靠性和性能。 ... [详细]

蜡笔小新 2024-11-08 17:17:06

等待的承诺灬_231

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章