nlp推荐算法,nlp新技术研究

作者：虛情徦噫d_951 | 来源：互联网 | 2023-08-07 22:33

NLP底层任务----分词算法简介NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析（还包括词性标注和命名实体识别）中最基本的任务，可以说既简单又复杂

NLP下级任务----分词算法概要NLP的下级任务从难到难依次为3358www.Sina.com/、词法分析、句法分析和3358 www.com语义分析(也包括词性标注和命名实体识别)中最基本的任务可以说是简单而复杂的。

说简单是因为分词算法的研究已经成熟，大部分精度可以达到95%以上。说复杂是因为剩下的5%很难突破。主要从三个方面来说：

粒度根据APP不同对粒度的要求也不同。例如，“苹果手机”既是一个词也是两个词的歧义。比如“雨天留人留天我不留下”的未录入语，比如“skrrr”、“打call”等新词，但在实际APP中，由于这些难点，分词效果较差，会影响后续任务对于追求算法表达的童鞋，不仅要了解分词是词法分析，还要了解这些基础技术，在真正工业水平的应用中具有调整分词器的能力。

它介绍了常用的调分词包(不仅包括机器学习和神经网络，还包括动态规划等)及其中心思想。

分词算法为分词算法其分词算法主要为核心思想

第一，根据词典的分词，先把句子按照词典切成单词，然后寻找单词的最佳组合方式；

二是根据词的分词，即词构词，将句子分成一个词，然后合成词群，寻找最佳切分策略，同时可以转化为序列标注问题。

毕竟，上述两种方法都可以归结为在图表或概率图上寻找最短路径的问题。其次，以“分为两种”一词为例，分别说明不同分词算法的核心思想。

一、基于词典的分词1 .最大匹配分词算法他说的确实在理寻找最佳组合的方法是组合匹配的最长词。的主要思想为最大匹配分词，也称为先将词典构造成一棵Trie树，如下图所示。

树由单词的公共前缀组成节点，在减少存储空间的同时提高搜索效率。最大匹配分词使句子与Trie树匹配，并在与根节点匹配时从下一个单词开始重新开始搜索。例如，如果将“他说的确实有道理”正向(从左向右)匹配，就会得到“他/说/确实/真实/理”的结果。如果进行反方向最大匹配，则为“其他/说/的/确实/在理”。

这样，词典分词可以在o(n )时间对句子进行分词，但效果很差，实际上几乎没有使用这种方法。

2 .最短路径分词算法最短路径分词算法首先匹配一句中的所有词，组成词图(有向图DAG )，然后以寻找从起点到终点的最短路径为最优组合方式，引用《统计自然语言处理》图。

因为认为图中各词的权重相等，所以各边的权重为1。

在解决DAG图的最短路径问题时，必须始终利用两点间的最短路径中也包含路径上其他顶点间的最短路径这一性质。例如，在S-A-B-E是从s到e的最短路径的情况下，S-A-B一定是从s到b的最短路径。否则，由于c而存在d(s-c-b ) d ) S-A-B )，从s到e的最短路径也变为S-C-B-E。这与假设相矛盾。利用上述最佳子结构性质，可以利用贪婪算法或动态规划两种求解算法：

基于33558www.Sina.com/Dijkstra算法求解最短路径。该算法应用于所有加权有向图，可求解从源节点到所有其他节点的最短路径，进而求得全局最优解。戴克斯特拉本质上是贪婪算法，每一步去当前路径最短的节点，递归更新从原节点到其他节点的距离。针对目前的问题，Dijkstra算法的计算结果是“其他/说/的/确实/在理”。可见最短路径分词算法可以满足部分分词的要求。但是，存在多个距离相同的最短路径时，Dijkstra只保存1条，对其他路径不公平，也缺乏理论依据。

字典树N-最短路径分词是对Dijkstra算法的扩展，每一步保存最短的n条路径，记录这些路径上当前节点的前驱，最后求解最优解时得到最短路径。该方法的精度优于Dijkstra算法，但在时间和空间上都很复杂。

在基于n-gram model的分词算法前文的单词图中，边的权重都是1。虽然在现实中是不同的，但常用词的出现频率/概率肯定比罕见词更大。因此，求单词图最短路径的问题可以转换为求最大概率路径的问题，即分词结果为“最可能的单词组合”。要计算单词出现的概率，仅有词典是不够的，还需要足够的词汇。因此分词任务从单纯的“算法”上升到了“建模”，即运用统计学方法结合大数据挖掘对“语言”进行建模的“建模”。

语言模型的目的是构建一句话出现的概率p(s )，从条件概率公式中可以看出以下内容。

另一方面，要真正计算“他说的是肯定的”出现的概率，上述所有形式都必须计算n=1，…，6这样的概率，计算量太庞大，我们来近似考虑一下。

其中wi是字或单词。我们把上述模型做成二元语言模型(2-g )

ram model)。类似的，如果只对词频进行统计，则为一元语言模型。由于计算量的限制，在实际应用中n一般取3。

我们将基于词的语言模型所统计出的概率分布应用到词图中，可以得到词的概率图：

对该词图用2.中的算法求解最大概率的路径，即可得到分词结果。

二. 基于字的分词

与基于词典的分词不同的是，基于字的分词事先不对句子进行词的匹配，而是将分词看成序列标注问题，把一个字标记成B(Begin), I(Inside), O(Outside), E(End), S(Single)。因此也可以看成是每个字的分类问题，输入为每个字及其前后字所构成的特征，输出为分类标记。对于分类问题，可以用统计机器学习或神经网络的方法求解。

统计机器学习方法通过一系列算法对问题进行抽象，进而得到模型，再用得到的模型去解决相似的问题。也可以将模型看成一个函数，输入X，得到f(X)=Y。另外，机器学习中一般将模型分为两类：生成式模型和判别式模型，两者的本质区别在于X和Y的生成关系。生成式模型以“输出Y按照一定的规律生成输入X”为假设对P(X,Y)联合概率进行建模；判别式模型认为Y由X决定，直接对后验概率P(Y|X)进行建模。两者各有利弊，生成模型对变量的关系描述更加清晰，而判别式模型容易建立和学习。下面对几种序列标注方法做简要介绍。

1. 生成式模型分词算法

生成式模型主要有n-gram模型、HMM隐马尔可夫模型、朴素贝叶斯分类等。在分词中应用比较多的是n-gram模型和HMM模型。如果将2.1.3中的节点由词改成字，则可基于字的n-gram模型进行分词，不过这种方法的效果没有基于词的效果要好。

HMM模型认为在解决序列标注问题时存在两种序列，一种是观测序列，即人们显性观察到的句子，而序列标签是隐状态序列，即观测序列为X，隐状态序列是Y，因果关系为Y->X。因此要得到标注结果Y，必须对X的概率、Y的概率、P(X|Y)进行计算，即建立P(X,Y)的概率分布模型。例句的隐马尔科夫序列如下图：

HMM模型是常用的分词模型，基于Python的jieba分词器和基于Java的HanLP分词器都使用了HMM。要注意的是，该模型创建的概率图与上文中的DAG图并不同，因为节点具有观测概率，所以不能再用上文中的算法求解，而应该使用Viterbi算法求解最大概率的路径。

2. 判别式模型分词算法

判别式模型主要有感知机、SVM支持向量机、CRF条件随机场、最大熵模型等。在分词中常用的有感知机模型和CRF模型：

平均感知机分词算法

感知机是一种简单的二分类线性模型，通过构造超平面，将特征空间（输入空间）中的样本分为正负两类。通过组合，感知机也可以处理多分类问题。但由于每次迭代都会更新模型的所有权重，被误分类的样本会造成很大影响，因此采用平均的方法，在处理完一部分样本后对更新的权重进行平均。

CRF分词算法

CRF可以看作一个无向图模型，对于给定的标注序列Y和观测序列X，对条件概率P(Y|X)进行定义，而不是对联合概率建模。CRF可以说是目前最常用的分词、词性标注和实体识别算法，它对未登陆词有很好的识别能力，但开销较大。

3. 神经网络分词算法

在NLP中，最常用的神经网络为循环神经网络（RNN，Recurrent Neural Network），它在处理变长输入和序列输入问题中有着巨大的优势。LSTM为RNN变种的一种，在一定程度上解决了RNN在训练过程中梯度消失和梯度爆炸的问题。双向（Bidirectional）循环神经网络分别从句子的开头和结尾开始对输入进行处理，将上下文信息进行编码，提升预测效果。

目前对于序列标注任务，公认效果最好的模型是BiLSTM+CRF。结构如图：

利用双向循环神经网络BiLSTM，相比于上述其它模型，可以更好的编码当前字等上下文信息，并在最终增加CRF层，核心是用Viterbi算法进行解码，以得到全局最优解，避免B,S,E这种标记结果的出现。

三. 分词算法中的数据结构

前文主要讲了分词任务中所用到的算法和模型，但在实际的工业级应用中，仅仅有算法是不够的，还需要高效的数据结构进行辅助。

1. 词典

中文有7000多个常用字，56000多个常用词，要将这些数据加载到内存虽然容易，但进行高并发毫秒级运算是困难的，这就需要设计巧妙的数据结构和存储方式。前文提到的Trie树只可以在O(n)时间完成单模式匹配，识别出“的确”后到达Trie树对也节点，句子指针接着指向“实”，再识别“实在”，而无法识别“确实”这个词。如果要在O(n)时间完成多模式匹配，构建词图，就需要用到Aho-Corasick算法将模式串预处理为有限状态自动机，如模式串是he/she/his/hers，文本为“缥缈的指甲油”。构建的自动机如图：

这样，在第一次到叶节点5时，下一步的匹配可以直接从节点2开始，一次遍历就可以识别出所有的模式串。

对于数据结构的存储，一般可以用链表或者数组，两者在查找、插入和删除操作的复杂度上各有千秋。在基于Java的高性能分词器HanLP中，作者使用双数组完成了Trie树和自动机的存储。

2. 词图

图作为一种常见的数据结构，其存储方式一般有两种：

邻接矩阵

邻接矩阵用数组下标代表节点，值代表边的权重，即d[i][j]=v代表节点i和节点j间的边权重为v。如下图：

用矩阵存储图的空间复杂度较高，在存储稀疏图时不建议使用。

邻接表

邻接表对图中的每个节点建立一个单链表，对于稀疏图可以极大地节省存储空间。第i个单链表中的节点表示依附于顶点i的边，如下图：

在实际应用中，尤其是用Viterbi算法求解最优路径时，由于是按照广度优先的策略对图进行遍历，最好是使用邻接表对图进行存储，便于访问某个节点下的所有节点。

四. 总结

分词作为NLP底层任务之一，既简单又重要，很多时候上层算法的错误都是由分词结果导致的。
因此，对于底层实现的算法工程师，不仅需要深入理解分词算法，更需要懂得如何高效地实现。而对于上层应用的算法工程师，在实际分词时，需要根据业务场景有选择地应用上述算法，比如在搜索引擎对大规模网页进行内容解析时，对分词对速度要求大于精度，而在智能问答中由于句子较短，对分词的精度要求大于速度。

推荐阅读

数组
AI 学习路线：从Python开始机器学习

AI 学习路线：从Python开始机器学习 ... [详细]

蜡笔小新 2024-09-28 14:04:30
数组
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
int
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
int
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
range
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
range
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
int
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
int
高清图解：神经网络、机器学习、数据科学一网打尽

|导|读BY：AI-Beetle完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实 ... [详细]

蜡笔小新 2024-10-09 13:33:56
int
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55
数组
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
数组
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
int
如何构建和优化自定义Python模块

构建和优化自定义Python模块并不复杂，因为每个Python程序本质上都是一个模块。通过合理的设计和优化，可以提高模块的可重用性和可维护性。本文将详细介绍如何创建自定义模块，并提供实用的优化技巧，帮助开发者提升代码质量和开发效率。 ... [详细]

蜡笔小新 2024-10-25 16:12:49
int
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
int
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
int
深度学习与人工智能书籍推荐（从小白到大神）

概述本书单分为“通识篇”、“机器学习篇”、“深度学习篇”、“深度学习框架篇”、“神经网络篇”、“自然语言处理篇”、“特征工程篇”以及“计算机视觉篇”，“通识篇”可以满足题主的要求！ ... [详细]

蜡笔小新 2024-09-29 12:39:01

虛情徦噫d_951

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章