热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【机器学习】自然语言处理中的关键技术

目录参考分词规则分词统计分析深度学习分词混合分词词性标注的定义命名实体识别深度学习NER关键词提取TF-IDF算法TextRank算法LSALSILDA算法LSA\LSI算法LDA

目录

    • 参考
    • 分词
      • 规则分词
      • 统计分析
      • 深度学习分词
      • 混合分词
    • 词性标注的定义
    • 命名实体识别
      • 深度学习NER
    • 关键词提取
      • TF-IDF算法
      • TextRank算法
      • LSA/LSI/LDA算法
      • LSA\LSI算法
      • LDA算法


参考

华为云学院

分词

中文分词(Chinese Word Segmentation):指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元

规则分词

规则分词:一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:
(1)正向最大匹配法(Maximum Match Method,MM法)
(2)逆向最大匹配法(Reverse Maximum Match Method,RMM法)
(3)双向最大匹配法(Bi-direction Match Method,MM法)
特点:简单高效,词典维护困难。网络新词层出不穷,词典很难覆盖所有词。

统计分析

将分词作为字在字串中的序列标注任务来实现。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。
在这里插入图片描述
步骤:
(1)建立统计语言模型
(2)对句子进行单词划分,然后对结果进行概率计算,获得概率最大的分词方式。如隐马尔科夫(HMM)、条件随机场(CRF)等。

深度学习分词

使用word2vec对词料的词进行嵌入,得到词嵌入后,用词嵌入特征输入给双向LSTM,对输出的隐层加一个线性层,然后加一个CRF得到最终实现的模型。
在这里插入图片描述

混合分词

在实际工程应用中,多是基于一种分词算法,最常用的是先基于词典的方式分词,再用统计分词方式进行辅助。

词性标注的定义

词性标注是指为分词结果中的每个单词标注一个正确的词性的过程。比如一个词是名词、动词、形容词或其他词性。
词性:词汇基本的语法属性。
目的:是很多NLP任务的预处理步骤,如句法分析、信息抽取,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺。
方法:基于规则的方法、基于统计的方法、基于深度学习的方法。

命名实体识别

命名实体识别(Named Entities Recognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
NER研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。
与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
步骤:(1)实体边界识别。(2)确定实体类别(人名、地名、机构名)
难点:(1)各类命名实体的数量众多。(2)命名实体的构成规律复杂。(3)嵌套情况复杂。(4)长度不确定

深度学习NER

在这里插入图片描述

关键词提取

关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。
关键词提取算法一般也可以分为有监督和无监督两类。
有监督:通过分类的方式进行,通过构建一个较为丰富和完善 的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。
无监督:不需要人工生成、维护的词表,不要人工标准语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)

TF-IDF算法

词频-逆文档频率算法(Term Frequency-Inverse Document Frequency,TF-IDF):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。
在这里插入图片描述

TextRank算法

TextRank算法的基本思想来源于Google的PageRank算法。PR算法用来评价搜索系统覆盖网页重要性的一种方法。其基本思想有两条:
(1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要。
(2)链接质量。一个网页被一个越高权重的网页链接,也能说明这个网页重要。
在这里插入图片描述

LSA/LSI/LDA算法

主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们串联起来,这个维度称为主题。每个文档都应该你对应着一个或者多个主题,而每个主题都会有对应的词分布,通过主题可以得到每个文档的词分布。
在这里插入图片描述

LSA\LSI算法

在这里插入图片描述

LDA算法

在这里插入图片描述
在这里插入图片描述


推荐阅读
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有