python自然语言处理入门新手上路新手上路摘要自然语言处理（NaturalLanguageProcessing，NLP）...

作者：手机用户2702932807 | 来源：互联网 | 2023-09-23 21:44

新手上路博主微信公众号（左）、Python+智能大数据+AI学习交流群（右）：欢迎关注和加群，大家一起学习交流，共同进步！目录1. 自然语言与编程语言2. 自然语言处理的层次2.2

新手上路

博主微信公众号（左）、Python+智能大数据+AI学习交流群（右）：欢迎关注和加群，大家一起学习交流，共同进步！

摘要

自然语言处理（Natural Language Processing，NLP）是一门融合了计算机科学、人工智能以及语言学的交叉学科。它们的关系如图 1-1 所示。这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标——理解人类语言或人工智能。

1. 自然语言与编程语言

	自然语言	自然语言示例	编程语言	编程语言示例
词汇量	词汇丰富，无穷无尽，几乎没有意义完全相同的词语。	《现代汉语常用词表（草案）》一共收录了 56008 个词条。除此之外，我们还可以随时创造各种类型的新词，而不仅限于名词。	关键词数量是有限且确定的。	C 语言一共有 32 个关键字； Java 语言一共有 50 个关键字。
结构化	非结构化	给定一句话 “苹果的创始人是乔布斯，它的 logo 是苹果”，计算机需要分析出如下结论：这句汉语转换为单词序列后，应该是 “苹果的创始人是乔布斯，它的 logo 是苹果”； # 中文分词第一个 “苹果” 指的是苹果公司，而第二个 “苹果” 指的是带缺口的苹果 logo； # 命名实体识别 “乔布斯” 是一个人名； # 命名实体识别 “它” 指代的是苹果公司； # 指代消解苹果公司与乔布斯之间的关系是 “的创始人是”，与带缺口的苹果 logo 之间的关系为 “的 logo 是”。 # 关系抽取	结构化	编程语言中的类与成员、数据库中的表与字段，都可以通过明确的机制来读写。
歧义性	含有大量歧义	汉语中的多义词，只有在特定的上下文中才能确定其含义。	不存在歧义性	如果程序员无意中写了有歧义的代码，比如两个函数的签名一样，则会触发编译错误。
容错性	容错性强	一句话中错别字、病句、不规范的标点符号等错误的存在，人们还是可以猜出它想表达的意思。	容错性弱	必须保证拼写绝对正确、语法绝对规范，否则要么出现编译器的错误警告，要么造成潜在的 bug。
易变性	不断变化发展的，变化相对迅速嘈杂	自然语言不是由某个个人或组织发明或指定标准的。我们每个人都可以自由创造和传播新词汇和新用法，也在不停地赋予旧词汇以新含义，导致古代汉语和现在汉语相差巨大。汉语不断吸收英语和日语等外语中的词汇，并且也在输出 niubility 等中式英语。	变化缓慢温和	编程语言由某个个人或组织发明并且负责维护。语言标准的变化通常以年或季度为单位的迁越过程，且新版本大致做到了对旧版的兼容，只有少数废弃掉的特性。
简略性	简洁、干练	“老地方见”，不必指出 “老地方” 在哪里。使用 “工行”、“地税局” 等简称。如果上文提出一个对象作为话题，则下文经常使用代词。	复杂、冗余	需要写很多很复杂的代码，才能完成一个功能项。

2. 自然语言处理的层次

2.1 语音、图像和文本

自然语言处理系统的输入源一共有 3 个，即语音、图像与文本。将语音和图像经过识别后转化为文本，就可以进行后续的 NLP 任务。

语音识别（Speech Recognition）：将语音经过识别处理后转化为文本，再进行接下来的处理的过程，称为 语音识别 （Speech Recognition）。

图像识别（Optical Character Recognition）：将图像经过识别处理后转化为文本，再进行接下来的处理的过程，称为 图像识别 （Optical Character Recognition）。

2.2 中文分词、词性标注和命名实体识别

中文分词：将文本分割为有意义的词语。

词性标注：确定每个词语的类别和浅层的歧义消除。

命名实体识别：识别出一些较长的专有名词。

词法分析：中文分词、词性标注、命名实体识别 3 个任务都是围绕词语进行的，统称为 词法分析 。词法分析的主要任务是将文本分割为有意义的词语（ 中文分词 ），确定每个词语的类别和浅层的歧义消除（ 词性标注 ），并且识别出一些较长的专有名词（ 命名实体识别 ）。

2.3 信息抽取

词法分析之后，文本已经呈现出部分结构化的趋势，根据分析出来的单词列表和附有自己词性及其他标签的单词，抽取出一部分有用的信息（高频词、关键词、公司名词、专业术语等），也可以根据词语之间的统计学信息抽取出更大颗粒度的文本（关键短语、句子）。

2.4 文本分类和文本聚类

文本分类：把许多文档分门别类地整理出来（知道一段话是褒义还是贬义的；判断一封邮件是否是垃圾邮件），此时的 NLP 任务称为 文本分类 。

文本聚类：把相似的文本归档到一起，或者排除重复的文档，而不关心具体类别，此时的 NLP 任务称作 文本聚类 。

2.5 句法分析

以 “查询刘医生主治的内科病人” 这句话为例，句法分析结果如图 1-3 所示。

n：名词；nr：人名；v：动词；vn：；

句法分析应用场景：问答系统、搜索引擎、基于短语的机器翻译，给译文的词语重新排序（中文 “我吃苹果” 翻译为日文则是 “私は（我）りんごを（苹果）食べる（吃）”）。

2.6 语义分析和篇章分析

词义消歧：确定一个词在语境中的含义，而不是简单的词性。

语义角色标注：标注句子中的谓语与其他成分的关系。

语义依存分析：分析句子中词语之间的语义关系。

相较于句法分析，语义分析侧重语义而非语法。它包含 词义消歧 （确定一个词在语境中的含义，而不是简单的词性）、 语义角色标注 （标注句子中的谓语与其他成分的关系）、 语义依存分析 （分析句子中词语之间的语义关系）。

2.7 其他高级任务

自动问答，根据知识库或文本中的信息直接回答一个问题，比如微软的 Cortana 和苹果的 Siri。

自动摘要，为一篇长文档生成简短的摘要。

机器翻译，将一句话从一种语言翻译到另一种语言。

推荐阅读

io
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
web
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新 2024-12-12 17:45:26
io
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
default
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
io
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
io
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
import
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
import
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27
io
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
io
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
io
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15
web
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
io
Python并行处理：提升数据处理速度的方法与实践

本文探讨了如何利用Python进行数据处理的并行化，通过介绍Numba、多进程处理以及Pandas DataFrame上的并行操作等技术，旨在帮助开发者有效提高数据处理效率。 ... [详细]

蜡笔小新 2024-12-14 11:30:03
command
Windows 多进程通信API总结

在一个大型的应用系统中，往往需要多个进程相互协作，进程间通信(IPC,InterProcessCommunication)就显得比较重要了。在Linux系统中，有很多种IPC机制， ... [详细]

蜡笔小新 2024-11-30 13:13:03
io
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12

手机用户2702932807

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章