当前位置: 开发笔记 > 编程语言 > 正文

深度学习下，中文分词是否还有必要？——ACL2019论文阅读笔记

作者：阿乀胜69 | 来源：互联网 | 2023-10-14 20:17

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要4分钟跟随小博主，每天进步一丢丢来自：NLP太难了公众号

点击上方&＃xff0c;选择星标或置顶&＃xff0c;每天给你送干货&＃xff01;

阅读大概需要4分钟
跟随小博主&＃xff0c;每天进步一丢丢

来自&＃xff1a;NLP太难了公众号

深度学习下&＃xff0c;中文分词是否还有必要&＃xff1f;

原文&＃xff1a;

Is Word Segmentation Necessary for Deep Learning of Chinese

知乎讨论&＃xff1a;

https://zhuanlan.zhihu.com/p/65865071

https://www.zhihu.com/question/324672243/answer/715928859

Abstract

作者基于word级模型(word-based model&＃xff0c;需要分词)和char级模型(char-based model&＃xff0c;不需要分词)&＃xff0c;在四个NLP任务上做对比实验(语言模型、机器翻译、句子匹配和文本分类)。

实验结果显示&＃xff0c;基于char级模型效果总是比word级模型效果好&＃xff0c;作者基于这些实验结果给出了一些原因。

Experiments

作者在基于中文语料的四个NLP任务(语言模型、机器翻译、句子匹配和文本分类)上进行了对比实验&＃xff0c;比较word级模型和char级模型在这四个任务上的效果。

1. 语言模型(Language Modeling)

实验结果&＃xff1a;

2. 机器翻译(Machine Translation)

实验结果&＃xff1a;

3. 句子匹配/释义(Sentence Matching/Paraphrase )

4. 文本分类(Text Classification)

word级模型存在的缺陷

作者基于以上实验&＃xff0c;探讨了word级模型可能存在导致效果下降的原因。

1. 数据稀疏(Data Sparsity)

在word级模型中&＃xff0c;很多词出现的频率很低&＃xff0c;导致产生了数据稀疏。而对于模型来说&＃xff0c;要学习一个词的语义信息&＃xff0c;需要词的数量需要达到一定量才行。因此&＃xff0c;在word级模型中&＃xff0c;神经网络并没有充分学习到很多单词的语义信息。

2. OOV词(Out-of-Vocabulary Words)

我们把不存在于词汇表中的词称为Out-of-Vocabulary Words&＃xff0c;即OOV词。通常使用UNK这个记号来表示这些词。也可以对OOV词设置一个词频门限(frequency threshold)&＃xff0c;这样出现次数低于该门槛的词就称为OOV词。对于OOV词来说&＃xff0c;因都将其归类为了UNK&＃xff0c;我们就拿一个word embedding来表示UNK这一类后面的所有词&＃xff0c;模型就比较困难去学习到它的语义信息。虽然我们可以设置一个比较低的门限&＃xff0c;但是这样会导致数据集中出现很多词频低的词&＃xff0c;产生数据稀疏问题。

作者也使用了实验证明了这个问题。即&＃xff0c;将训练集、验证集和测试集中的所有OOV词都剔除。实验结果显示&＃xff0c;随着剔除的OOV词数量越多&＃xff0c;word级模型的效果就越好&＃xff0c;而char级模型的效果越差。因此&＃xff0c;作者的结论是&＃xff1a;word级模型受OOV问题困扰&＃xff0c;而char级模型不受该问题所困扰。在word级模型中&＃xff0c;可以通过减少数据集中的OOV词数量来解决该问题。

3. 过拟合(Overfitting)

从数据稀疏问题中的讨论&＃xff0c;我们可以得知word级模型会有更多的参数需要被学习到&＃xff0c;因此更容易导致产生过拟合。作者使用了dropout技术来解决这个问题。但是&＃xff0c;实验证明dropout技术不足以解决word级模型的过拟合问题。

Conclusion

在作者所做的四组实验来看&＃xff0c;char级模型效果几乎均好于word级模型。作者将原因归结于word级模型的三点&＃xff1a;1.数据稀疏&＃xff1b;2.OOV词的存在&＃xff1b;3.过拟合。

但作者的初心并不是下一个定性的结论&＃xff0c;而是希望大家对这个问题能有更多的探讨&＃xff0c;毕竟&＃xff0c;我们之前在做NLP任务时&＃xff0c;第一步就是无脑地直接分词&＃xff0c;确实很少考虑其合理性。

方便交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读&＃xff1a;

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biafﬁne Dependency Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的&＃xff1f;

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作

让更多的人知道你“在看”

推荐阅读

int
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
io
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
int
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
io
《计算机视觉：算法与应用》第二版初稿上线，全面更新迎接未来

经典计算机视觉教材《计算机视觉：算法与应用》迎来了其第二版，现已开放初稿下载。本书由Facebook研究科学家Richard Szeliski撰写，自2010年首版以来，一直是该领域的标准参考书。 ... [详细]

蜡笔小新 2024-11-30 20:56:47
io
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
io
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
io
如何用GPU服务器运行Python

如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ... [详细]

蜡笔小新 2024-12-06 11:54:09
int
Python 实现字符串双拆分并转换为矩阵

本文介绍如何使用 Python 将一个字符串按照指定的行和元素分隔符进行两次拆分，最终将字符串转换为矩阵形式。通过两种不同的方法实现这一功能：一种是使用循环与 split() 方法，另一种是利用列表推导式。 ... [详细]

蜡笔小新 2024-12-28 12:15:45
io
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
utf-8
python image stiching_Python自然语言处理，词云图生成

自然语言处理本节介绍如何使用Python中的库，生成词云图，涉及自然语言处理的相关问题，自然语言处理是计算机科学领域与人工智能领域中的一个 ... [详细]

蜡笔小新 2024-12-02 18:34:55
utf-8
ICML2020: 利用贝叶斯元学习在全局关系图上实现小样本关系抽取

本文介绍了加拿大蒙特利尔大学Mila研究所唐建教授团队在ICML2020上发布的一项研究，该研究探讨了如何利用全局关系图来探索句子间的新关系，并提出了一种创新的贝叶斯元学习方法。 ... [详细]

蜡笔小新 2024-12-01 14:34:30
utf-8
使用snownlp进行微博情感分析的学习实践

本文介绍了如何利用snownlp库对微博内容进行情感分析，包括安装、基本使用以及如何自定义训练模型以提高分析准确性。 ... [详细]

蜡笔小新 2024-11-27 15:01:46
io
探索语音处理新领域：pzh-speech工具的开发历程

本文由技术爱好者痞子衡撰写，详细介绍了一款名为pzh-speech的语音处理工具的开发背景与核心技术。该工具旨在简化语音处理流程，为开发者提供一个强大的开源解决方案。 ... [详细]

蜡笔小新 2024-11-26 16:27:12
io
cnn多实例attention选择的句子关系分类提取Neural Relation Extraction with Selective Attention over Instances

作者提供代码在https:github.comthunlpOpenNRE网址主要技术：文章主要是通过一对实体和对应的多个包含实体对的句子实例作为训练数据集ÿ ... [详细]

蜡笔小新 2024-11-25 13:23:21
timestamp
python3 基础回忆录

整理于2020年10月下旬：总结过去，展望未来Itistoughtodayandtomorrowwillbetougher.butthedayaftertomorrowisbeau ... [详细]

蜡笔小新 2024-11-17 10:24:41

阿乀胜69

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章