热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

NLP中的数据增强方法综述

论文链接:ASurveyofDataAugmentationApproachesforNLP摘要由于越来越多的研究在低资源领域、新任务和需要大量训练数据的大规模神

论文链接:A Survey of Data Augmentation Approaches for NLP


摘要

由于越来越多的研究在低资源领域、新任务和需要大量训练数据的大规模神经网络中,NLP中的数据增强最近引起广泛的兴趣。尽管研究工作剧增,但对这个领域的探索仍然不够,也许是由于NLP本身的挑战带来的。这篇论文中,我们通过结构化的方式总结相关文献,给出了一个全面的、统一的数据增强综述。首先,介绍了NLP中数据增强的动机,从方法论上论述了这些有代表性的方法。其次,我们强调了用在NLP领域和任务上的数据增强技术。推断该领域最近的研究挑战的未来的研究方向。总体来说,我们的研究旨在厘清有关NLP中数据增强文献的观点,并驱动这个领域前沿的研究内容。我们创建了包含相关文献的GitHub库,会持续不断的更新,链接:https://github.com/styfeng/DataAug4NLP


引言

数据增强是指在不显性收集新数据的情况下,增加训练样本多样性的策略。不像在CV中,数据增强通常被优先考虑,由于NLP本身的挑战性,NLP中的数据增强通常是次要的,对于其的研究也不太够。
论文安排如下:
第二章 论述了什么是数据增强,目标和trade-off,及它是如何工作的?
第三章 阐述了NLP领域有代表性的数据增强技术,包括:基于规则的、基于样本插值的和基于模型的;
第四章 讨论了数据增强在NLP领域的应用,包括低资源语言、缓解偏差、解决样本不均衡、小样本学习以及对抗样本的;
第五章 叙述了摘要、问答、序列标注、句法任务以及语法错误修正、机器翻译、数据到文本的自然语言理解、无目标和条件文本生成、对话、多模态任务等通用NLP任务的数据增强方法;
最后,第六章论述了NLP领域数据增强的挑战和未来方向。
通过这些工作,我们希望模仿图像、人脸以及时间序列等类型数据的数据增强综述类文献。希望引起进一步注意、广泛的兴趣,进而驱动数据增强相关的工作。

Google Trends Scores per week, 2016-present


背景

数据增强的目标和平衡?因为,DA旨在提供一个可以搜集更多数据的方法,一个理想的DA技术应该既容易实现又可以提供模型性能,大多数方法在平衡两者。
Dao等提出:“数据增强通常以一种临时的方式进行的,几乎不了解基本的原理和理论。”
下表从适用性、依赖性以及必备条件等几个方面对比各种DA方法:
Ext.Know, KWE, tok, const, and dep 分别代表:外部知识、关键词抽取、词符化、成分分析、依存分析。
在这里插入图片描述


技巧&方法


基于规则的技巧

feather space DA 在模型特征空间而不是输入数据中,生成数据增强样本。许多小样本学习方法利用估计特征空间相似变换,从已知的类别到新颖的类别增强。
wei and zou提出了EDA,字符级别的随机打散操作,包括:随机插值、删除和翻转。

在这里插入图片描述


样本插值技巧

另一类DA技巧,首先由mixup中提出的,对两个或更多真实样本的输入和label进行插值。这类方法也被称为MSDA(mixed sample data augumentation)。


基于模型的技巧

seq2seq和语言模型也被应用于DA中,著名的 回译 方法将一个序列翻译为其他语言,然后再翻译为原始语言。


应用


低资源语言

低资源语言对于DA是非常重要且有挑战性的应用,尤其是神经网络机器翻译。使用WordNet等外部知识的技巧很难提升效果。有一些利用高资源语言的方法,特别是它们有一些相似的语言特性。


缓解偏差

Zhao et al. (2018) 尝试通过创建和原始数据类似,但偏向于未被充分代表的性别的(例如,在性别实体中,用she 替换he)DA数据集,在指代消歧任务中缓解性别偏差,联合两个数据集进行训练。CDA(counterfacutual DA)用来缓解性别偏差,涉及到人为干涉、打破性别和性别中性词之间的联系。


修复类别不均衡

上采样和下采样。smote(synthetic minority oversampling technique)对少数类别样本上采样。


小样本学习

数据增强方法可以通过在新的类别中加入更多数据缓解少样本学习问题。


对抗样本

生成对抗样本是使用无害标签欺骗nlp模型。


任务


摘要

回译;UDA;混合合成和真实数据。


问答

回译;XLDA,跨语言DA;BERT。


序列标注

DAGA,两步DA;依赖树变形;seqmix。


解析任务

数据重组;同步上下文语法(SCFG),GRAPPA;依赖树同POS任务。


语法纠错

在带噪语料中学习错误模式。


机器翻译

使用增强方法替换两个源中的词。


数据-文本生成

数据到文本NLG是指需要对结构化或半结构化数据输入进行自然语言描述的任务。E2E-NLG和WebNLG是两个流行的方法。


开放域和有条件生成

用一套DA方法在低资源域上对GPT-2进行精细化实验为了提高生成的连续体的质量,他们称之为GENAUG。


对话

大多数对话的DA方法侧重于面向任务的对话;句子级别和词级别的DA方法,lightweight augmentation,seq2seq DA;


多模态任务


推荐阅读
  • 现在比较流行使用静态网站生成器来搭建网站,博客产品着陆页微信转发页面等。但每次都需要对服务器进行配置,也是一个重复但繁琐的工作。使用DockerWeb,只需5分钟就能搭建一个基于D ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 20211101CleverTap参与度和分析工具功能平台学习/实践
    1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
author-avatar
京丿城考拉U_967
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有