热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

LADA:LocalAdditivityBasedDataAugmentationforSemisupervisedNER理解

介绍NER时深度语言理解的第一阶段,然而,目前的NER模型极大地依赖人工标注的数据。在本次工作中,为了脱离对于有标签数据的依赖ÿ

介绍

NER时深度语言理解的第一阶段,然而,目前的NER模型极大地依赖人工标注的数据。在本次工作中,为了脱离对于有标签数据的依赖,我们提出LADA方法用于半监督NER,通过插入相近的句子生成虚拟数据。我们的方法有两种:Intra-LADA 和 Inter-LADA,Intra-LADA 插入同一个句子中的token,Inter-LADA 采样不同的句子插入。通过采样训练数据的线性添加,LADA 生成了大量的有标签数据,提升了实体和文章理解。我们通过设计一个新的一致性的 loss进一步扩展LADA到半监督。实验在两种基准下实施,证明了我们方法的有效性。

传统ner模型从字典到神经网络到迁移学习都是依赖于大量丰富的有标签数据,由于缺少有标签数据,使得这些模型很难应用于新领域。不同的NLP数据增强方法可以分为两类:① 在token层面的对抗性攻击,例如词替换和增加噪音。 ② 在句子层面的解释,例如反向翻译或者子模块优化模型。前者被广泛使用,后者由于很难维持实体token的一致性,很难应用于NER任务。

我们使用了另外一种数据增强方法mixup,原始用于文本分类。但文本分类是单标签任务,与NER不同。我们引入了LADA限制mixup方法中的样本应该相近。Intra-LADA用来自同一句子的token插入每个token的隐藏层表示。Inter-LADA用来自k近邻采样随机采样的加权组合的其他句子token插入每个token的隐藏层,权重控制了噪声和正则化之间的精妙权衡。

论文中介绍了LADA模型以及其他三种数据增强的方法


1. LADA

在中间模型中混合两个句子的隐藏层参数

 

此为mixup方法混合标签的方式

loss

采用kl loss

Pmix表示句子采样概率,以下为随机采样(S表示数据集)

LADA带来了更糟糕的结果。假设是因为句子之间相似度太低带来了噪声,给模型学习造成了困难。因此应该限制两个句子相近。


2. Intra-LADA 

 构造x’的直接方法是使用x中的相同token,但改变顺序。**优点:**一方面,顺利地实现了从句子层级到token层级的转变,有利于NER任务;另一方面,增强了模型的鲁棒性。**缺点:**它克制了生成句子的多样性。


3. Inter-LADA

两种策略的组合(knn和随机采样):

使用sentence-Bert将句子编码,计算l2距离(由于token层级的距离比句子分类距离要大)。u作为超参数调节。

KNN降低噪声分析:

- 可能与原始句子包含相同实体,但表示的意义又不同。
- 帮助检测不同实体的相同类型。
- 帮助检测同一实体的不同类型。


4. Semi-supervised LADA

使用back-translation生成x',语义相同。由此产生两个问题,① token出现的位置不一样 ② token的数量不一样

对于back-translation,一般情况下entity的个数都应该相同,引入一致性loss控制entity每个类型的个数相同

对于x和x',首先猜测token labels

 

 在早期(后期没有用)sharpen归一化

计算每个类型的实体数量

 维度为C,C表示实体类型的总数,第i个值表示第i个类型的实体的个数。

loss

consistency loss

 其中yk表示由x生成的第k个x'

 lamda控制了有监督和无监督的比例。


推荐阅读
  • 文本生成图像简要回顾 text to image synthesis
    摘要       文本生成图像作为近几年的热门研究领域,其解决的问题是从一句描述性文本生成与之对应的图片。近一周来,我通过阅读了近几年发表于顶会的近10篇论文,做出本文中对该方向的 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖
    2019年3月27日——ACM宣布,深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖, ... [详细]
  • 深度强化学习Policy Gradient基本实现
    全文共2543个字,2张图,预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然 ... [详细]
  • 在这一期的SendMessage函数应用中,我将向大家介绍如何利用消息函数来扩展树型列表(TreeView)控件的功能相信对于树型列表控件大家十分的熟悉, ... [详细]
  • 是不是zlib是这些库的压缩算法的实现库,而这么多库它们只是在打包的时候使用了zlib进行压缩而已.而具体的打包格式就有ZIP,BZIP2,GZ之分?但是在我们在用gz压缩时候通常之前 ... [详细]
  • C#按值复制数组我有一个类型化的数组MyType[]types;我想制作这个数组的独立副本。我试过这个MyType[]types2newMyType[types.Length];t ... [详细]
  • 42VERSE & 圆圈徽章,Web3 社交的流派之争——针对两个国内案例的调研
    01 行业分析本文所研究的细分赛道为:Web3应用层——社交与内容场景——DID/创新场景(以元宇宙3D空间为 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 一、在androidStudio中实现tabs比较简单,新建项目就可以选择tabs模板进行创建,默认实现tabs功能:直接运行项目就可以看到效果:可以说非常简单,但是我们在实际开发 ... [详细]
  • linux 修改root密码_Linux强制用户首次登陆修改密码
    一个执着于技术的公众号地方前言Linux强制用户首次登陆修改密码,这应该是RHCE认证中用户管理部分,属于很基础的内容了。可是我忘记了,所 ... [详细]
  • 开发笔记:Java多线程深度探索
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Java多线程深度探索相关的知识,希望对你有一定的参考价值。 ... [详细]
  • One Stage目标检测
    在计算机视觉中,目标检测是一个难题。在大型项目中,首先需要先进行目标检测,得到对应类别和坐标后,才进行之后的各种分析。如人脸识别,通常是首先人脸检测,得到人脸的目标框,再对此目标框 ... [详细]
  • python-去除字符串中特定字符一、去掉字符串两端字符:strip(,rstrip(,lstrip(s.strip(#删除两边(头尾空字符,默认是空字符s. ... [详细]
author-avatar
G小麥NO1_238
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有