热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

论文笔记——ASurveyonTextClassification_FromShallowtoDeepLearning

论文笔记——ASurveyonTextClassification_FromShallowtoDeepLearning1.1摘要回顾了1961年至2020年的最新研究方法&#x

论文笔记——A Survey on Text Classification_From Shallow to Deep Learning

1.1 摘要

回顾了1961年至2020年的最新研究方法,重点关注从浅学习到深度学习的模型。我们根据所涉及的文本和用于特征提取和分类的模型,建立了文本分类方法。然后我们详细讨论每一个类别,处理支持预测测试的技术发展和基准数据集。本调查还提供了不同技术之间的综合比较,以及识别各种评价指标的优缺点。最后,总结了该研究的关键意义、未来研究方向和面临的挑战。

每个模块中使用经典方法进行文本分类的流程图

 

浅学习模型通常需要通过人工方法获得较好的样本特征,然后再使用经典的机器学习算法进行分类。因此,该方法的有效性在很大程度上受到特征提取的限制。然而,与浅层模型不同的是,深度学习通过学习一组非线性转换将特征工程集成到模型拟合过程中,这些非线性转换将特征直接映射到输出。大部分的文本分类研究工作都是基于DNNs(Deep Neural Networks)的,DNNs是一种数据驱动、计算复杂度高的方法。

1.2 文本分类方法

(一)浅学习模型步骤:首先是对原始输入文本进行预处理,用于训练浅学习模型,一般包括分词、数据清理和数据统计。然后,文本表示的目标是将预处理后的文本以一种更易于计算机使用并最大限度地减少信息丢失的形式表示,最后,根据选择的特征将表示的文本输入到分类器中。

特性工程是一项艰巨的工作。在训练分类器之前,我们需要收集知识或经验从原始文本中提取特征。浅学习方法根据从原始文本中提取的各种文本特征训练初始分类器。

(二)深度学习模型

1)ReNN:将输入文本的每个单词作为模型结构的叶节点。然后使用权重矩阵将所有节点合并成父节点。权重矩阵在整个模型中共享。每个父节点与所有叶节点具有相同的维度。最后,所有节点递归地聚合成一个父节点来表示输入文本以预测标签。

递归神经网络的结构

 

2)MLP:这是一个三层MLP模型。它包含一个输入层、一个在所有节点中都有激活功能的隐藏层和一个输出层。每个节点连接一个特定的权重wi。段落向量(Page-Vec)是基于它的方法(与CBOW相比,它增加了一个通过矩阵映射到段落向量的段落标记。该模型通过这个向量与单词的三个上下文的联系或平均值来预测第四个单词。段落向量可以被用作段落主题的存储器,并且被用作段落函数并被插入到预测分类器中)。

多层感知器的结构(MLP)

 

3)RNN:首先,使用单词嵌入技术用特定的向量来表示每个输入单词。然后,将嵌入的单词向量一个接一个地输入RNN单元。RNN单元的输出与输入向量的维数相同,并被馈送到下一个隐藏层。RNN在模型的不同部分共享参数,并且每个输入单词的权重相同。最后,输入文本的标签可以通过隐藏层的最后输出来预测。

递归神经网络的结构(RNN)

 

在RNN的反向传播过程中,权重通过梯度来调整,梯度通过导数的连续乘法来计算。如果导数极小,通过连续乘法可能会引起梯度消失问题。长短期记忆(LSTM) (RNN的改进),有效地缓解了梯度消失问题。它由一个在任意时间间隔内记住值的单元和三个控制信息流的门结构组成。门结构包括输入门、忘记门和输出门。LSTM分类方法能够更好地捕捉上下文特征词之间的联系,利用遗忘门结构过滤无用信息,有利于提高分类器的整体捕捉能力。

4)CNN:首先,将输入文本的词向量拼接成一个矩阵。然后将矩阵送入卷积层,卷积层包含几个不同维度的滤波器。最后,卷积层的结果经过池化层,并将池化结果串接起来,得到文本的最终向量表示。分类由最终向量预测。TextCNN可以通过一层卷积更好地确定最大池化层的判别短语,并通过保持词向量静态的方式学习除词向量外的超参数。

据文本的最小嵌入单元,将嵌入方法分为字符级、单词级和句子级嵌入方法。字符级嵌入可以解决词汇表外(OOV)的单词。词级嵌入学习单词的语法和语义。此外,句子级嵌入可以捕捉句子之间的关系。

卷积神经网络(CNN)的架构

 

5)Attention:

层次注意网络(HAN),通过利用文本的极具信息成分来获得更好的可视化,如图11所示。HAN包括两个编码器和两个层次的注意层。注意机制让模型对特定的输入给予不同的注意。该方法首先将基本词汇聚合成句子向量,然后再将关键句子向量聚合成文本向量。通过两个层次的注意,可以了解每个单词和句子对分类判断的贡献大小,有利于应用和分析。

层次注意网络的体系结构(HAN)

Self-attention在句子中构造K、Q和V矩阵来捕获单词在句子中的权重分布,这些矩阵可以捕获对文本分类的长期依赖。每个输入词向量ai可以表示为三个n维向量,包括qi、ki、vi。自我注意后,输出向量ai可以表示为,所有的输出向量都可以并行计算

self-attention的一个例子

6)Transformer:通常使用无监督方法自动挖掘语义知识,然后构造预训练目标,以便机器学习理解语义。

预训练模型

 

预训练模型架构

 

7)GNN:将文本分类转换为图形节点分类任务。首先,将四个输入文本和文本中的单词定义为节点,构造成图形结构。图节点由黑色粗体边连接,黑色边表示文档-单词的边和单词-单词的边。单词边缘的权重通常表示单词在语料库中的共现频率。然后,通过隐藏层来表示单词和文本。最后,通过图来预测所有输入文本的标签。

GCN的模型

 

DGCNN是一个将文本转换为词图的graph-CNN,具有通过CNN模型学习不同层次语义的优势。

TextGCN文本图卷积网络,为整个数据集构建异构的词文本图,并捕获全局词共现信息。

TextING为每个文档构建单独的图表,并通过GNN学习文本级别的单词交互,从而有效地在新文本中生成模糊单词的嵌入。

图注意网络(GATs)通过关注它的邻居来使用隐藏的自我注意层。因此,提出了一些基于GAT的模型来计算每个节点的隐藏表示。具有双重注意机制的异构图注意网络(HGAT)学习当前节点中不同相邻节点和节点类型的重要性。该模型在图上传播信息并捕获关系,以解决半监督短文本分类的语义稀疏性问题。MAGNET基于GATs捕获标签之间的相关性,该方法学习标签之间的关键相关性,并通过特征矩阵和相关矩阵生成分类器。

 

一些DNNs历年的数据,评价指标和实验数据集等

(应用包括情感分析(SA)、主题标注(TL)、新闻分类(NC)、问答(QA)、对话行为分类(DAC)、自然语言推理(NLI)、关系分类(RC)和事件预测(EP))

1.3 数据集与评价指标

(一)数据集

数据集的汇总统计 C:目标类别数量 L:平均句子长度 N:数据集大小

(二)评价指标

1)准确率、错误率:

2)精确度、召回率、F1:

 

3)Micro-F1:

 

4)Macro-F1:

 

5)P@K: 每个文本都有一组L个基本事实标签,按照概率递减的顺序,,k处的精度为:

其中,L是每个文本上的基本事实标签或可能答案的数量,k是极端多标签文本分类中所选标签的数量。

6)NDCG@K:

1.4 性能

基于深度学习的文本分类模型在原始数据集上的准确性由分类准确性评估

1.1 摘要

回顾了1961年至2020年的最新研究方法,重点关注从浅学习到深度学习的模型。我们根据所涉及的文本和用于特征提取和分类的模型,建立了文本分类方法。然后我们详细讨论每一个类别,处理支持预测测试的技术发展和基准数据集。本调查还提供了不同技术之间的综合比较,以及识别各种评价指标的优缺点。最后,总结了该研究的关键意义、未来研究方向和面临的挑战。

每个模块中使用经典方法进行文本分类的流程图

 

浅学习模型通常需要通过人工方法获得较好的样本特征,然后再使用经典的机器学习算法进行分类。因此,该方法的有效性在很大程度上受到特征提取的限制。然而,与浅层模型不同的是,深度学习通过学习一组非线性转换将特征工程集成到模型拟合过程中,这些非线性转换将特征直接映射到输出。大部分的文本分类研究工作都是基于DNNs(Deep Neural Networks)的,DNNs是一种数据驱动、计算复杂度高的方法。

1.2 文本分类方法

(一)浅学习模型步骤:首先是对原始输入文本进行预处理,用于训练浅学习模型,一般包括分词、数据清理和数据统计。然后,文本表示的目标是将预处理后的文本以一种更易于计算机使用并最大限度地减少信息丢失的形式表示,最后,根据选择的特征将表示的文本输入到分类器中。

特性工程是一项艰巨的工作。在训练分类器之前,我们需要收集知识或经验从原始文本中提取特征。浅学习方法根据从原始文本中提取的各种文本特征训练初始分类器。

(二)深度学习模型

1)ReNN:将输入文本的每个单词作为模型结构的叶节点。然后使用权重矩阵将所有节点合并成父节点。权重矩阵在整个模型中共享。每个父节点与所有叶节点具有相同的维度。最后,所有节点递归地聚合成一个父节点来表示输入文本以预测标签。

递归神经网络的结构

 

2)MLP:这是一个三层MLP模型。它包含一个输入层、一个在所有节点中都有激活功能的隐藏层和一个输出层。每个节点连接一个特定的权重wi。段落向量(Page-Vec)是基于它的方法(与CBOW相比,它增加了一个通过矩阵映射到段落向量的段落标记。该模型通过这个向量与单词的三个上下文的联系或平均值来预测第四个单词。段落向量可以被用作段落主题的存储器,并且被用作段落函数并被插入到预测分类器中)。

多层感知器的结构(MLP)

 

3)RNN:首先,使用单词嵌入技术用特定的向量来表示每个输入单词。然后,将嵌入的单词向量一个接一个地输入RNN单元。RNN单元的输出与输入向量的维数相同,并被馈送到下一个隐藏层。RNN在模型的不同部分共享参数,并且每个输入单词的权重相同。最后,输入文本的标签可以通过隐藏层的最后输出来预测。

递归神经网络的结构(RNN)

 

在RNN的反向传播过程中,权重通过梯度来调整,梯度通过导数的连续乘法来计算。如果导数极小,通过连续乘法可能会引起梯度消失问题。长短期记忆(LSTM) (RNN的改进),有效地缓解了梯度消失问题。它由一个在任意时间间隔内记住值的单元和三个控制信息流的门结构组成。门结构包括输入门、忘记门和输出门。LSTM分类方法能够更好地捕捉上下文特征词之间的联系,利用遗忘门结构过滤无用信息,有利于提高分类器的整体捕捉能力。

4)CNN:首先,将输入文本的词向量拼接成一个矩阵。然后将矩阵送入卷积层,卷积层包含几个不同维度的滤波器。最后,卷积层的结果经过池化层,并将池化结果串接起来,得到文本的最终向量表示。分类由最终向量预测。TextCNN可以通过一层卷积更好地确定最大池化层的判别短语,并通过保持词向量静态的方式学习除词向量外的超参数。

据文本的最小嵌入单元,将嵌入方法分为字符级、单词级和句子级嵌入方法。字符级嵌入可以解决词汇表外(OOV)的单词。词级嵌入学习单词的语法和语义。此外,句子级嵌入可以捕捉句子之间的关系。

卷积神经网络(CNN)的架构

 

5)Attention:

层次注意网络(HAN),通过利用文本的极具信息成分来获得更好的可视化,如图11所示。HAN包括两个编码器和两个层次的注意层。注意机制让模型对特定的输入给予不同的注意。该方法首先将基本词汇聚合成句子向量,然后再将关键句子向量聚合成文本向量。通过两个层次的注意,可以了解每个单词和句子对分类判断的贡献大小,有利于应用和分析。

层次注意网络的体系结构(HAN)

Self-attention在句子中构造K、Q和V矩阵来捕获单词在句子中的权重分布,这些矩阵可以捕获对文本分类的长期依赖。每个输入词向量ai可以表示为三个n维向量,包括qi、ki、vi。自我注意后,输出向量ai可以表示为,所有的输出向量都可以并行计算

self-attention的一个例子

6)Transformer:通常使用无监督方法自动挖掘语义知识,然后构造预训练目标,以便机器学习理解语义。

预训练模型

 

预训练模型架构

 

7)GNN:将文本分类转换为图形节点分类任务。首先,将四个输入文本和文本中的单词定义为节点,构造成图形结构。图节点由黑色粗体边连接,黑色边表示文档-单词的边和单词-单词的边。单词边缘的权重通常表示单词在语料库中的共现频率。然后,通过隐藏层来表示单词和文本。最后,通过图来预测所有输入文本的标签。

GCN的模型

 

DGCNN是一个将文本转换为词图的graph-CNN,具有通过CNN模型学习不同层次语义的优势。

TextGCN文本图卷积网络,为整个数据集构建异构的词文本图,并捕获全局词共现信息。

TextING为每个文档构建单独的图表,并通过GNN学习文本级别的单词交互,从而有效地在新文本中生成模糊单词的嵌入。

图注意网络(GATs)通过关注它的邻居来使用隐藏的自我注意层。因此,提出了一些基于GAT的模型来计算每个节点的隐藏表示。具有双重注意机制的异构图注意网络(HGAT)学习当前节点中不同相邻节点和节点类型的重要性。该模型在图上传播信息并捕获关系,以解决半监督短文本分类的语义稀疏性问题。MAGNET基于GATs捕获标签之间的相关性,该方法学习标签之间的关键相关性,并通过特征矩阵和相关矩阵生成分类器。

 

一些DNNs历年的数据,评价指标和实验数据集等

(应用包括情感分析(SA)、主题标注(TL)、新闻分类(NC)、问答(QA)、对话行为分类(DAC)、自然语言推理(NLI)、关系分类(RC)和事件预测(EP))

1.3 数据集与评价指标

(一)数据集

数据集的汇总统计 C:目标类别数量 L:平均句子长度 N:数据集大小

(二)评价指标

1)准确率、错误率:

2)精确度、召回率、F1:

 

3)Micro-F1:

 

4)Macro-F1:

 

5)P@K: 每个文本都有一组L个基本事实标签,按照概率递减的顺序,,k处的精度为:

其中,L是每个文本上的基本事实标签或可能答案的数量,k是极端多标签文本分类中所选标签的数量。

6)NDCG@K:

1.4 性能

基于深度学习的文本分类模型在原始数据集上的准确性由分类准确性评估

 


推荐阅读
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
author-avatar
ZHANGQI0001234
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有