译：Tensorflow实现的CNN文本分类

作者：伤心怪人_234 | 来源：互联网 | 2023-08-06 09:03

翻译自博客：IMPLEMENTINGACNNFORTEXTCLASSIFICATIONINTENSORFLOW原博文：http:www.wildml.com201512im

翻译自博客：IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW

原博文：http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/

github：https://github.com/dennybritz/cnn-text-classification-tf

在这篇文章中，我们将实现一个类似于Kim Yoon的卷积神经网络语句分类的模型。本文提出的模型在一系列文本分类任务（如情感分析）中实现了良好的分类性能，并已成为新的文本分类架构的标准基准。

本文假设你已经熟悉了应用于NLP的卷积神经网络的基础知识。如果没有，建议先阅读Understanding Convolutional Neural Networks for NLP 以获得必要的背景。

我们将在这篇文章中使用的数据集是 Movie Review data from Rotten Tomatoes，也是原始文献中使用的数据集之一。数据集包含10,662个示例评论句子，正负向各占一半。数据集的大小约为20k。请注意，由于这个数据集很小，我们很可能会使用强大的模型。此外，数据集不附带拆分的训练/测试集，因此我们只需将10％的数据用作 dev set。原始文献展示了对数据进行10倍交叉验证的结果。

这里不讨论数据预处理代码，代码可以在 Github 上获得，并执行以下操作：

原始文献的网络结构如下图：

第一层将单词嵌入到低维向量中。下一层使用多个过滤器大小对嵌入的字矢量执行卷积。例如，一次滑过3，4或5个字。接下来，我们将卷积层的max_pooling结果作为一个长的特征向量，添加dropout正则，并使用softmax层对结果进行分类。

因为这是是一篇教学性质的博客，所以对于原始文献的模型进行一下简化：

将这些扩展代码添加到这里是比较简单的（几十行代码）。看看帖子结尾的练习。

为了允许各种超参数配置，我们将代码放入TextCNN类中，在init函数中生成模型图。

为了实例化类，我们传递以下参数：

首先定义网络的输入数据

tf.placeholder创建一个占位符变量，当我们在训练集或测试时间执行它时，我们将其馈送到网络。第二个参数是输入张量的形状：None意味着该维度的长度可以是任何东西。在我们的情况下，第一个维度是批量大小，并且使用“None”允许网络处理任意大小的批次。

将神经元保留在丢失层中的概率也是网络的输入，因为我们仅在训练期间使用dropout。我们在评估模型时禁用它（稍后再说）。

我们定义的第一层是嵌入层，它将词汇词索引映射到低维向量表示中。它本质上是一个从数据中学习的lookup table。

我们在这里使用了几个功能：

W是我们在训练中学习的嵌入矩阵。我们使用随机均匀分布来初始化它。 tf.nn.embedding_lookup创建实际的嵌入操作。嵌入操作的结果是形状为[None，sequence_length，embedding_size]的三维张量。

TensorFlow的卷积转换操作具有对应于批次，宽度，高度和通道的尺寸的4维张量。我们嵌入的结果不包含通道尺寸，所以我们手动添加，留下一层shape为[None，sequence_length，embedding_size，1]。

现在我们已经准备好构建卷积层，然后再进行max-pooling。注意：我们使用不同大小的filter。因为每个卷积产生不同形状的张量，我们需要迭代它们，为它们中的每一个创建一个层，然后将结果合并成一个大特征向量。

这里，W是我们的滤波器矩阵，h是将非线性应用于卷积输出的结果。每个过滤器在整个嵌入中滑动，但是它涵盖的字数有所不同。 “VALID”填充意味着我们在没有填充边缘的情况下将过滤器滑过我们的句子，执行给我们输出形状[1，sequence_length - filter_size + 1,1,1]的窄卷积。在特定过滤器大小的输出上执行最大值池将留下一张张量的形状[batch_size，1，num_filters]。这本质上是一个特征向量，其中最后一个维度对应于我们的特征。一旦我们从每个过滤器大小得到所有的汇总输出张量，我们将它们组合成一个长形特征向量[batch_size，num_filters_total]。在tf.reshape中使用-1可以告诉TensorFlow在可能的情况下平坦化维度。

Dropout可能是卷积神经网络正则最流行的方法。Dropout背后的想法很简单。Dropout层随机地“禁用”其神经元的一部分。这可以防止神经元共同适应（co-adapting），并迫使他们学习个别有用的功能。我们保持启用的神经元的分数由我们网络的dropout_keep_prob输入定义。在训练过程中，我们将其设置为0.5，在评估过程中设置为1（禁用Dropout）。

使用max-pooling（with dropout ）的特征向量，我们可以通过执行矩阵乘法并选择具有最高分数的类来生成预测。我们还可以应用softmax函数将原始分数转换为归一化概率，但这不会改变我们的最终预测。

这里，tf.nn.xw_plus_b是执行Wx + b矩阵乘法的便利包装器。

使用分数我们可以定义损失函数。损失是对我们网络错误的衡量，我们的目标是将其最小化。分类问题的标准损失函数是交叉熵损失 cross-entropy loss。

这里，tf.nn.softmax_cross_entropy_with_logits是一个方便的函数，计算每个类的交叉熵损失，给定我们的分数和正确的输入标签。然后求损失的平均值。我们也可以使用总和，但这比较难以比较不同批量大小和训练/测试集数据的损失。

我们还为精度定义一个表达式，这是在训练和测试期间跟踪的有用数值。

TensorFlow可以看到其结构图如下：

在我们为网络定义训练程序之前，我们需要了解一些关于TensorFlow如何使用Sessions和Graphs的基础知识。如果您已经熟悉这些概念，请随时跳过本节。

在TensorFlow中， Session是正在执行graph 操作的环境，它包含有关变量和队列的状态。每个 Session都在单个graph上运行。如果在创建变量和操作时未明确使用 Session，则使用TensorFlow创建的当前默认 Session。您可以通过在session.as_default（）块中执行命令来更改默认 Session（见下文）。

Graph包含操作和张量。您可以在程序中使用多个Graph，但大多数程序只需要一个Graph。您可以在多个 Session中使用相同的Graph，但在一个 Session中不能使用多Graph。 TensorFlow始终创建一个默认Graph，但您也可以手动创建一个Graph，并将其设置为新的默认Graph，如下图所示。显式创建 Session和Graph可确保在不再需要资源时正确释放资源。

当优选设备不存在时，allow_soft_placement设置允许TensorFlow回退到具有特定操作的设备上。例如，如果我们的代码在GPU上放置一个操作，并且我们在没有GPU的机器上运行代码，则不使用allow_soft_placement将导致错误。如果设置了log_device_placement，TensorFlow会登录那些设备（CPU或GPU）进行操作。这对调试非常有用。标记是我们程序的命令行参数。

当我们实例化我们的TextCNN模型时，所有定义的变量和操作将被放置在上面创建的默认图和会话中。

接下来，我们定义如何优化网络的损失函数。 TensorFlow有几个内置优化器。我们正在使用Adam优化器。

在这里，train_op这里是一个新创建的操作，我们可以运行它们来对我们的参数执行更新。 train_op的每次执行都是一个训练步骤。 TensorFlow自动计算哪些变量是“可训练的”并计算它们的梯度。通过定义一个global_step变量并将其传递给优化器，让TensorFlow对训练步骤进行计数。每次执行train_op时，global step 将自动递增1。

TensorFlow有一个概述（summaries），可以在训练和评估过程中跟踪和查看各种数值。例如，您可能希望跟踪您的损失和准确性随时间的变化。您还可以跟踪更复杂的数值，例如图层激活的直方图。 summaries是序列化对象，并使用SummaryWriter写入磁盘。

在这里，我们分别跟踪培训和评估的总结。在我们的情况下，这些数值是相同的，但是您可能只有在训练过程中跟踪的数值（如参数更新值）。 tf.merge_summary是将多个摘要操作合并到可以执行的单个操作中的便利函数。

通常使用TensorFlow的另一个功能是checkpointing- 保存模型的参数以便稍后恢复。Checkpoints 可用于在以后的时间继续训练，或使用 early stopping选择最佳参数设置。使用Saver对象创建 Checkpoints。

在训练模型之前，我们还需要在图中初始化变量。

global_variables_initializer函数是一个方便函数，它运行我们为变量定义的所有初始值。也可以手动调用变量的初始化程序。如果希望使用预先训练的值初始化嵌入，这很有用。

现在我们来定义一个训练步骤的函数，评估一批数据上的模型并更新模型参数。

feed_dict包含我们传递到我们网络的占位符节点的数据。您必须为所有占位符节点提供值，否则TensorFlow将抛出错误。使用输入数据的另一种方法是使用队列，但这超出了这篇文章的范围。

接下来，我们使用session.run执行我们的train_op，它返回我们要求它进行评估的所有操作的值。请注意，train_op什么都不返回，它只是更新我们网络的参数。最后，我们打印当前培训批次的丢失和准确性，并将摘要保存到磁盘。请注意，如果批量太小，训练批次的损失和准确性可能会在批次间显着变化。而且因为我们使用dropout，您的训练指标可能开始比您的评估指标更糟。

我们写一个类似的函数来评估任意数据集的丢失和准确性，例如验证集或整个训练集。本质上这个功能与上述相同，但没有训练操作。它也禁用退出。

最后，准备编写训练循环。迭代数据的批次，调用每个批次的train_step函数，老人服装偶尔评估和检查我们的模型：

这里，batch_iter是一个批处理数据的帮助函数，而tf.train.global_step是返回global_step值的便利函数。

我们的训练脚本将summaries写入输出目录，并将TensorBoard指向该目录，我们可以将图和我们创建的summaries可视化。

有几件事情脱颖而出：

您可以使用代码进行操作，并尝试使用各种参数配置运行模型。 Github提供了代码和说明。

以下是一些的练习，可以提高模型的性能：

推荐阅读：

【深度学习】⑤--自然语言处理的相关应用

基于机器学习对销量预测研究

案例：Spark基于用户的协同过滤算法

文章来源：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80288372

推荐阅读

import
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
php
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
java
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
include
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
io
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
php
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
java
Java中com.sun.codemodel.JBlock._continue()方法详解及示例

本文介绍了Java中的com.sun.codemodel.JBlock._continue()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-12 10:16:29
import
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
import
摩尔线程新款国产显卡曝光：8GB显存，性能超越GTX 660，售价预计超千元

摩尔线程新款国产显卡曝光：8GB显存，性能超越GTX 660，售价预计超千元 ... [详细]

蜡笔小新 2024-11-06 13:43:43
php
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
blob
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
php
掌握PHP框架开发与应用的核心知识点：构建高效PHP框架所需的技术与能力综述

掌握PHP框架开发与应用的核心知识点对于构建高效PHP框架至关重要。本文综述了开发PHP框架所需的关键技术和能力，包括但不限于对PHP语言的深入理解、设计模式的应用、数据库操作、安全性措施以及性能优化等方面。对于初学者而言，熟悉主流框架如Laravel、Symfony等的实际应用场景，有助于更好地理解和掌握自定义框架开发的精髓。 ... [详细]

蜡笔小新 2024-10-31 14:51:01
数组
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
数组
从用户转型为开发者：一场思维升级的旅程 | 专访 StarRocks Committer 周威

从用户转变为开发者，不仅是一次角色的转换，更是一场深刻的思维升级之旅。本次专访中，StarRocks Committer 周威分享了他如何在这一过程中逐步提升技术能力与思维方式，为开源社区贡献自己的力量。 ... [详细]

蜡笔小新 2024-10-31 09:21:44

伤心怪人_234

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章