当前位置: 开发笔记 > 编程语言 > 正文

《nlp入门+实战：第九章：循环神经网络》

作者：米粒尖尖果儿_445 | 来源：互联网 | 2023-08-15 10:56

文章目录1.文本的tokenization1.1概念和工具的介绍1.2中英文分词的方法2.N-garm表示方法3.向量化3.1one-hot编码3.2wordembedding3.

文章目录

1.文本的tokenization
- 1.1 概念和工具的介绍
- 1.2 中英文分词的方法
2.N-garm表示方法
3.向量化
- 3.1 one-hot编码
- 3.2 word embedding
- 3.3 word embedding APl
- 3.4数据的形状变化

上一篇&＃xff1a;
《nlp入门&＃43;实战&＃xff1a;第八章&＃xff1a;使用Pytorch实现手写数字识别》

本章代码链接&＃xff1a;

https://gitee.com/ninesuntec/nlp-entry-practice/blob/master/code/9.循环神经网络.py

目标&＃xff1a;

1.知道token和tokenization
2.知道N-gram的概念和作用
3.知道文本向量化表示的方法

1.文本的tokenization

1.1 概念和工具的介绍

tokenization就是通常所说的分词&＃xff0c;分出的每一个词语我们把它称为token。

常见的分词工具很多&＃xff0c;比如:

jieba分词: https://github.com/fxsjy/jieba
清华大学的分词工具THULAC: https://github.com/thunlp/THULAC-Python

1.2 中英文分词的方法

把句子转化为词语
- 比如:我爱深度学习可以分为[我&＃xff0c;爱&＃xff0c;深度学习]
把句子转化为单个字
- 比如:我爱深度学习的token是[我,爱&＃xff0c;深&＃xff0c;度&＃xff0c;学&＃xff0c;习]

2.N-garm表示方法

前面我们说&＃xff0c;句子可以用单个字&＃xff0c;词来表示&＃xff0c;但是有的时候&＃xff0c;我们可以用2个、3个或者多个词来表示。

N-gram 一组一组的词语&＃xff0c;其中的N表示能够被一起使用的词的数量

例如:

import jiebatext &＃61; "深度学习(英语: deep learning&＃xff09;是机器学习的分支&＃xff0c;是一种以人工神经网络为架构&＃xff0c;对数据进行表征学习的算法。" cuted &＃61; jieba.lcut(text) [print(cuted[i:i &＃43; 2]) for i in range(len(cuted) - 1)]

在这里插入图片描述

在传统的机器学习中&＃xff0c;使用N-gram方法往往能够取得非常好的效果&＃xff0c;但是在深度学习比如RNN中会白带N-gram的效果。

3.向量化

因为文本不能够直接被模型计算,所以需要将其转化为向量

把文本转化为向量有两种方法:

1.转化为one-hot编码
2.转化为word embedding

3.1 one-hot编码

在one-hot编码中&＃xff0c;每一个token使用一个长度为N的向量表示&＃xff0c;N表示词典的数量

即:把待处理的文档进行分词或者是N-gram处理&＃xff0c;然后进行去重得到词典&＃xff0c;假设我们有一个文档:深度学习,那么进行one-hot处理后的结果如下:
在这里插入图片描述

one-hot使用稀疏的向量表示文本&＃xff0c;占用空间比较多

3.2 word embedding

word embedding是深度学习中表示文本常用的一种方法。和one-hot编码不同&＃xff0c;word embedding使用了浮点型的稠密矩阵来表示token。

根据词典的大小&＃xff0c;我们的向量通常使用不同的维度&＃xff0c;例如100,256,300等。其中向量中的每一个值是一个超参数&＃xff0c;其初始值是随机生成的&＃xff0c;之后会在训练的过程中进行学习而获得。

如果我们文本中有20000个词语&＃xff0c;如果使用one-hot编码&＃xff0c;那么我们会有20000*20000的矩阵&＃xff0c;其中大多数的位置都为0&＃xff0c;但是如果我们使用word embedding来表示的话&＃xff0c;只需要20000*维度&＃xff0c;比如20000*300
形象的表示就是:
在这里插入图片描述

我们会把所有的文本转化为向量&＃xff0c;把句子用向量来表示。

但是在这中间&＃xff0c;我们会先把token使用数字来表示。再把数字使用向量来表示。
即: token—> num ---->-vector
在这里插入图片描述

在这里插入图片描述

上图的过程就是&＃xff1a;我们输入一个形状为&＃xff1a;[batch_size,N]的数据&＃xff0c;经过word embedding向量化之后就会转化为一个三阶的[batch_size,N,4]的形状

3.3 word embedding APl

torch.nn.Embedding(num_embeddings, embedding_dim)参数介绍:

1.num_embeddings :词典的大小&＃xff08;指不重复词语的个数&＃xff09;
2.embedding_din : embedding的维度

使用方法:

embedding &＃61; nn. Embedding(vocab_size,300) #实例化 input_embeded &＃61; embedding(input) #进行embedding的操作

3.4数据的形状变化

思考:每个batch中的每个句子有10个词语&＃xff0c;经过形状为[20&＃xff0c;4]的Word emebedding之后&＃xff0c;原来的句子会变成什么形状?

每个词语用长度为4的向量表示&＃xff0c;所以&＃xff0c;最终句子会变为[batch_size, 10,4]的形状。

增加了一个维度&＃xff0c;这个维度是embedding的dim。

推荐阅读

python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
python
【BERT】BERT的嵌入层是如何实现的？看完你就明白了

作者：__编译：ronghuaiyang导读非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。介绍在本文中，我将解释BERT ... [详细]

蜡笔小新 2023-10-15 11:40:54
int
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
python
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
int
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
int
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
int
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
python
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
int
都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战

篇首语：本文由编程笔记#小编为大家整理，主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 18:30:35
int
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
python
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17

米粒尖尖果儿_445

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章