当前位置: 开发笔记 > 编程语言 > 正文

TensorFlow中的自然语言处理（吴恩达视频）

作者：拍友2602924913 | 来源：互联网 | 2023-08-08 14:46

TensorFlow中的自然语言处理（吴恩达视频）TensorFlow中的自然语言处理1简单短例子2tensorflow.keras实现IMDB情感分类

TensorFlow 中的自然语言处理 &＃xff08;吴恩达视频&＃xff09;

TensorFlow 中的自然语言处理
- 1 简单短例子
- 2 tensorflow.keras实现IMDB情感分类实战
- - 2.1 数据准备
  - 2.2 数据预处理
  - 2.3 模型训练
  - 2.4 可视化训练效果
  - 2.5 结果预测

TensorFlow 中的自然语言处理

【吴恩达团队Tensorflow2.0实践系列课程第三课】TensorFlow2.0中的自然语言处理

这个暑假计划学习NLP&＃xff0c;看的是吴恩达老师的视频&＃xff0c;已经看到第三课&＃xff0c;大家有兴趣的可以看看之前的视频&＃xff0c;我觉得讲得非常好。写博客是为了更好的学习&＃xff0c;将其中一些细节写下来避免遗忘。

1 简单短例子

Tokenizer是一个用于向量化文本&＃xff0c;或将文本转换为序列&＃xff08;即单词在字典中的下标构成的列表&＃xff0c;从1算起&＃xff09;的类。

构造参数

num_words&＃xff1a;None或整数&＃xff0c;处理最大单词数量。若被设置为整数&＃xff0c;则分词器将被限制为待处理数据集中最常见的num_words个单词
filters&＃xff1a;需要滤除的字符的列表或连接形成的字符串&＃xff0c;例如标点符号。默认值为 ‘!"#$%&()*&＃43;,-./:;<&＃61;>?&＃64;[]^_&＃96;{|}~\t\n’&＃xff0c;包含标点符号&＃xff0c;制表符和换行符等
lower&＃xff1a;布尔值&＃xff0c;是否将序列设为小写形式
split&＃xff1a;字符串&＃xff0c;单词的分隔符&＃xff0c;如空格
char_level&＃xff1a;如果为True&＃xff0c;每个字符将被视为一个标记
oov_token &＃xff1a;如果给出&＃xff0c;会添加到词索引中&＃xff0c;用来替换超出词表的字符。

类方法

fit_on_texts(texts)
- texts&＃xff1a;要用以训练的文本序列
texts_to_sequences(texts)
- texts&＃xff1a;待转为序列的文本列表
- 返回值&＃xff1a;序列的列表&＃xff0c;列表中每个序列对应于一段输入文本
fit_on_sequences(sequences)
- sequences&＃xff1a;要用以训练的序列列表
sequences_to_matrix(sequences)
- sequences&＃xff1a;待向量化的序列列表
- mode&＃xff1a;‘binary’&＃xff0c;‘count’&＃xff0c;‘tfidf’&＃xff0c;‘freq’之一&＃xff0c;默认为’binary’
- 返回值&＃xff1a;形如(len(sequences), nb_words)的numpy array

属性

word_counts:字典&＃xff0c;将单词&＃xff08;字符串&＃xff09;映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。
word_docs: 字典&＃xff0c;将单词&＃xff08;字符串&＃xff09;映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。
word_index: 字典&＃xff0c;将单词&＃xff08;字符串&＃xff09;映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。
document_count: 整数。分词器被训练的文档&＃xff08;文本或者序列&＃xff09;数量。仅在调用fit_on_texts或fit_on_sequences之后设置

代码

import tensorflow as tf from tensorflow import keras from keras.preprocessing.text import Tokenizer sentences &＃61; [&＃39;I love my dog&＃39;,&＃39;I love my cat&＃39;,&＃39;You love my dog! &＃39;] tokenizer &＃61; Tokenizer(num_words &＃61; 100,filters&＃61;&＃39;!"#$%&()*&＃43;,-./:;<&＃61;>?&＃64;[]^_&＃96;{|}~tn&＃39;,lower&＃61;True,split&＃61;&＃39; &＃39;,oov_token&＃61;&＃39;<00f>&＃39;,char_level&＃61;False) tokenizer.fit_on_texts(sentences) word_index &＃61; tokenizer.word_index print(word_index)

输出&＃xff1a;

{&＃39;love&＃39;: 1, &＃39;my&＃39;: 2, &＃39;i&＃39;: 3, &＃39;dog&＃39;: 4, &＃39;ca&＃39;: 5, &＃39;you&＃39;: 6}

我的理解&＃xff1a;

将文本中每个词进行编码&＃xff0c;然后每个词就有唯一一个索引&＃xff0c;这个文本就转换为了数字。

2 tensorflow.keras实现IMDB情感分类实战

数据文件下载
口令&＃xff1a;hygu9z

2.1 数据准备

import numpy as np import tensorflow as tf import tensorflow.keras as keras import os origin_dir &＃61; &＃39;E:\\黑马课程\\数据集&＃39; train_dir &＃61; origin_dir &＃43; &＃39;\\aclImdb\\train&＃39; test_dir &＃61; origin_dir &＃43; &＃39;\\aclImdb\\test&＃39; texts &＃61; [] labels &＃61; [] for fname in os.listdir(train_dir&＃43;&＃39;\\neg&＃39;):with open(train_dir&＃43;&＃39;\\neg\\&＃39;&＃43;fname,&＃39;r&＃39;,encoding&＃61;&＃39;utf8&＃39;) as f:texts.append(f.read())labels.append(0) for fname in os.listdir(train_dir&＃43;&＃39;\\pos&＃39;):with open(train_dir&＃43;&＃39;\\pos\\&＃39;&＃43;fname,&＃39;r&＃39;,encoding&＃61;&＃39;utf8&＃39;) as f:texts.append(f.read())labels.append(1)from sklearn.model_selection import train_test_split training_sentences,testing_sentences, training_labels,testing_labels &＃61; train_test_split(texts,labels, test_size&＃61;0.2)

2.2 数据预处理

分词与编码&＃xff1a;用 keras.preprocessing.text.Tokenizer 匹配文本 texts. 再用 tokenizer 将文本列表转化为数字列表 sequences&＃xff08;列表中的每个元素都是由整数构成的列表&＃xff09;。
word_index 是将单词对应到整数的字典&＃xff1a;{‘the’:1, ‘and’:2, ‘a’:3, … }
再用 keras.preprocessing.pad_sequences 将列表中每个元素都变成长为 200的整数列表。返回值是 ndarray&＃xff0c;形状为 (25000,200)

vocab_size &＃61; 10000 #每个评论加载的最大数据 max_length &＃61; 200 trunc_type&＃61;&＃39;post&＃39; oov_tok &＃61; ""from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequencestokenizer &＃61; Tokenizer(num_words &＃61; vocab_size, oov_token&＃61;oov_tok) tokenizer.fit_on_texts(training_sentences) word_index &＃61; tokenizer.word_index sequences &＃61; tokenizer.texts_to_sequences(training_sentences) # 填充或者截断评论 padded &＃61; pad_sequences(sequences,maxlen&＃61;max_length, truncating&＃61;trunc_type)testing_sequences &＃61; tokenizer.texts_to_sequences(testing_sentences) testing_padded &＃61; pad_sequences(testing_sequences,maxlen&＃61;max_length) # 将键值对换&＃xff0c;数字标识在前 reverse_word_index &＃61; dict([(value, key) for (key, value) in word_index.items()]) # 查看处理后的数据和之前的数据 def decode_review(text):return &＃39; &＃39;.join([reverse_word_index.get(i, &＃39;?&＃39;) for i in text])

2.3 模型训练

简单地建立一个Sequential模型&＃xff0c;由三层构成&＃xff1a;Embedding,Flatten , Dense.
模型输入参数形状是 (batch_size, 200)&＃xff0c;表示由 batch_size 个长度200的整数向量构成。
Embedding层的设定参数是(10000,16)&＃xff0c;表示将10000个整数映射到10000个长度为16的向量。
Flatten将向量转换为一维
Dense全连接层用sigmoid激活函数输出一个值&＃xff0c;将其二分类。
训练模型10个epoch&＃xff0c;batch_size&＃61;32

embedding_dim &＃61; 16 model &＃61; tf.keras.Sequential([tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length&＃61;max_length),tf.keras.layers.Flatten(),tf.keras.layers.Dense(6, activation&＃61;&＃39;relu&＃39;),tf.keras.layers.Dense(1, activation&＃61;&＃39;sigmoid&＃39;) ]) model.compile(loss&＃61;&＃39;binary_crossentropy&＃39;,optimizer&＃61;&＃39;adam&＃39;,metrics&＃61;[&＃39;accuracy&＃39;]) model.summary() # 转换数据&＃xff0c;放入模型训练 training_labels_final &＃61; np.array(training_labels) testing_labels_final &＃61; np.array(testing_labels) num_epochs &＃61; 10 model.fit(padded, training_labels_final, epochs&＃61;num_epochs, validation_data&＃61;(testing_padded, testing_labels_final))

2.4 可视化训练效果

import matplotlib.pyplot as plt acc &＃61; history.history[&＃39;acc&＃39;] val_acc &＃61; history.history[&＃39;val_acc&＃39;] plt.plot(np.arange(1,len(acc)&＃43;1), acc) plt.plot(np.arange(1,len(acc)&＃43;1), val_acc) plt.legend([&＃39;acc&＃39;,&＃39;val_acc&＃39;]) plt.title(&＃39;Accuracy (Non-pretrained embedding & LSTM)&＃39;) plt.figure()loss &＃61; history.history[&＃39;loss&＃39;] val_loss &＃61; history.history[&＃39;val_loss&＃39;] plt.plot(np.arange(1,len(loss)&＃43;1), loss) plt.plot(np.arange(1,len(val_loss)&＃43;1), val_loss) plt.legend([&＃39;loss&＃39;,&＃39;val_loss&＃39;]) plt.title(&＃39;Loss (Non-pretrained embedding & LSTM)&＃39;) plt.show()

在这里插入图片描述

2.5 结果预测

预测测试集中前10个&＃xff0c;如果需要预测新的文本&＃xff0c;需要处理格式为向量

print(model.predict(testing_padded[:10]))

推荐阅读

blob
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
split
数学建模入门python绘制频率直方图

文章目录例题数据处理绘图操作调用演示例题数据处理将以下的数据保存到磁盘上17275169551696417165167471716216867165521696216865 ... [详细]

蜡笔小新 2023-10-17 15:01:10
get
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
get
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
get
开发笔记:线性回归读取txt

txt中部分数据如下：1.0000000.067732 ... [详细]

蜡笔小新 2023-10-16 20:02:25
get
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
object
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
split
正则表达式_re模块的使用方法详解

本文详细介绍了Python中正则表达式和re模块的使用方法。首先解释了转义符的作用，以及如何在字符串中包含特殊字符。然后介绍了re模块的功能和常用方法。通过学习本文，读者可以掌握正则表达式的基本概念和使用技巧，进一步提高Python编程能力。 ... [详细]

蜡笔小新 2023-12-10 19:04:04
get
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
version
Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程

Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本）安装教程 ... [详细]

蜡笔小新 2023-10-17 21:10:23
version
Python15行代码实现免费发送手机短信，推送消息「建议收藏」

Python15行代码实现免费发 ... [详细]

蜡笔小新 2023-10-17 20:46:15
process
python 终止函数命令_如何使“停止”按钮终止已经在Tkinter（Python）中运行的“启动”函数...

我用Tkinter制作了一个图形用户界面，有两个主按钮：“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]

蜡笔小新 2023-10-17 20:02:38
php
包含vb.net同时运行的词条

vb.net不用多线程如何同时运行两个过程？不用多线程？即使用多线程，也不会是“同时”执行，题主只要略懂一些计算机编译原理就能明白了。不用多线程更不可能让两个过程同步执行了。不过可 ... [详细]

蜡笔小新 2023-10-17 18:18:35
get
IT十八掌作业_java基础第21天_mysql

感谢大家对IT十八掌大数据的支持，今天的作业如下：1.实践PreparedStament的CRUD操作。2.对比Statement和PreparedStatement的大批量操作耗时?(1 ... [详细]

蜡笔小新 2023-10-17 17:53:34
object
python对excel增删改查_Python（数据分析篇） Pandas框架【一】DataFrame数据创建以及元素的增删改查...

文章目录前言pandas主要分为如下几个阶段：表格数据操作：增删改查实现多个表格的处理数据清洗操作：缺失值、重复值、异常值、数据标准化、数 ... [详细]

蜡笔小新 2023-10-17 14:45:06

拍友2602924913

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章