当前位置: 开发笔记 > 编程语言 > 正文

【Pytorch神经网络实战案例】33使用BERT模型实现完形填空任务

作者：xuncijins | 来源：互联网 | 2023-08-30 12:10

1案例描述案例：加载Transformers库中的BERT模型，并用它实现完形填空任务，即预测一个句子中缺失的单词。2代码实现：使用BERT模型实现完形填空任务2.1代码实现：载入

1 案例描述

案例：加载Transformers库中的BERT模型，并用它实现完形填空任务，即预测一个句子中缺失的单词。

2 代码实现：使用BERT模型实现完形填空任务

2.1 代码实现：载入词表，并对输入的文本进行分词转化---BERT_MASK.py（第1部分）

2.2 代码实现：遮蔽单词，并将其转换为索引值---BERT_MASK.py（第2部分）

# 1.2 遮蔽单词，并将其转换为索引值，使用标记字符[MAS]代替输入文本中索引值为8的单词，对“Li”进行遮蔽，并将整个句子中的单词转换为词表中的索引值。 masked_index = 8 # 掩码一个标记，再使用'BertForMaskedLM'预测回来 tokenized_text[masked_index] = '[MASK]' # 标记字符[MASK]，是BERT模型中的特殊标识符。在BERT模型的训练过程中，会对输入文本的随机位置用[MASK]字符进行替换，并训练模型预测出[MASK]字符对应的值。 print("句子中的索引：",tokenized_text) # 句子中的索引：['[CLS]','who','is','li','big','##or','?','[SEP]','[MASK]','big','##or','is','a','programmer','[SEP]'] # 将标记转换为词汇表索引 indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) # 将输入转换为PyTorch张量 tokens_tensor = torch.tensor([indexed_tokens]) print("句子中的向量：",tokens_tensor) # 句子中的向量：tensor([[101,2040,2003,5622,2502,2953,1029,102,103,2502,2953,2003,1037,20273,102]])

2.3 代码实现：加载预训练模型，并对遮蔽单词进行预测---BERT_MASK.py（第3部分）

# 1.3 加载预训练模型，并对遮蔽单词进行预测 # 指定设备 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") print(device) # 加载预训练模型 (weights) model = BertForMaskedLM.from_pretrained('bert-base-uncased') # 用BertForMaskedLM类加载模型，该类可以对句子中的标记字符[MASK]进行预测。 model.eval() model.to(device) # 段标记索引：定义输入的BertForMaskedLM类句子指示参数，用于指示输入文本中的单词是属于第一句还是属于第二句。属于第一句的单词用0来表示（一共8个)，属于第二句的单词用1来表示（一共7个)。 segments_ids = [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1] segments_tensors = torch.tensor([segments_ids]).to(device) tokens_tensor = tokens_tensor.to(device) # 预测所有的tokens with torch.no_grad(): # 将文本和句子指示参数输入模型进行预测。 # 输出结果是一个形状为[1，15，30522]的张量。其中，1代表批次个数，15代表输入句子中的15个单词，30522是词表中单词的个数。 # 模型的结果表示词表中每个单词在句子中可能出现的概率。 outputs = model(tokens_tensor, token_type_ids=segments_tensors) predictiOns= outputs[0] # [1, 15, 30522] # 预测结果：从输出结果中取出[MASK]字符对应的预测索引值。 predicted_index = torch.argmax(predictions[0, masked_index]).item() # 将预测索引值转换为单词。 predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0] print('预测词为:', predicted_token) # 预测词为: li 3 代码总览---BERT_MASK.py

import torch from transformers import BertTokenizer, BertForMaskedLM # 1.1 载入词表，并对输入的文本进行分词转化 # 加载预训练模型 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') # 输入文本，BERT模型需要特殊词来标定句子： # [CLS]：标记一个段落的开始。一个段落可以有一个或多个句子，但是只能有一个[CLS]。[CLS]在BERT模型中还会被用作分类任务的输出特征。 # [SEP]：标记一个句子的结束。在一个段落中，可以有多个[SEP]。 text = "[CLS] Who is Li BiGor ? [SEP] Li BiGor is a programmer [SEP]" tokenized_text = tokenizer.tokenize(text) # 使用词表对输入文本进行转换。与中文分词有点类似。由于词表中不可能覆盖所有的单词，因此当输入文本中的单词不存在时，系统会使用带有通配符的单间（以“#”开头的单词）将其拆开。 print("词表转化结果：",tokenized_text) # 词表转化结果：['[CLS]','who','is','li','big','##or','?','[SEP]','li','big','##or','is','a','programmer','[SEP]'] # 1.2 遮蔽单词，并将其转换为索引值，使用标记字符[MAS]代替输入文本中索引值为8的单词，对“Li”进行遮蔽，并将整个句子中的单词转换为词表中的索引值。 masked_index = 8 # 掩码一个标记，再使用'BertForMaskedLM'预测回来 tokenized_text[masked_index] = '[MASK]' # 标记字符[MASK]，是BERT模型中的特殊标识符。在BERT模型的训练过程中，会对输入文本的随机位置用[MASK]字符进行替换，并训练模型预测出[MASK]字符对应的值。 print("句子中的索引：",tokenized_text) # 句子中的索引：['[CLS]','who','is','li','big','##or','?','[SEP]','[MASK]','big','##or','is','a','programmer','[SEP]'] # 将标记转换为词汇表索引 indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) # 将输入转换为PyTorch张量 tokens_tensor = torch.tensor([indexed_tokens]) print("句子中的向量：",tokens_tensor) # 句子中的向量：tensor([[101,2040,2003,5622,2502,2953,1029,102,103,2502,2953,2003,1037,20273,102]]) # 1.3 加载预训练模型，并对遮蔽单词进行预测 # 指定设备 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") print(device) # 加载预训练模型 (weights) model = BertForMaskedLM.from_pretrained('bert-base-uncased') # 用BertForMaskedLM类加载模型，该类可以对句子中的标记字符[MASK]进行预测。 model.eval() model.to(device) # 段标记索引：定义输入的BertForMaskedLM类句子指示参数，用于指示输入文本中的单词是属于第一句还是属于第二句。属于第一句的单词用0来表示（一共8个)，属于第二句的单词用1来表示（一共7个)。 segments_ids = [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1] segments_tensors = torch.tensor([segments_ids]).to(device) tokens_tensor = tokens_tensor.to(device) # 预测所有的tokens with torch.no_grad(): # 将文本和句子指示参数输入模型进行预测。 # 输出结果是一个形状为[1，15，30522]的张量。其中，1代表批次个数，15代表输入句子中的15个单词，30522是词表中单词的个数。 # 模型的结果表示词表中每个单词在句子中可能出现的概率。 outputs = model(tokens_tensor, token_type_ids=segments_tensors) predictiOns= outputs[0] # [1, 15, 30522] # 预测结果：从输出结果中取出[MASK]字符对应的预测索引值。 predicted_index = torch.argmax(predictions[0, masked_index]).item() # 将预测索引值转换为单词。 predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0] print('预测词为:', predicted_token) # 预测词为: li

推荐阅读

sum
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
select
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
format
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
select
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
select
引号快捷键_首选项和设置——自定义快捷键

3.3自定义快捷键（CustomizingHotkeys）ChemDraw快捷键由一个XML文件定义，我们可以根据自己的需要， ... [详细]

蜡笔小新 2023-10-17 19:10:46
sum
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
utf-8
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
utf-8
详解 Python 的二元算术运算，为什么说减法只是语法糖？[Python常见问题]

原题|UnravellingbinaryarithmeticoperationsinPython作者|BrettCannon译者|豌豆花下猫（“Python猫 ... [详细]

蜡笔小新 2023-10-17 15:28:24
数组
KVC/KVO底层实现原理

KVC:Key-valuecodingisamechanismforindirectlyaccessinganobject’sattributesandrelations ... [详细]

蜡笔小新 2023-10-17 13:57:22
js
fileupload NPOI导入EXECL数据

fileuploadJS@sectionscripts{<scriptsrc~Contentjsfileuploadvendorjquery.ui.widget.js ... [详细]

蜡笔小新 2023-10-17 13:40:24
js
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
js
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
format
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
format
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09

xuncijins

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章