BERT模型的应用与实践

作者：mobiledu2502934573 | 来源：互联网 | 2024-11-03 13:20

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。

1. transformer资料

transformers&＃xff08;以前称为pytorch-transformers和pytorch-pretrained-bert&＃xff09;

提供用于自然语言理解&＃xff08;NLU&＃xff09;和自然语言生成&＃xff08;NLG&＃xff09;的BERT家族通用结构&＃xff08;BERT&＃xff0c;GPT-2&＃xff0c;RoBERTa&＃xff0c;XLM&＃xff0c;DistilBert&＃xff0c;XLNet等&＃xff09;&＃xff0c;包含超过32种、涵盖100多种语言的预训练模型

2.使用

import numpy as np import torch

下载transformers包

!pip install transformers

下载分词器和模型

from transformers import BertTokenizer,BertModel

下载bert-base-chinese的config.josn&＃xff0c;vocab.txt&＃xff0c;pytorch_model.bin三个文件后&＃xff0c;放在bert-base- chinese文件夹下&＃xff0c;此例中该文件夹放在F:/Transformer-Bert/下#导入分词器

model_name &＃61; &＃39;bert-base-chinese&＃39; MODEL_PATH &＃61; &＃39;F:/Transformer-Bert/bert-base-chinese/&＃39;

导入分词器

tokenizer &＃61; BertTokenizer.from_pretrained(model_name)

导入配置文件

model_config &＃61; BertConfig.from_pretrained(model_name)

修改配置

model_config.output_hidden_states &＃61; True model_config.output_attentions &＃61; True

通过配置和路径导入模型

bert_model &＃61; BertModel.from_pretrained(MODEL_PATH, config &＃61; model_config)

输入文本

input_text &＃61; "我爱伟大的祖国"

# 通过tokenizer把文本变成 token_id

encode仅返回input_ids

encode_plus返回所有编码信息

input_ids&＃xff1a;是单词在词典中的编码

token_type_ids&＃xff1a;区分两个句子的编码&＃xff08;上句全为0&＃xff0c;下句全为1&＃xff09;

attention_mask&＃xff1a;指定对哪些词进行self-Attention操作

input_ids &＃61; tokenizer.encode(input_text) sen_code &＃61; tokenizer.encode_plus(&＃39;这个故事没有终点&＃39;, "正如星空没有彼岸")

#print(sen_code)

# {&＃39;input_ids&＃39;: [101, 6821, 702, 3125, 752, 3766, 3300, 5303, 4157, 102, 3633, 1963, 3215, 4958, 3766, 3300, 2516, 2279, 102],

# &＃39;token_type_ids&＃39;: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1],
# &＃39;attention_mask&＃39;: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

将input_id转化回token

tokenizer.convert_ids_to_tokens(sen_code[&＃39;input_ids&＃39;])

转化为tensor

tokens_tensor &＃61; torch.tensor([sen_code[&＃39;input_ids&＃39;]]) # 添加batch维度并,转换为tensor,torch.Size([1, 19]) segments_tensors &＃61; torch.tensor(sen_code[&＃39;token_type_ids&＃39;]) # torch.Size([19]) bert_model.eval() # 进行编码 with torch.no_grad():outputs &＃61; bert_model(tokens_tensor, token_type_ids &＃61; segments_tensors)encoded_layers &＃61; outputs # outputs类型为tupleprint(encoded_layers[0].shape, encoded_layers[1].shape, encoded_layers[2][0].shape, encoded_layers[3][0].shape)# torch.Size([1, 19, 768]) torch.Size([1, 768])# torch.Size([1, 19, 768]) torch.Size([1, 12, 19, 19])

Bert最终输出的结果维度为&＃xff1a;sequence_output, pooled_output, (hidden_states), (attentions)

以输入序列为19为例&＃xff1a;

sequence_output&＃xff1a;torch.Size([1, 19, 768])
输出序列

pooled_output&＃xff1a;torch.Size([1, 768])
对输出序列进行pool操作的结果

(hidden_states)&＃xff1a;tuple, 13 * torch.Size([1, 19, 768])
隐藏层状态&＃xff08;包括Embedding层&＃xff09;&＃xff0c;取决于 model_config 中的 output_hidden_states

(attentions)&＃xff1a;tuple, 12 * torch.Size([1, 12, 19, 19])
注意力层&＃xff0c;取决于 model_config 中的 output_attentions

2. 遮蔽语言模型 Masked Language Model

BERT以训练遮蔽语言模型&＃xff08;Masked Language Model&＃xff09;作为预训练目标。

具体来说就是把输入的语句中的字词随机用 [MASK] 标签覆盖&＃xff0c;然后训练模型结合被覆盖的词的左侧和右侧上下文进行预测。

可以看出&＃xff0c;BERT 的做法与从左向右语言模型只通过左侧语句预测下一个词的做法相比&＃xff0c;遮蔽语言模型能够生成同时融合了左、右上下文的语言表示。

这种做法能够使 BERT 学到字词更完整的语义表示。

推荐阅读

list
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
import
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
utf-8
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
utf-8
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
bit
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
bit
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
utf-8
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
list
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
list
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
list
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
import
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
import
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
uri
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
uri
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
list
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19

mobiledu2502934573

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章