huggingfacetransformers框架学习

作者：手机用户2602889207 | 来源：互联网 | 2023-08-11 21:21

前言该框架可以说非常简单，是基于pytorch的预训练框架，很多开源项目都是基于其开发的，所以学一学很有必要，对我们自己i

前言

该框架可以说非常简单&＃xff0c;是基于pytorch的预训练框架&＃xff0c;很多开源项目都是基于其开发的&＃xff0c;所以学一学很有必要&＃xff0c;对我们自己idea的快速落地也有很大的帮助。

关于其简单的用法【比如怎么fintune】&＃xff0c;网上一大推&＃xff0c;这里不再累述&＃xff0c;本篇主要讲一下面对一些较为复杂的需求的时候&＃xff0c;我们该怎么办&＃xff0c;同时罗列一些案例【一些paper和开源项目】进行参考&＃xff0c;以后大家可以仿照这些例子进行魔改自己的需求&＃xff0c;这也是本篇区别其他的博客的一个最大亮点。

文档&＃xff1a;BERT — transformers 4.11.3 documentation

二次预训练

网上一堆fintune的demo&＃xff0c;但是对pretrain的讲解却很少&＃xff0c;即使有&＃xff0c;也是一些理论分析&＃xff0c;假设我现在就是想在我自己领域的语料上继续无监督预训练一下模型&＃xff0c;该怎么办呢&＃xff1f;甚至我现在有了自己一个新的mask策略【mlm】或者我还想多加几个自己想的辅助性任务【原始bert是mlm和nsp】&＃xff0c;这时候怎么使用该框架在公开的预训练模型上热启接着预训练呢?

这方面的demo基本没有&＃xff0c;这里分享一个笔者看过的开源项目&＃xff0c;这是一个二次预训练的demo&＃xff0c;其涉及到mlm实现以及怎么加辅助性任务甚至该transformers源码。

笔者也对其进行了代码解读&＃xff0c;感兴趣的可以看一下&＃xff1a;

ERICA 代码解读_爱吃火锅的博客-CSDN博客

也可以看&＃xff1a;

https://colab.research.google.com/github/huggingface/blog/blob/master/notebooks/01_how_to_train.ipynb#scrollTo&＃61;IMnymRDLe0hi

获取各种返回

我们有时候想获得bert的一些中间层的输出&＃xff0c;如12层的transformer每一层的输出或者各个attentions的输出等等&＃xff0c;其实该框架的API设置都可以返回&＃xff1a;

只要要在调用API时将output_hidden_states和output_attentions设置为True如下&＃xff1a;

那么返回的结果就有了

随便为了方便取得对应结果&＃xff0c;可以将71行的retuen_dict也设置为True,这样在取结果时就很方便&＃xff0c;如

取pooler_output&＃xff1a;output_dict[&＃39;pooler_output&＃39;]

取hidden_states&＃xff1a;output_dict[&＃39;hidden_states&＃39;]

取attentions&＃xff1a;output_dict[&＃39;attentions&＃39;]

需要注意&＃xff0c;其中hidden_states和attentions返回的都是一个tuple不是tensor,且前者是一个13层【emb&＃43;each layer】,后者是一个12层【each layer】,如下&＃xff1a;

那什么时候&＃xff0c;需要这些结果呢&＃xff1f;这里举个例子&＃xff1a;蒸馏&＃xff0c;蒸馏这个场景下就经常会使用到这些结果&＃xff0c;具体怎么在该框架下蒸馏呢&＃xff1f;这里也分享一个笔者看过的项目&＃xff0c;笔者也对其进行了解读&＃xff0c;感兴趣的可以看&＃xff1a;

对话系统评价指标QuantiDCE 代码解读_爱吃火锅的博客-CSDN博客

具体蒸馏代码在fintune一节中

当然关于在huggingface框架下进行蒸馏也有一个开源框架即TextBrewer&＃xff0c;其是哈工大讯飞联合实验室发布的&＃xff0c;感兴趣的也可以用一用

论文&＃xff1a;https://arxiv.org/abs/2002.12620

源码&＃xff1a;GitHub - airaria/TextBrewer: A PyTorch-based knowledge distillation toolkit for natural language processing

层数的重定义

待更新

推荐阅读

go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
在Windows应用程序中模拟会话 - Simulating session in a Windows app

Iamworkingonawindowsapplication.IneedtosimulateSession(thatwehaveinawebapp)inthe ... [详细]

蜡笔小新 2024-09-28 08:17:27
go
自定义RecyclerView添加EmptyView

你知道RecyclerView里没有Em ... [详细]

蜡笔小新 2024-09-30 15:31:47
go
GoogleLog(GLog)源码分析

本文分析和介绍了GLo ... [详细]

蜡笔小新 2024-09-30 15:14:04
go
spotify engineering culture part 1

原文，因为原视频说的太快太长，又没有字幕，于是借助youtube，把原文听&打出来了。中文版日后有时间再翻译。oneofthebigsucceessfactorshereatSpo ... [详细]

蜡笔小新 2024-09-30 13:36:17
go
在for循环中测试索引 - Python [重复] - Testing an index in a for loop - Python [duplicate]

Thisquestionalreadyhasananswerhere:这个问题在这里已有答案：Iteratealistaspair(current,n ... [详细]

蜡笔小新 2024-09-29 17:33:30
go
删除数组中的第一级标识符。 - Remove first levels of identifier in array

Ithinkthishasbeenupbefore,butcouldntfindanyanswertoit.Ifitsalreadyansweredplease ... [详细]

蜡笔小新 2024-09-29 12:47:47
go
activiti拿取当前任务的下一个节点

在实际的工作流业务开发中,当用户完成当前用户任务时,需要指定下一个用户任务的审核人。此时我们需要获取下一个节点的一些信息,来确定下一个用户任务的审核人有哪些。在实际工 ... [详细]

蜡笔小新 2024-09-28 13:14:19
process
Window Service 创建：在后台执行一个服务，可定时做一些操作，如轮询数据库，定时发邮件 .

1，Windows服务应用程序是一种需要长期运行的应用程序，它对于服务器环境特别适合。它没有用户界面，并且也不会产生任何可视输出。任何用户 ... [详细]

蜡笔小新 2024-09-27 18:43:07
go
Android JNI学习之Concepts

2019独角兽企业重金招聘Python工程师标准ConceptsBeforeBeginningThisguideassumesthatyouare:Alreadyfamili ... [详细]

蜡笔小新 2024-09-27 09:16:45
join
Electron中globalShortcut模块注册全局快捷键

Electron中使用globalShortcut模块来注册全局快捷键，以实现类似于微信和QQ按快捷键调用剪切窗口的功能。快捷键在应用程序加载完成后进行注册 ... [详细]

蜡笔小新 2024-09-27 08:08:34
go
SciKitLearn标签编码器导致错误“参数必须是字符串或数字”

我有点困惑-在这里创建ML模型。我正在尝试从“大”数据框（180列）中获 ... [详细]

蜡笔小新 2024-09-26 18:39:21
go
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
include
org.apache.solr.common.SolrDocument.setField()方法的使用及代码示例

本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例，展示了SolrDocum ... [详细]

蜡笔小新 2023-12-09 06:54:05
char
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14

手机用户2602889207

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章