CodeBERT理解

作者：mobiledu2502856013 | 来源：互联网 | 2023-10-15 13:33

1.动机大型的预训练模型，比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型，比如ViBE

1.动机

大型的预训练模型&＃xff0c;比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型&＃xff0c;比如ViBERT、VideoBERT&＃xff08;他们从双模式数据&＃xff0c;比如语言-图像对中进行自监督学习&＃xff09;

CodeBERT&＃xff0c;是一种用于编程语言&＃xff08;PL&＃xff09;和自然语言&＃xff08;NL&＃xff09;的bimodal预训练模型。CodeBERT捕获自然语言和编程语言的语义连接&＃xff0c;生成能广泛支持NL-PL理解任务&＃xff08;自然语言代码搜索&＃xff09;和生成任务&＃xff08;代码文档生成&＃xff09;的通用表示形式。

为了利用NL-PL pairs bimodal 实例和大量可用的uni-modal 代码&＃xff0c;训练CodeBERT时用一个混合目标函数&＃xff08;包含标准掩码语言模型和 replaced token detection&＃xff09;

replaced token detection

在BERT中&＃xff0c;句子内15%的token被选中&＃xff0c;其中80%被[MASK]替换&＃xff0c;10%被随机替换&＃xff0c;10%保持不变&＃xff0c;随后将替换后的句子输入到BERT中用于预测那些被替换的token。

论文作者认为BERT只学习这15%的token有点浪费算力&＃xff0c;还存在[MASK]不会在实际任务中出现的问题。于是&＃xff0c;文章提出了一个新的预训练任务&＃xff1a;replaced token detection&＃xff0c;即首先使用一个生成器预测句中被mask掉的token&＃xff0c;接下来使用预测的token替代句中的[MASK]标记&＃xff0c;然后使用一个判别器区分句中的每个token是原始的还是替换后的。
在这里插入图片描述
在预训练后&＃xff0c;将判别器用于用于下游任务。作者认为replaced token detection任务让模型&＃xff08;判别器&＃xff09;可以在所有的token上学习&＃xff0c;而不是那些仅仅被mask掉的token&＃xff0c;这使得计算效率更高。

2.1模型架构

遵循 BERT 和 RoBERTa &＃xff0c;并使用了多层双向 Transformer 作为 CodeBERT 的模型架构。通过使用与Roberta-Base完全相同的模型架构来开发Codebert。模型参数的总数为125M。

RoBERTa&＃xff1a;
与BERT相比主要有以下几点改进&＃xff1a;

更大的模型参数量&＃xff08;论文提供的训练时间来看&＃xff0c;模型使用 1024 块 V100 GPU 训练了 1 天的时间&＃xff09;
更大bacth size。RoBERTa 在训练过程中使用了更大的bacth size。尝试过从 256 到 8000 不等的bacth size。
更多的训练数据&＃xff08;包括&＃xff1a;CC-NEWS 等在内的 160GB 纯文本。而最初的BERT使用16GB
BookCorpus数据集和英语维基百科进行训练&＃xff09;

另外&＃xff0c;RoBERTa在训练方法上有以下改进&＃xff1a;

去掉下一句预测(NSP)任务
动态掩码。BERT 依赖随机掩码和预测 token。原版的 BERT 实现在数据预处理期间执行一次掩码&＃xff0c;得到一个静态掩码。而 RoBERTa 使用了动态掩码&＃xff1a;每次向模型输入一个序列时都会生成新的掩码模式。这样&＃xff0c;在大量数据不断输入的过程中&＃xff0c;模型会逐渐适应不同的掩码策略&＃xff0c;学习不同的语言表征。
文本编码。Byte-Pair Encoding&＃xff08;BPE&＃xff09;是字符级和词级别表征的混合&＃xff0c;支持处理自然语言语料库中的众多常见词汇。原版的 BERT 实现使用字符级别的 BPE 词汇&＃xff0c;大小为 30K&＃xff0c;是在利用启发式分词规则对输入进行预处理之后学得的。Facebook 研究者没有采用这种方式&＃xff0c;而是考虑用更大的 byte 级别 BPE 词汇表来训练 BERT&＃xff0c;这一词汇表包含 50K 的 subword 单元&＃xff0c;且没有对输入作任何额外的预处理或分词。

2.2输入/输出表示

在预训练阶段&＃xff0c;将输入设置为两个序列与特殊token的串联 $CLS] ,w_{1},w_{1},w_{2},...,w_{n},[SEP],c_{1},c_{2},...,c_{m},[EOS]$ &＃xff0c;其中一个序列是自然语言文本&＃xff0c;另一个是编程语言。 $[C L S]$ 是两个部分前面的特殊token&＃xff0c;其最终隐藏代表被视为分类或排名的汇总序列表示形式。

按照transformers中处理文本的标准方式&＃xff0c;将自然语言文本看作一系列单词&＃xff0c;把它分为WordPiece。把一块代码视为一系列tokens。
输出包括&＃xff1a;

对于自然语言和代码的每个token的上下文向量表示
[CLS]的表示&＃xff0c;该表示充当汇总序列表示

2.3训练数据

训练CodeBERT模型并行使用单峰数据和双峰数据&＃xff0c;双峰数据就是NL-PL对&＃xff0c;单峰数据就是单一的自然语言文本&＃xff0c;或者是单一的代码。
数据来自公开可用的开源非fork github存储库&＃xff0c;并用一组约束和规则过滤。

每个项目至少被另一个项目使用过
每个文档都被截断为第一段
少于三个token的文档被删除
少于三行的函数被删除
函数名带有test的函数被删除

2.4预训练CodeBERT

两个训练目标&＃xff1a;

掩码语言模型&＃xff08;MLM&＃xff09;&＃xff0c;应用于NL-PL pairs的双峰数据
替换token检测&＃xff08;RTD&＃xff09;&＃xff0c;应用于单峰数据

MLM

给定NL-PL pair&＃xff08; $X &＃61; {w&＃xff0c;c}$ &＃xff09;的数据点作为输入&＃xff0c;其中 $w$ 是NL单词的序列&＃xff0c; $c$ 是PL tokens的序列&＃xff0c;我们首先选择NL和PL的随机位置集要掩盖&＃xff08;分别为 $m^{w}$ 和 $m^{c}$ &＃xff09;&＃xff0c;然后用特殊的[MASK] token替换所选位置。其中x中15%的token被mask掉。然后预测被mask掉的原始token。

RTD

在我们的情况下对其进行调整&＃xff0c;并在训练中同时使用双峰和单峰数据。具体而言&＃xff0c;有两个数据生成器&＃xff0c;一个NL&＃xff0c;一个PL&＃xff0c;均用于为一组随机掩盖的位置生成合理的替代方案。

判别器被训练检测一个单词是否是原始的单词&＃xff0c;这是一个二分类问题。值得注意的是&＃xff0c;RTD适用于输入的每个位置&＃xff0c;如果生成器生成的单词恰好是原来真实的单词&＃xff0c;则标签为 real 而不是 fake

在这里插入图片描述
NL和Code生成器都是语言模型&＃xff0c;它们基于周围的上下文环境生成了被掩盖位置的合理的token&＃xff0c;NL-Code Discriminator是目标的预训练模型&＃xff0c;该模型通过检测从NL和PL生成器采样的合理的可替代方案来训练。NL-Code 判别器用于在微调阶段产生通用的表示。NL和Code生成器在微调阶段被抛出。

2.5微调CodeBERT

有不同的设置可以在下游NL-PL任务中使用Codebert。例如&＃xff0c;在自然语言代码搜索中&＃xff0c;我们将输入与预训练阶段相同&＃xff0c;并使用[CLS]的表示来测量代码和自然语言查询之间的语义相关性&＃xff0c;而在代码到文本中生成&＃xff0c;我们使用编码 - 解码器框架&＃xff0c;并使用Codebert初始化生成模型的编码器。

3源码分析

从头开始预训练RoBERTa模型的步骤&＃xff1a;

利用Tokenizer对语料分词
配置RoBERTa模型
训练任务的代码
数据输入模型进行训练

3.1对语料进行分词——RobertaTokenizer

核心代码在\transformers\models\roberta\tokenization_roberta.py

3.2配置RoBERTa模型

核心代码在\transformers\models\roberta\modeling_roberta.py。

3.3训练任务的代码

MLM任务&＃xff1a;

class RobertaLMHead(nn.Module): """Roberta Head for masked language modeling.""" def __init__(self, config): super().__init__() self.dense &＃61; nn.Linear(config.hidden_size, config.hidden_size) self.layer_norm &＃61; nn.LayerNorm(config.hidden_size, eps&＃61;config.layer_norm_eps) self.decoder &＃61; nn.Linear(config.hidden_size, config.vocab_size) self.bias &＃61; nn.Parameter(torch.zeros(config.vocab_size)) self.decoder.bias &＃61; self.bias def forward(self, features, **kwargs): x &＃61; self.dense(features) x &＃61; gelu(x) x &＃61; self.layer_norm(x) # project back to size of vocabulary with bias x &＃61; self.decoder(x) return x

对输入的embedding进行线性变换、激活和层归一化
输出形状为[batch_size, seq_length, vocab_size]&＃xff0c;即预测每个句子每个词是什么类别的概率值

3.4数据输入模型进行训练

class RobertaForMaskedLM(RobertaPreTrainedModel): _keys_to_ignore_on_save &＃61; [r"lm_head.decoder.weight", r"lm_head.decoder.bias"] _keys_to_ignore_on_load_missing &＃61; [r"position_ids", r"lm_head.decoder.weight", r"lm_head.decoder.bias"] _keys_to_ignore_on_load_unexpected &＃61; [r"pooler"] def __init__(self, config): super().__init__(config) if config.is_decoder: logger.warning( "If you want to use &＃96;RobertaForMaskedLM&＃96; make sure &＃96;config.is_decoder&＃61;False&＃96; for " "bi-directional self-attention." ) self.roberta &＃61; RobertaModel(config, add_pooling_layer&＃61;False) self.lm_head &＃61; RobertaLMHead(config) # The LM head weights require special treatment only when they are tied with the word embeddings self.update_keys_to_ignore(config, ["lm_head.decoder.weight"]) # Initialize weights and apply final processing self.post_init() def get_output_embeddings(self): return self.lm_head.decoder def set_output_embeddings(self, new_embeddings): self.lm_head.decoder &＃61; new_embeddings &＃64;add_start_docstrings_to_model_forward(ROBERTA_INPUTS_DOCSTRING.format("batch_size, sequence_length")) &＃64;add_code_sample_docstrings( processor_class&＃61;_TOKENIZER_FOR_DOC, checkpoint&＃61;_CHECKPOINT_FOR_DOC, output_type&＃61;MaskedLMOutput, config_class&＃61;_CONFIG_FOR_DOC, mask&＃61;"", expected_output&＃61;"&＃39; Paris&＃39;", expected_loss&＃61;0.1, ) def forward( self, input_ids: Optional[torch.LongTensor] &＃61; None, attention_mask: Optional[torch.FloatTensor] &＃61; None, token_type_ids: Optional[torch.LongTensor] &＃61; None, position_ids: Optional[torch.LongTensor] &＃61; None, head_mask: Optional[torch.FloatTensor] &＃61; None, inputs_embeds: Optional[torch.FloatTensor] &＃61; None, encoder_hidden_states: Optional[torch.FloatTensor] &＃61; None, encoder_attention_mask: Optional[torch.FloatTensor] &＃61; None, labels: Optional[torch.LongTensor] &＃61; None, output_attentions: Optional[bool] &＃61; None, output_hidden_states: Optional[bool] &＃61; None, return_dict: Optional[bool] &＃61; None, ) -> Union[Tuple[torch.Tensor], MaskedLMOutput]: r""" labels (&＃96;torch.LongTensor&＃96; of shape &＃96;(batch_size, sequence_length)&＃96;, *optional*): Labels for computing the masked language modeling loss. Indices should be in &＃96;[-100, 0, ..., config.vocab_size]&＃96; (see &＃96;input_ids&＃96; docstring) Tokens with indices set to &＃96;-100&＃96; are ignored (masked), the loss is only computed for the tokens with labels in &＃96;[0, ..., config.vocab_size]&＃96; kwargs (&＃96;Dict[str, any]&＃96;, optional, defaults to *{}*): Used to hide legacy arguments that have been deprecated. """ return_dict &＃61; return_dict if return_dict is not None else self.config.use_return_dict outputs &＃61; self.roberta( input_ids, attention_mask&＃61;attention_mask, token_type_ids&＃61;token_type_ids, position_ids&＃61;position_ids, head_mask&＃61;head_mask, inputs_embeds&＃61;inputs_embeds, encoder_hidden_states&＃61;encoder_hidden_states, encoder_attention_mask&＃61;encoder_attention_mask, output_attentions&＃61;output_attentions, output_hidden_states&＃61;output_hidden_states, return_dict&＃61;return_dict, ) sequence_output &＃61; outputs[0] prediction_scores &＃61; self.lm_head(sequence_output) masked_lm_loss &＃61; None if labels is not None: loss_fct &＃61; CrossEntropyLoss() masked_lm_loss &＃61; loss_fct(prediction_scores.view(-1, self.config.vocab_size), labels.view(-1)) if not return_dict: output &＃61; (prediction_scores,) &＃43; outputs[2:] return ((masked_lm_loss,) &＃43; output) if masked_lm_loss is not None else output return MaskedLMOutput( loss&＃61;masked_lm_loss, logits&＃61;prediction_scores, hidden_states&＃61;outputs.hidden_states, attentions&＃61;outputs.attentions, )

推荐阅读

uri
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
chat
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
object
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
heap
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
object
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
object
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
object
基于双Xilinx Kintex-7 FPGA的高性能6U VPX存储板

VPX611是北京青翼科技推出的一款采用6U VPX架构的高性能数据存储板。该板卡搭载两片Xilinx Kintex-7系列FPGA作为主控单元，内置RAID控制器，支持多达8个mSATA盘，最大存储容量可达8TB，持续写入带宽高达3.2GB/s。 ... [详细]

蜡笔小新 2024-12-26 11:41:58
random
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
object
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
object
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
join
Python——对象自省

对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ... [详细]

蜡笔小新 2024-12-23 12:55:35
text
解决FCKeditor应用主题后上传问题及优化配置

本文介绍了在Freetextbox收费后选择FCKeditor作为替代方案时遇到的上传问题及其解决方案。通过调整配置文件和调试工具，最终解决了上传失败的问题，并对相关配置进行了优化。 ... [详细]

蜡笔小新 2024-12-23 12:43:29
testing
优化SQL Server批量数据插入存储过程的实现

本文介绍了一种改进的SQL Server存储过程，用于生成批量插入语句。该方法不仅提高了性能，还支持单行和多行模式，适用于SQL Server 2005及以上版本。 ... [详细]

蜡笔小新 2024-12-21 06:43:52
install
深入解析 Vue 的 Transition 组件与第三方动画库的结合使用

本文详细介绍了 Vue 中的 Transition 组件，探讨其内置类名机制、触发时机及自定义类名的应用。同时，结合 animate.css 和 GSAP 等第三方库，展示了如何实现复杂的动画效果。 ... [详细]

蜡笔小新 2024-12-24 15:37:16
object
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31

mobiledu2502856013

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章