使用BERT生成句向量

作者：Rianbow_小渊渊设 | 来源：互联网 | 2023-05-20 00:31

转载请注明出处，原文地址在阅读本文之前如果您对BERT并不了解，请参阅我的其他博文BERT完全指南简介之前的文章介绍了BERT的原理、并用BERT

转载请注明出处&＃xff0c;原文地址

在阅读本文之前如果您对BERT并不了解&＃xff0c;请参阅我的其他博文BERT完全指南

简介

之前的文章介绍了BERT的原理、并用BERT做了文本分类与相似度计算&＃xff0c;本文将会教大家用BERT来生成句向量&＃xff0c;核心逻辑代码参考了hanxiao大神的bert-as-service&＃xff0c;我的代码地址如下&＃xff1a;

代码地址&＃xff1a;BERT句向量

传统的句向量

对于传统的句向量生成方式&＃xff0c;更多的是采用word embedding的方式取加权平均&＃xff0c;该方法有一个最大的弊端&＃xff0c;那就是无法理解上下文的语义&＃xff0c;同一个词在不同的语境意思可能不一样&＃xff0c;但是却会被表示成同样的word embedding&＃xff0c;BERT生成句向量的优点在于可理解句意&＃xff0c;并且排除了词向量加权引起的误差。

BERT句向量

BERT的包括两个版本&＃xff0c;12层的transformer与24层的transformer&＃xff0c;官方提供了12层的中文模型&＃xff0c;下文也将会基于12层的模型来讲解。

每一层transformer的输出值&＃xff0c;理论上来说都可以作为句向量&＃xff0c;但是到底应该取哪一层呢&＃xff0c;根据hanxiao大神的实验数据&＃xff0c;最佳结果是取倒数第二层&＃xff0c;最后一层的值太接近于目标&＃xff0c;前面几层的值可能语义还未充分的学习到。

接下来我们从代码的角度来进详细讲解。

先看下args.py文件&＃xff0c;该文件有几个句向量的重要参数&＃xff0c;前几个都是路径&＃xff0c;这里不再详细解释&＃xff0c;这里主要说一下layer_indexes参数与max_seq_len参数&＃xff0c;layer_indexes表示的是使用第几层的输出作为句向量&＃xff0c;-2表示的是倒数第二层&＃xff0c;max_seq_len表示的是序列的最大长度&＃xff0c;因为输入的长度是不固定的&＃xff0c;所以我们需要设置一个最大长度才能确保输出的维度是一样的&＃xff0c;如果最大长度是20&＃xff0c;当输入的序列长度小于20的时候&＃xff0c;就会补0&＃xff0c;如果大于20则会截取前面的部分 &＃xff0c;通常该值会取语料的长度的平均值&＃43;2&＃xff0c;加2的原因是因为需要拼接两个占位符[CLS]&＃xff08;表示序列的开始&＃xff09;与[SEP]&＃xff08;表示序列的结束&＃xff09;

model_dir &＃61; os.path.join(file_path, &＃39;chinese_L-12_H-768_A-12/&＃39;) config_name &＃61; os.path.join(model_dir, &＃39;bert_config.json&＃39;) ckpt_name &＃61; os.path.join(model_dir, &＃39;bert_model.ckpt&＃39;) output_dir &＃61; os.path.join(model_dir, &＃39;../tmp/result/&＃39;) vocab_file &＃61; os.path.join(model_dir, &＃39;vocab.txt&＃39;) data_dir &＃61; os.path.join(model_dir, &＃39;../data/&＃39;)num_train_epochs &＃61; 10 batch_size &＃61; 32 learning_rate &＃61; 0.00005 # gpu使用率 gpu_memory_fraction &＃61; 0.8 # 默认取倒数第二层的输出值作为句向量 layer_indexes &＃61; [-2]# 序列的最大程度&＃xff0c;单文本建议把该值调小 max_seq_len &＃61; 20再来看graph.py文件&＃xff0c;该代码的主要目的是把预训练好的模型加载进来&＃xff0c;并修改输出层&＃xff0c;我们一步一步来看。首先创建一个目录&＃xff0c;该目录用于存放待输出的文件&＃xff0c;定义bert的配置信息路径&＃xff0c;根据路径读取配置信息转化为bert_config对象。tensorflow.python.tools.optimize_for_inference_lib import optimize_for_inference tf.gfile.MakeDirs(args.output_dir)config_fp &＃61; args.config_name logger.info(&＃39;model config: %s&＃39; % config_fp)# 加载bert配置文件 with tf.gfile.GFile(config_fp, &＃39;r&＃39;) as f:bert_config &＃61; modeling.BertConfig.from_dict(json.load(f))

定义三个占位符&＃xff0c;分别表示的是对应文本的index&＃xff0c;mask与type_index&＃xff0c;其中index表示的是在词典中的index&＃xff0c;mask表示的是该位置是否有内容&＃xff0c;举个例子&＃xff0c;例如序列的最大长度是20&＃xff0c;有效的字符只有10个字&＃xff0c;加上[CLS]与[SEP]两个占位符&＃xff0c;那有8个字符是空的&＃xff0c;该8个位置设置为0其他位置设置为1&＃xff0c;type_index表示的是是否是第一个句子&＃xff0c;是第一个句子则设置为1&＃xff0c;因为该项目只有一个句子&＃xff0c;所以均为1。

logger.info(&＃39;build graph...&＃39;) input_ids &＃61; tf.placeholder(tf.int32, (None, args.max_seq_len), &＃39;input_ids&＃39;) input_mask &＃61; tf.placeholder(tf.int32, (None, args.max_seq_len), &＃39;input_mask&＃39;) input_type_ids &＃61; tf.placeholder(tf.int32, (None, args.max_seq_len), &＃39;input_type_ids&＃39;)

根据上面定义的三个占位符&＃xff0c;定义好输入的张量&＃xff0c;实例化一个model对象&＃xff0c;该对象就是预训练好的bert模型&＃xff0c;然后从check_point文件中初始化权重

input_tensors &＃61; [input_ids, input_mask, input_type_ids]model &＃61; modeling.BertModel(config&＃61;bert_config,is_training&＃61;False,input_ids&＃61;input_ids,input_mask&＃61;input_mask,token_type_ids&＃61;input_type_ids,use_one_hot_embeddings&＃61;False)tvars &＃61; tf.trainable_variables()init_checkpoint &＃61; args.ckpt_name (assignment_map, initialized_variable_names) &＃61; modeling.get_assignment_map_from_checkpoint(tvars, init_checkpoint)tf.train.init_from_checkpoint(init_checkpoint, assignment_map)

接下来判断一下args.index_layeres参数的长度&＃xff0c;如果长度为1&＃xff0c;则只取改层的输出&＃xff0c;否则遍历需要取的层&＃xff0c;把所有层的weight取出来并拼接成一个768*层数的张量

with tf.variable_scope("pooling"):if len(args.layer_indexes) &＃61;&＃61; 1:encoder_layer &＃61; model.all_encoder_layers[args.layer_indexes[0]]else:all_layers &＃61; [model.all_encoder_layers[l] for l in args.layer_indexes]encoder_layer &＃61; tf.concat(all_layers, -1)

接下来是句向量生成的核心代码&＃xff0c;这里定义了两个方法&＃xff0c;一个mul_mask 和一个masked_reduce_mean&＃xff0c;我们先看masked_reduce_mean(encoder_layer, input_mask)这里调用方法时传入的是encoder_layer即输出值&＃xff0c;与input_mask即是否有有效文本&＃xff0c;masked_reduce_mean方法中又调用了mul_mask方法&＃xff0c;即先把input_mask进行了一个维度扩展&＃xff0c;然后与encoder_layer相乘&＃xff0c;为什么要维度扩展呢&＃xff0c;我们看下两个值的维度&＃xff0c;我们还是假设序列的最大长度是20&＃xff0c;那么encoder_layer的维度为[20,768]&＃xff0c;为了把无效的位置的内容置为0&＃xff0c;input_mask的维度为[20]&＃xff0c;扩充之后变成了[20&＃xff0c;1]&＃xff0c;两个值相乘&＃xff0c;便把input_mask为0的位置的encoder_layer的值改为了0&＃xff0c; 然后把相乘得到的值在axis&＃61;1的位置进行相加最后除以input_mask在axis&＃61;1的维度的和&＃xff0c;然后把得到的结果添加一个别名final_encodes

mul_mask &＃61; lambda x, m: x * tf.expand_dims(m, axis&＃61;-1) masked_reduce_mean &＃61; lambda x, m: tf.reduce_sum(mul_mask(x, m), axis&＃61;1) / (tf.reduce_sum(m, axis&＃61;1, keepdims&＃61;True) &＃43; 1e-10)input_mask &＃61; tf.cast(input_mask, tf.float32) pooled &＃61; masked_reduce_mean(encoder_layer, input_mask) pooled &＃61; tf.identity(pooled, &＃39;final_encodes&＃39;)output_tensors &＃61; [pooled] tmp_g &＃61; tf.get_default_graph().as_graph_def()

最后把得到的句向量重新添加进graph中&＃xff0c;并返回graph的路径。

config &＃61; tf.ConfigProto(allow_soft_placement&＃61;True) with tf.Session(config&＃61;config) as sess:logger.info(&＃39;load parameters from checkpoint...&＃39;)sess.run(tf.global_variables_initializer())logger.info(&＃39;freeze...&＃39;)tmp_g &＃61; tf.graph_util.convert_variables_to_constants(sess, tmp_g, [n.name[:-2] for n in output_tensors])dtypes &＃61; [n.dtype for n in input_tensors]logger.info(&＃39;optimize...&＃39;)tmp_g &＃61; optimize_for_inference(tmp_g,[n.name[:-2] for n in input_tensors],[n.name[:-2] for n in output_tensors],[dtype.as_datatype_enum for dtype in dtypes],False) tmp_file &＃61; tempfile.NamedTemporaryFile(&＃39;w&＃39;, delete&＃61;False, dir&＃61;args.output_dir).name logger.info(&＃39;write graph to a tmp file: %s&＃39; % tmp_file) with tf.gfile.GFile(tmp_file, &＃39;wb&＃39;) as f:f.write(tmp_g.SerializeToString()) return tmp_file

实际的使用和BERT做文本分类的方法类似&＃xff0c;只是在返回的EstimatorSpec不太一样&＃xff0c;具体细节不在详解&＃xff0c;可参考我的具体代码。

with tf.gfile.GFile(self.graph_path, &＃39;rb&＃39;) as f:graph_def &＃61; tf.GraphDef()graph_def.ParseFromString(f.read())input_names &＃61; [&＃39;input_ids&＃39;, &＃39;input_mask&＃39;, &＃39;input_type_ids&＃39;]output &＃61; tf.import_graph_def(graph_def,input_map&＃61;{k &＃43; &＃39;:0&＃39;: features[k] for k in input_names},return_elements&＃61;[&＃39;final_encodes:0&＃39;])return EstimatorSpec(mode&＃61;mode, predictions&＃61;{&＃39;encodes&＃39;: output[0] })

最后再贴一下代码地址

BERT生成句向量
————————————————
版权声明&＃xff1a;本文为CSDN博主「爱编程真是太好了」的原创文章&＃xff0c;遵循 CC 4.0 BY-SA 版权协议&＃xff0c;转载请附上原文出处链接及本声明。
原文链接&＃xff1a;https://blog.csdn.net/u012526436/article/details/87697242

推荐阅读

import
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
utf-8
web.py开发web 第八章 Formalchemy 服务端验证方法

本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例，详细说明了对各字段的验证要求，包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]

蜡笔小新 2023-12-12 16:36:00
import
Python自动提取文本中的时间（包含中文日期）及特殊时间识别方法

本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期，包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时，还介绍了一段使用正则表达式的代码，可以支持中文日期和一些特殊的时间识别，例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]

蜡笔小新 2023-12-12 12:09:33
import
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
utf-8
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
import
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
import
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
import
从批量eml文件中提取附件的Python代码实现方法

本文介绍了使用Python代码从批量eml文件中提取附件的实现方法，包括获取eml附件信息、递归文件夹下所有文件、创建目的文件夹等步骤。通过该方法可以方便地提取eml文件中的附件，并保存到指定的文件夹中。 ... [详细]

蜡笔小新 2023-12-09 07:17:30
md5
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
post
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
import
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
object
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
import
java drools5_Java Drools5.1 规则流基础【示例】（中）

五、规则文件及规则流EduInfoRule.drl:packagemyrules;importsample.Employ;ruleBachelorruleflow-group ... [详细]

蜡笔小新 2023-12-10 15:01:31
import
使用Spring AOP实现切面编程的步骤和注意事项

本文介绍了使用Spring AOP实现切面编程的步骤和注意事项。首先解释了@EnableAspectJAutoProxy、@Aspect、@Pointcut等注解的作用，并介绍了实现AOP功能的方法。然后详细介绍了创建切面、编写测试代码的过程，并展示了测试结果。接着讲解了关于环绕通知的使用方法，并修改了FirstTangent类以添加环绕通知方法。最后介绍了利用AOP拦截注解的方法，只需修改全局切入点即可实现。使用Spring AOP进行切面编程可以方便地实现对代码的增强和拦截。 ... [详细]

蜡笔小新 2023-12-09 10:25:26
import
七月在线爬虫班学习笔记（七）——高级内容-并发编程

第七课主要内容：多进程多线程FIFO,LIFO,优先队列线程局部变量进程与线程的选择线程池异步IO概念及twisted案例股票数据抓取 ... [详细]

蜡笔小新 2023-10-17 20:16:36

Rianbow_小渊渊设

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章