转载｜使用PaddleFluid和TensorFlow训练序列标注模型

作者：唐进单 | 来源：互联网 | 2023-09-23 16:12

上一篇通过转载｜使用PaddleFluid和TensorFlow训练RNN语言模型大家了解了：在PaddleFluid和TensorFlow平台下如何组

上一篇通过转载&＃xff5c;使用PaddleFluid和TensorFlow训练RNN语言模型大家了解了&＃xff1a;

在 PaddleFluid 和 TensorFlow 平台下如何组织序列输入数据&＃xff1b;
如何使用循环神经网络单元&＃xff1b;
使用中的注意事项。

可以看到 PaddleFluid 中的各种循环神经网络单元都直接支持非填充序列作为输入&＃xff0c;用户在使用时无需对 mini-batch 中的不等长序列进行填充&＃xff0c;无需关心填充位是否会对代价&＃xff08;loss&＃xff09;计算产生影响&＃xff0c;从而需要在计算损失时对填充位置进行过滤这样的细节&＃xff0c;对使用来说无疑是十分方便的。

循环神经网络的是深度学习模型中最为重要的一部分&＃xff0c;这一篇我们以序列标注任务为例将会构造一个更加复杂的循环神经网络模型用于命名实体识别任务。我们的关注点始终放在&＃xff1a;在两个平台下&＃xff1a;&＃xff08;1&＃xff09;如何组织序列数据&＃xff1b;&＃xff08;2&＃xff09;如何使用序列处理单元&＃xff08;不限于循环神经网络&＃xff09;。

这一篇会看到&＃xff1a;

1. PaddleFluid Data Feeder vs. 使用 TensorFlow r1.4 之后 release 的 Dataset API 读取数据&＃xff1b;

2. 在 PaddleFluid 和 TensorFlow 中&＃xff0c;使用条件随机场&＃xff08;Conditional Random Field&＃xff0c;CRF&＃xff09;单元&＃xff1b;

3. 在 PaddleFluid 和 TensorFlow 中&＃xff0c;通过数据并行方式使用多块 GPU 卡进行训练。

如何使用代码

本篇文章配套有完整可运行的代码&＃xff0c; 请随时从 github [1] 上获取最新代码。代码包括以下几个文件&＃xff1a;

在执行训练任务前&＃xff0c;请首先在终端执行下面的命令进行训练数据下载以及预处理。

sh download.sh

在终端运行以下命令便可以使用默认结构和默认参数运行 PaddleFluid 训练序列标注模型。

python sequence_tagging_fluid.py

在终端运行以下命令便可以使用默认结构和默认参数运行 TensorFlow 训练序列标注模型。

python sequence_tagging_tensorflow.py背景介绍

序列标注和命名实体识别

序列标注是自然语言处理任务中的重要基础任务之一。常见的分词&＃xff0c;词性标注&＃xff0c;语义角色标注&＃xff0c;命名实体识别&＃xff0c;甚至自动问答&＃xff08;QA&＃xff09;都可以通过序列标注模型来实现。这一篇我们将训练一个序列标注模型完成命名实体识别的任务。

我们先来看看&＃xff0c;什么是序列标注问题呢&＃xff1f;请看下面一幅图&＃xff1a;

▲ 图1. 序列标注问题

序列标注任务是为一个一维的线性输入序列中的每个元素打上标签集合中的某个标签。在上面的例子中&＃xff0c;序列标注就是为图像序列中的每个元素贴上一个描述它们形状的标签。而序列标注任务的难点在于&＃xff1a;序列中元素的标记和它们在序列中的位置密切相关。

那么&＃xff0c; 什么是命名实体识别呢&＃xff1f;命名实体识别&＃xff08;Named Entity Recognition&＃xff0c;NER&＃xff09;又称作“专名识别”&＃xff0c;是指识别文本中具有特定意义的实体&＃xff0c;主要包括&＃xff1a;人名、地名、机构名、专有名词等。

BIO 表示法

序列标注任务一般都会采用 BIO 表示方式来定义序列标注的标签集&＃xff0c;B 代表句子的开始&＃xff0c;I 代表句子中间&＃xff0c;O 代表句子结束。通过 B、I、O 三种标记将不同的语块赋予不同的标签&＃xff0c;例如&＃xff1a;对于一个标记为 A 的命名实体&＃xff0c;将它所包含的第一个语块赋予标签 B-A&＃xff0c;将它所包含的其它语块赋予标签 I-A&＃xff0c;不属于任何命名实体的语块赋予标签 O。图 2 是用 BIO 表示标注序列中命名实体的具体示例。

▲ 图2. BIO标注方法示例

模型概览

图 3 是本篇模型的模型结构概览。

▲ 图3. 序列标注模型结构概览

我们要训练的序列标注模型&＃xff0c;接受&＃xff1a;一个文本序列作为输入&＃xff0c;另一个与输入文本序列等长的标记序列作为学习的目标。首先通过上一篇介绍过的 word embedding 层的取词作用得到词向量&＃xff0c; 接着经过一个双向 LSTM 单元学习序列的特征表示&＃xff0c;这个特别表示最终作为条件随机场 CRF 的输入完成最终的序列标注任务。

下面是对各个子模块的进一步说明。

双向循环神经网络

在循环神经网络模型中&＃xff0c;t 时刻输出的隐藏层向量编码了到 t 时刻为止所有输入的信息&＃xff0c;但由于循环神经网络单元计算的串行行&＃xff1a;t 时刻循环神经网络但愿可以看到历史&＃xff08;t 时刻之前&＃xff09;&＃xff0c;却无法看到未来&＃xff08;t 时刻之后&＃xff09;。

一些自然语言处理任务总是能一次性拿到整个句子&＃xff0c;这种情况下&＃xff0c;在 t 时刻计算时&＃xff0c;如果能够像获取历史信息一样得到未来的信息&＃xff0c;对序列学习任务会有很大帮助&＃xff0c;双向循环神经网络的出现正是为了解决这一问题。

它的思想简单且直接&＃xff1a;使用两个循环神经网络单元&＃xff08; simple RNN&＃xff0c;GRU 或者 LSTM 均可&＃xff09;分别以正向和反向顺序学习输入序列&＃xff0c;再将两者的输出向量进行横向拼接。这样的一个输出向量中就既包含了 t 时刻之前的信息&＃xff0c;也包含了 t 时刻之后的信息。

条件随机场

使用神经网络模型解决问题的思路通常都是&＃xff1a;前层网络学习输入的特征表示&＃xff0c;网络的最后一层在特征基础上完成最终任务。在序列标注任务中&＃xff0c;双向循环神经网络学习输入的特征表示&＃xff0c;条件随机场&＃xff08;Conditional Random Filed&＃xff0c; CRF&＃xff09;正是在特征的基础上完成序列标注的一种计算单元&＃xff0c;处于整个网络的末端。

CRF 是一种概率化结构模型&＃xff0c;可以看作是一个概率无向图模型&＃xff08;也叫作马尔科夫随机场&＃xff09;&＃xff0c;结点表示随机变量&＃xff0c;边表示随机变量之间的概率依赖关系。简单来讲 CRF 学习条件概率&＃xff1a;P(X|Y)&＃xff0c;其中 X&＃61;(x1,x2,...,xn) 是输入序列&＃xff0c;Y&＃61;(y1,y2,...,yn) 是标记序列&＃xff1b;解码过程是给定 X 序列求解令 P(Y|X) 最大的 Y 序列&＃xff0c;即。

条件随机场是的定义&＃xff1a;设 G&＃61;(V,E) 是一个无向图&＃xff0c; V 是结点的集合&＃xff0c;E 是无向边的集合。V 中的每个结点对应一个随机变量 Yv&＃xff0c;&＃xff0c;其取值范围为可能的标记集合 {y}&＃xff0c;如果以随机变量 X 为条件&＃xff0c;每个随机变量 Yv 都满足以下马尔科夫特性&＃xff1a;

其中&＃xff0c;ω∼v 表示两个结点在图 G 中是邻近结点&＃xff0c;那么&＃xff0c;(X,Y) 是一个条件随机场。

线性链条件随机场

上面的定义并没有对 X 和 Y 的结构给出更多约束&＃xff0c;理论上来讲只要标记序列表示了一定的条件独立性&＃xff0c;G 的图结构可以是任意的。对序列标注任务&＃xff0c;只需要考虑 X 和 Y 都是一个序列&＃xff0c;于是可以形成一个如图 4 所示的简单链式结构图。在图中&＃xff0c;输入序列 X 的元素之间并不存在图结构&＃xff0c;因为我们只是将它作为条件&＃xff0c;并不做任何条件独立假设。

▲ 图4. 输入序列和标记序列具有相同结构的线性链条件随机场

序列标注问题使用的是以上这种定义在线性链上的特殊条件随机场&＃xff0c;称之为线性链条件随机场&＃xff08;Linear Chain Conditional Random Field&＃xff09;。下面&＃xff0c;我们给出线性链条件随机场的数学定义&＃xff1a;

定义 2 &＃xff1a;线性链条件随机场 &＃xff1a;设 X&＃61;(x1,x2,...,xn)&＃xff0c;Y&＃61;(y1,y2,...,yn) 均为线性链表示的随机变量序列&＃xff0c;若在给定随机变量序列 X 的条件下&＃xff0c;随机变量序列 Y 的条件概率分布 P(Y|X) 满足马尔科夫性&＃xff1a;

i&＃61;1,2,...,n&＃xff08;在i&＃61;1和n时只考虑单边&＃xff09;则称 P(Y|X) 为线性链条件随机场。X 表示输入序列&＃xff0c;Y 表示与之对应的标记序列。

根据线性链条件随机场上的因子分解定理&＃xff0c;在给定观测序列 X 时&＃xff0c;一个特定标记序列 Y 的概率可以定义为&＃xff1a;

其中&＃xff1a;

是规范化因子。

上面的式子中 tj 是定义在边上的特征函数&＃xff0c;依赖于当前和前一个位置&＃xff0c;称为转移特征&＃xff0c;表示对于观察序列 X 及其标注序列在 i 及 i−1 位置上标记的转移概率。sk 是定义在结点上的特征函数&＃xff0c;称为状态特征&＃xff0c;依赖于当前位置&＃xff0c;表示对于观察序列 X 及其 i 位置的标记概率。λj 和 μk 分别是转移特征函数和状态特征函数对应的权值。

线性链条件随机场的优化目标

实际上 &＃xff0c;t 和 s 可以用相同的数学形式表示&＃xff0c;s 可以同样也写为以下形式&＃xff1a;

假设有 K1 个转移特征&＃xff0c;K2 个状态特征&＃xff0c;定义特征函数&＃xff1a;

再对转移特征和状态特在各个位置 i 求和有&＃xff1a;

于是条件概率 P(Y|X) 可以写为&＃xff1a;

我们把 f 统称为特征函数&＃xff0c;ω 是权值&＃xff0c;是 CRF 模型要求解的参数。

学习时&＃xff0c;对于给定的输入序列和对应的标记序列的集合 D&＃61;[(X1,Y1),(X2,Y2),...,(XN,YN)] &＃xff0c;通过正则化的极大似然估计&＃xff0c;可以得到如下优化目标&＃xff1a;

这个优化目标&＃xff0c;可以通过反向传播算法和整个神经网络一起更新求解。

解码时&＃xff0c;对于给定的输入序列 X&＃xff0c;通过解码算法&＃xff08;通常有&＃xff1a;维特比算法、Beam Search&＃xff09;求令出条件概率最大的输出序列。

CRF小结

条件随机场是这一篇网络中一个相对复杂的计算单元。值得庆幸的是&＃xff0c;在各个深度学习框架的帮助下&＃xff0c;大多数情况下&＃xff0c;我们只需要知道其原理便可以非常方便的使用&＃xff0c;而不必过于关注其内部的实现细节。

这里我们再对上面的内容进行一个简单的总结&＃xff0c;方便大家使用 CRF 单元&＃xff1a;

1. 在序列标注网络中&＃xff0c; CRF 以循环神经网络单元输出向量作为输入&＃xff0c;学习状态特征和转移特征。

2. 状态特征只与当然输入有关&＃xff1b;转移特征是一个矩阵&＃xff0c;刻画了标记两两之间互相转移的强度。

3. 假设循环神经网络单元输出向量维度为 h &＃xff0c;序列中含有 t 个词语&＃xff0c;共有 d 个标记&＃xff1a;

循环神经网络输入矩阵的大小为&＃xff1a;Out&＃61;t×h&＃xff1b;
CRF 层以 Out 为输入学习转移特征&＃xff1a;通过一个全连接层将 Out 映射为一个 t×d 的矩阵&＃xff0c;也就是转移特征&＃xff1b;
状态特征是一个&＃xff1a;(d&＃43;2)×d 维的矩阵&＃xff0c;刻画了标记之前转移的强度。这里的 &＃43;2 是需要学习序列开始 ~~向句子首词转移和和句子末尾词向序列结束转移这样两种特殊的状态转移&＃xff1b;~~
CRF 本质上计算了一个 softmax&＃xff1a;给定标记序列出现的概率。但困难之处在于 softmax 的归一化分母是所有可能标记序列&＃xff0c;计算量很大。但由于引入了马尔科夫假设&＃xff0c;这个归一化分母可以巧妙地通过一个动态规划算法求解。

~~4. CRF 的学习准则是令 negative log likelihood 最大化。~~

数据集介绍
这一篇我们使用 Standford CS224d 课程中作业 2 [2] 的 NER 任务数据作为训练数据源。进入 data 目录运行 data/download.sh 脚本下载数据并预处理训练数据。预处理包括&＃xff1a;1. 为输入文本序列建立词典&＃xff1b;2. 组织输入数据格式。
运行结束将会在 data 目录下看到如下内容。
data ├── dev ├── dev_src.txt ├── dev_src.vocab ├── dev_trg.txt ├── dev_trg.vocab ├── download.sh ├── preprocess.py ├── train ├── train_src.txt ├── train_src.vocab ├── train_trg.txt └── train_trg.vocab
其中需要重点关注的是 train_src.txt 、 train_trg.txt 、 train_src.vocab和train_trg.vocab文件。它们分别是&＃xff1a;输入文本序列&＃xff1b;文本对应的标记序列&＃xff1b;输入文本序列的词典以及标记序列词典。 train_src.txt 和 train_trg.txt 的一行是一条训练样本&＃xff0c;他们严格一一对应。分别执行head -n 1 train_src.txt 和 head -n 1 train_trg.t xt 会看到如下内容&＃xff1a;
EU rejects German call to boycott British lamb .
B-ORG O B-MISC O O O B-MISC O O程序结构
我们首先在此整体回顾一下使用 PaddleFluid 平台和 TensorFlow 运行神经网络模型的整体流程。
PaddleFluid
1. 调用 PaddleFluid API 描述神经网络模型。PaddleFluid 中一个神经网络训练任务被称之为一段 Fluid Program 。
2. 定义 Fluid Program 执行设备&＃xff1a; place 。常见的有 fluid.CUDAPlace(0) 和fluid.CPUPlace() 。
place &＃61; fluid.CUDAPlace(0) if conf.use_gpu else fluid.CPUPlace()
注&＃xff1a;PaddleFluid 支持混合设备运行&＃xff0c;一些运算&＃xff08;operator&＃xff09;没有特定设备实现&＃xff0c;或者为了提高全局资源利用率&＃xff0c;可以为他们指定不同的计算设备。
3. 创建 PaddleFluid 执行器&＃xff08;Executor&＃xff09;&＃xff0c;需要为执行器指定运行设备。
exe &＃61; fluid.Executor(place)
4. 让执行器执行 fluid.default_startup_program() &＃xff0c;初始化神经网络中的可学习参数&＃xff0c;完成必要的初始化工作。
5. 定义 DataFeeder&＃xff0c;编写 data reader&＃xff0c;只需要关注如何返回一条训练/测试数据。
6. 进入训练的双层循环&＃xff08;外层在 epoch 上循环&＃xff0c;内层在 mini-batch 上循环&＃xff09;&＃xff0c;直到训练结束。
TensorFlow
1. 调用 TensorFlow API 描述神经网络模型。 TensorFlow 中一个神经网络模型是一个 Computation Graph。
2. 创建 TensorFlow Session 用来执行计算图。
sess &＃61; tf.Session()
3. 调用 sess.run(tf.global_variables_initializer()) 初始化神经网络中的可学习参数。
4. 编写返回每个 mini-batch 数据的数据读取脚本。
5. 进入训练的双层循环&＃xff08;外层在 epoch 上循环&＃xff0c;内层在 mini-batch 上循环&＃xff09;&＃xff0c;直到训练结束。
如果不显示地指定使用何种设备进行训练&＃xff0c;TensorFlow 会对机器硬件进行检测&＃xff08;是否有 GPU&＃xff09;&＃xff0c; 选择能够尽可能利用机器硬件资源的方式运行。
构建网络
基于 PaddleFluid 和 TensorFlow 的序列标注网络分别定义在 sequence_tagging_fluid.py 和 sequence_tagging_tensorflow.py 的 NER_net 类中&＃xff0c;详细信息请参考完整代码&＃xff0c;这里对重要部分进行说明。
加载训练数据
PaddleFluid&＃xff1a;编写Data Reader
PaddleFluid 模型通过 fluid.layers.data 来接收输入数据。序列标注网络以图片以及图片对应的类别标签作为网络的输入&＃xff1a;
self.source &＃61; fluid.layers.data(name&＃61;"source", shape&＃61;[1], dtype&＃61;"int64", lod_level&＃61;1) self.target &＃61; fluid.layers.data(name&＃61;"target", shape&＃61;[1], dtype&＃61;"int64", lod_level&＃61;1)
定义 data layer 的核心是指定输入 Tensor 的形状&＃xff08; shape &＃xff09;和类型。
序列标注中&＃xff0c;输入文本序列和标记序列都使用 one-hot 特征作为输入&＃xff0c;一个词用一个和字典大小相同的向量表示&＃xff0c;每一个位置对应了字典中的一个词语。one-hot 向量仅有一个维度为 1&＃xff0c; 其余全部为 0。在上面定义的 data layer 中 source 和 target 的形状都是 1&＃xff0c;类型是 int64 。
PaddleFluid 支持非填充的序列输入&＃xff0c;这是通过 LoD Tensor 实现的。关于什么是 LoD Tensor请参考上一篇使用 PaddleFluid 和 TensorFlow 训练 RNN 语言模型中的介绍&＃xff0c;这一篇不再赘述。有了 LoD Tensor 的概念后&＃xff0c;在 PaddleFluid 中&＃xff0c;通过 DataFeeder 模块来为网络中的 data layer 提供数据&＃xff0c;调用方式如下面的代码所示&＃xff1a;
train_reader &＃61; paddle.batch(paddle.reader.shuffle(data_reader(conf.train_src_file_name, conf.train_trg_file_name,conf.src_vocab_file, conf.trg_vocab_file),buf_size&＃61;1024000),batch_size&＃61;conf.batch_size)place &＃61; fluid.CUDAPlace(0) if conf.use_gpu else fluid.CPUPlace() feeder &＃61; fluid.DataFeeder(feed_list&＃61;[net.source, net.target], place&＃61;place)
观察以上代码&＃xff0c;需要用户完成的仅有&＃xff1a;编写一个实现读取一条数据的 python 函数&＃xff1a;data_reader 。 data_reader 的代码非常简单&＃xff0c;我们再来看一下它的具体实现&＃xff1a;
def data_reader(src_file_name, trg_file_name, src_vocab_file, trg_vocab_file):def __load_dict(dict_file_path):word_dict &＃61; {}with open(dict_file_path, "r") as fdict:for idx, line in enumerate(fdict):if idx < 2: continueword_dict[line.strip().split("\t")[0]] &＃61; idx - 2return word_dictdef __reader():src_dict &＃61; __load_dict(src_vocab_file)trg_dict &＃61; __load_dict(trg_vocab_file)with open(src_file_name, "r") as fsrc, open(trg_file_name,"r") as ftrg:for src, trg in izip(fsrc, ftrg):src_words &＃61; src.strip().split()trg_words &＃61; trg.strip().split()src_ids &＃61; [src_dict[w] for w in src_words]trg_ids &＃61; [trg_dict[w] for w in trg_words]yield src_ids, trg_idsreturn __reader
在上面的代码中&＃xff1a;
1. data_reader 是一个 python generator &＃xff0c;函数名字可以任意指定&＃xff0c;无需固定。
2. data_reader 打开输入序列文件和标记序列文件&＃xff0c;每次从这两个文件读取一行&＃xff0c;一行既是一条训练数据&＃xff0c;返回一个 python list&＃xff0c;这个 python list 既是序列中所有时间步。具体的数据组织方式如下表所示&＃xff0c;其中 i 代表一个整数&＃xff1a;
3. paddle.batch() 接口用来构造 mini-batch 输入&＃xff0c;会调用 data_reader 将数据读入一个 pool 中&＃xff0c;对 pool 中的数据进行 shuffle&＃xff0c;然后依次返回每个 mini-batch 的数据。
TensorFlow&＃xff1a;使用Dataset API
在之前的篇章中我们都使用 TensorFlow 的 placeholder 接入训练数据&＃xff0c;这一篇我们使用一种新的方式 TensorFlow 在 r1.3 版本之后引入的 Dataset API 来读取数据。
参考 Google 官方给出的 Dataset API 中的类图 [3]&＃xff0c;使用 TensorFlow 的 Dataset API&＃xff0c;首先引入两个抽象概念&＃xff1a;
1. tf.data.Dataset 表示一系列元素&＃xff0c;其中每个元素包含一个或多个 Tensor 对象。
2. tf.data.Iterator 提供了从数据集中取出元素的方法。 Iterator.get_next() 会在执行时生成Dataset 的下一个 /mini-batch 元素。
定义 Dataset
目前 Dataset API 还提供了三种预定义好的定义 Dataset 的方式。这一篇中我们主要面向文本数据的处理&＃xff0c;使用其中的 TextLineDataset 接口。
tf.data.TextLineDataset&＃xff1a;接口的输入是一个文件列表&＃xff0c;输出是一个 TensorFlow dataset &＃xff0c;dataset 中的每一个元素就对应了文件中的一行。通过下面的调用传入输入序列文本路径和标记序列文本路径便可返回一个 Dataset 。
src_dataset &＃61; tf.data.TextLineDataset(src_file_name) trg_dataset &＃61; tf.data.TextLineDataset(trg_file_name)
获取 Iterator
需要说明的是&＃xff0c;TensorFlow 中的循环神经网络要求一个 mini-batch 之内序列长度相等&＃xff0c;使用 Dynamic RNN 时&＃xff0c;batch 和 batch 之间序列长度可以不相等&＃xff0c;因此对一个 mini-batch 之内的数据需要进行填充。
Dataset API 提供了 padded_batch 帮助构造填充后的 mini-batch 数据。
提示&＃xff1a;使用 bucket 分桶&＃xff0c;从桶内取 mini-batch 数据&＃xff0c;填充至一个 batch 中的最长序列长度能够有效提高 dynamic rnn 的计算效率。
下面的代码返回 Iterator &＃xff0c;使用先分桶&＃xff0c;然后再取 mini-batch 数据填充至 batch 中最长序列长度的方式。完整代码请参考&＃xff1a;iterator_helper_tf [4]。
def get_data_iterator(src_file_name,trg_file_name,src_vocab_file,trg_vocab_file,batch_size,pad_token&＃61;"
",max_sequence_length&＃61;None,unk_id&＃61;1,num_parallel_calls&＃61;4,num_buckets&＃61;5,output_buffer_size&＃61;102400,is_training&＃61;True):def __get_word_dict(vocab_file_path, unk_id):return tf.contrib.lookup.index_table_from_file(vocabulary_file&＃61;vocab_file_path,key_column_index&＃61;0,default_value&＃61;unk_id)src_dataset &＃61; tf.data.TextLineDataset(src_file_name)trg_dataset &＃61; tf.data.TextLineDataset(trg_file_name)dataset &＃61; tf.data.Dataset.zip((src_dataset, trg_dataset))if is_training:dataset &＃61; dataset.shuffle(buffer_size&＃61;output_buffer_size, reshuffle_each_iteration&＃61;True)src_trg_dataset &＃61; dataset.map(lambda src, trg: (tf.string_split([src]).values, \tf.string_split([trg]).values),num_parallel_calls&＃61;num_parallel_calls).prefetch(output_buffer_size)src_dict &＃61; __get_word_dict(src_vocab_file, unk_id)trg_dict &＃61; __get_word_dict(trg_vocab_file, unk_id)src_pad_id &＃61; tf.cast(src_dict.lookup(tf.constant(pad_token)), tf.int32)trg_pad_id &＃61; tf.cast(trg_dict.lookup(tf.constant(pad_token)), tf.int32)# convert word string to word indexsrc_trg_dataset &＃61; src_trg_dataset.map(lambda src, trg: (tf.cast(src_dict.lookup(src), tf.int32),tf.cast(trg_dict.lookup(trg), tf.int32)),num_parallel_calls&＃61;num_parallel_calls).prefetch(output_buffer_size)# Add in sequence lengths.src_trg_dataset &＃61; src_trg_dataset.map(lambda src, trg: (src, trg, tf.size(src)),num_parallel_calls&＃61;num_parallel_calls).prefetch(output_buffer_size)def __batching_func(x):return x.padded_batch(batch_size,padded_shapes&＃61;(tf.TensorShape([None]), # srctf.TensorShape([None]), # trgtf.TensorShape([]), #seq_len),padding_values&＃61;(src_pad_id, trg_pad_id, 0, ))if num_buckets > 1:def __key_func(unused_1, unused_2, seq_len):if max_sequence_length:bucket_width &＃61; (max_sequence_length &＃43; num_buckets - 1) // num_bucketselse:bucket_width &＃61; 10bucket_id &＃61; seq_len // bucket_width,return tf.to_int64(tf.minimum(num_buckets, bucket_id))def __reduce_func(unused_key, windowed_data):return __batching_func(windowed_data)batched_dataset &＃61; src_trg_dataset.apply(tf.contrib.data.group_by_window(key_func&＃61;__key_func,reduce_func&＃61;__reduce_func,window_size&＃61;batch_size))else:batched_dataset &＃61; __batching_func(curwd_nxtwd_dataset)batched_iter &＃61; batched_dataset.make_initializable_iterator()src_ids, trg_ids, seq_len &＃61; batched_iter.get_next()return BatchedInput(initializer&＃61;batched_iter.initializer,source&＃61;src_ids,target&＃61;trg_ids,sequence_length&＃61;seq_len)
构建网络结构及运行
构建网络结构及运行的过程对两个平台上都是常规流程。
1. 构建网络时调用相关的 API 接口&＃xff0c;令一个计算单元的输出成为下一个计算单元的输入建立起网络的连通性&＃xff1b;具体请参考 sequence_tagging_fluid.py 和 sequence_tagging_tensorflow.py 中 NER_net 类的实现。
2. 运行训练以及解码具体请参考 sequence_tagging_fluid.py 和 sequence_tagging_tensorflow.py 中 train 函数的实现。
模型中核心模块&＃xff1a;LSTM 单元在两个平台下的差异及注意事项请参考上一篇&＃xff1a;使用 PaddleFluid 和 TensorFlow 训练 RNN 语言模型&＃xff0c;这里不再赘述。
总结
这一篇继续在序列标注模型中了解 PaddleFluid 和 TensorFlow 在接受序列输入&＃xff0c;序列处理策略上的不同。
1. PaddleFluid 引入了 LoD Tensor 的概念&＃xff0c;所有序列处理模块&＃xff08;包括所有循环神经网络单元&＃xff0c;文本卷积&＃xff09;都支持非填充的序列输入&＃xff0c;使用时无需对 mini-batch 数据进行填充&＃xff0c;也就避免了对填充位的各种特殊处理&＃xff0c;这一点非常方便。
2. TensorFlow 中的 Dynamic RNN 支持 mini-batch 之间序列不等长&＃xff0c;但仍要求一个 mini-batch 内的数据填充至一样长。
3. PaddleFluid 中通过 Data Feeder 提供训练数据&＃xff0c;只需要编写一个 python generator 实现从原始输入文件中读取一条训练样本&＃xff0c; 框架会完成数据 shuffle 和组织 mini-batchd 工作。
4. 这一篇使用了 TensorFlow r1.3 后 release 的 Dataset API&＃xff0c;数据读取部分也是一个 computation graph&＃xff0c;能够提高 I/O 效率&＃xff0c;使用相对复杂一些。
本篇代码中提供了通过数据并行策略在 PaddleFluid 平台下使用多块 GPU 卡进行训练&＃xff0c;在 TensorFlow 中使用多卡相对复杂一些&＃xff0c;这些主题会在下面继续讨论。
参考文献
[1]. 本文配套代码
https://github.com/JohnRabbbit/TF2Fluid/tree/master/05_sequence_tagging
[2]. Standford CS224d课程作业2
http://cs224d.stanford.edu/assignment2/index.html
[3]. Google官方Dataset API
https://developers.googleblog.com/2017/09/introducing-tensorflow-datasets.html
[4]. iterator_helper_tf
https://github.com/JohnRabbbit/TF2Fluid/blob/master/05_sequence_tagging/iterator_helper_tf.py

paddle

tensorflow

神经网络

深度学习

api

io

random

gpu

git

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

function
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新   2024-12-19 16:23:17

tree
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新   2024-12-24 08:48:32

substring
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新   2024-12-12 10:47:15

python
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新   2024-12-07 14:28:06

python
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新   2024-12-05 13:06:15

text
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新   2024-10-30 15:53:37

text
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新   2024-12-27 12:17:16

function
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新   2024-12-26 22:04:19

window
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新   2024-12-26 18:17:14

select
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新   2024-12-26 18:05:04

python
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新   2024-12-26 13:36:52

import
使用TensorFlow实现非线性回归模型

本文介绍了如何利用TensorFlow框架构建一个简单的非线性回归模型。通过生成200个随机数据点进行训练，模型能够学习并预测这些数据点的非线性关系。 ... [详细]

蜡笔小新   2024-12-20 11:54:20

import
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新   2024-12-16 17:59:16

js
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新   2024-12-16 10:01:32

split
使用十折交叉验证评估回归模型性能

本文介绍了如何通过十折交叉验证方法评估回归模型的性能。我们将使用PyTorch框架，详细展示数据处理、模型定义、训练及评估的完整流程。 ... [详细]

蜡笔小新   2024-12-02 15:52:44

唐进单

这个家伙很懒，什么也没留下！

Tags | 热门标签

chat

bytecode

import

httprequest

callback

match

web3

hook

js

window

export

future

select

uml

erlang

javascript

metadata

python

copy

text

lua

join

loops

grid

case

split

function

substring

vbscript

tree

RankList | 热门文章

1HashMap与Hashtable的区别解析

2华为捐赠欧拉操作系统，承诺不推商用版

3理解Go语言中的iota关键字

4pytorch(一)：torch构建数据集并训练一个神经网络

5NOI Open Judge 6049: 购书问题的动态规划解法

6需要知道一个“本地到屏幕坐标”的函数 - Need to know a “Local to screen Coordinate” function

7Linux中使用find与grep进行文件和文本查找

8开源数据库与数据结构算法

9十三、实现模糊查询功能

10Python多线程详解与示例

11处理POI导入Excel时遇到的数值单元格无法获取文本值问题

12深入解析Django CBV模型的源码运行机制

13Native与HTML5交互基础教程

14JavaScript 中鲜为人知的 API

15RocketMQ在秒杀时的应用