TorchScript是如何加速RNN的？

作者：biosan | 来源：互联网 | 2023-07-16 15:18

本文改写自OptimizingCUDARecurrentNeuralNetworkswithTorchScript，有删改。RNN在多种NLP任务上有良好表现，PyTorch自带了

本文改写自 Optimizing CUDA Recurrent Neural Networks with TorchScript，有删改。

RNN 在多种 NLP 任务上有良好表现，PyTorch 自带了几种 RNN 的典型实现（例如 Elman RNN，GRU，LSTM 以及它们的 multi-layered 和 bidirectional 版本）。

有时用户想修改 RNN 的一些实现细节。例如，用户想将 Layer Normalization 应用到 LSTM 中，这一改动很难实现，因为 PyTorch CUDA LSTM 是高度一体化的。此时用户会尝试使用 PyTorch 的基本 Operator 来定制他们想要的 LSTM，这会带来开销：RNN 大量的使用 Operator，而多数 Operator 会在 GPU 上启动至少一个 kernel。

可以使用 TorchScript 来改善这种情况：它可以优化代码并 Fuse Operation，以降低在 GPU 上启动的 kernel 个数，并使 kernel 质量更高。

本文的目标是让用户自然、快速的实现 RNN，并达到和手工优化的 CUDA kernel 同样的性能。

本文代码链接 github.com

Operator Fuse 的局限性

如果不了解 Operator Fuse，可参考这篇文章：内核融合：GPU深度学习的“加速神器”

PyTorch JIT 能将相邻的 element-wise 操作 Fuse 到一个 FusionGroup 中，这个 FusionGroup 只会启动一个 GPU/CPU kernel。

这意味着，如果使用了较为复杂的 Operator（例如：混合了 element-wise 的 reduce 操作），JIT 识别可 Fuse 的 Operator 时会遇到困难。此时，可以尝试分离 reduce 操作与 element-wise 操作，这样做的话，JIT 就可以将几个 element-wise 操作 Fuse 在一个 Fusion Group 中了。

在本文 LSTM Cell（forward）一节中，我们可以看到 PyTorch JIT 会尝试着在保证程序正确性的情况下，将 element-wise 操作尽可能放在一起，从而进行 Operator Fuse。

PyTorch JIT 对 LSTM 的优化

LSTM Cell（forward）

几乎 LSTM 中所有的计算都发生在 LSTMCell 中，下面是 LSTMCell 在 TorchScript 下的一种实现：

class LSTMCell(jit.ScriptModule): def __init__(self, input_size, hidden_size): super(LSTMCell, self).__init__() self.input_size = input_size self.hidden_size = hidden_size self.weight_ih = Parameter(torch.randn(4 * hidden_size, input_size)) self.weight_hh = Parameter(torch.randn(4 * hidden_size, hidden_size)) self.bias_ih = Parameter(torch.randn(4 * hidden_size)) self.bias_hh = Parameter(torch.randn(4 * hidden_size)) @jit.script_method def forward(self, input, state): # type: (Tensor, Tuple[Tensor, Tensor]) -> Tuple[Tensor, Tuple[Tensor, Tensor]] hx, cx = state gates = (torch.mm(input, self.weight_ih.t()) + self.bias_ih + torch.mm(hx, self.weight_hh.t()) + self.bias_hh) ingate, forgetgate, cellgate, outgate = gates.chunk(4, 1) ingate = torch.sigmoid(ingate) forgetgate = torch.sigmoid(forgetgate) cellgate = torch.tanh(cellgate) outgate = torch.sigmoid(outgate) cy = (forgetgate * cx) + (ingate * cellgate) hy = outgate * torch.tanh(cy) return hy, (hy, cy)

重排 Chunk 和 Pointwise Ops，挖掘更多的 Fuse 机会

上面实现的 LSTMCell

将 gate 加（Pointwise Ops）在一起
将加在一起的结果 chunk 为四小块
对每个小块执行激活函数（Pointwise Ops）