作者:real存在尹 | 来源:互联网 | 2023-09-24 13:21
模式识别的pj2rnn加法器首先仔细看助教给的大体代码主要要求补齐的是forward函数:看这段代码让我一开始迷惑的问题以及相应解答:1.embedding是什么?embeddin
模式识别的pj2
rnn加法器
首先仔细看助教给的大体代码主要要求补齐的是forward函数:
class myPTRNNModel(nn.Module):
def __init__(self):
super().__init__()
self.embed_layer = nn.Embedding(10, 32)
self.rnn = nn.RNN(64, 64, 2)
self.dense = nn.Linear(64, 10)
def forward(self, num1, num2):
‘‘‘
Please finish your code here.
‘‘‘
num1 = self.embed_layer(num1)
num2 = self.embed_layer(num2)
input = torch.cat((num1, num2), 2)
#packed = pack_padded_sequence(input, encode_length.tolist(), batch_first=True)
r_out, (h_n, h_c) = self.rnn(input, None)
logits = self.dense(r_out)
return logits
看这段代码让我一开始迷惑的问题以及相应解答:
embedding是什么?
embedding可以看作文字编码的降维,比如onehot编码可以降维到更低
为什么要用embedding升维?从代码中可以看到,因为只有10个数字,所以为什么要升维到32呢?
这是因为embedding的又一个作用体现了。对低维的数据进行升维时,可能把一些其他特征给放大了,或者把笼统的特征给分开了
rnn在__init__定义的三个参数是什么?调用的时候又是什么?
rnn的第一个参数是input_size,也就是输入向量的维度,比如现在的情况,输入的向量是32+32(因为两个要相加的数要串联);
rnn的第二个参数是hidden_size,是指输出向量的维度,我们这里还是64;
rnn的第三个参数是num_layer,也就是会进两个rnn层;
调用的时候,往rnn里扔的两个东西第一个是串联好的input,第二个是hidden_state的初始化,我这里填写了none,就是全部初始化为0,这是最差的一种初始化方式。
logits这里不需要只取最后的时间,因为在后面evaluate的时候单独做了处理。
训练结果
问题是没有办法高位进位,涉及高位进位就会accuracy是0
4位3000轮——0.15,只有5一下 3位3000轮——27.5,只有5以下
修改方向
- clipping the gradient
- 更改rnn模型:使用lstm,目前的确是越短的加法准确度越高,还可以考虑双向lstm(但是应该没用啊),此外别的加法用了decoder和encoder模型,这样可以解决进位问题吗?
- 各种门的初始化使用正交初始化
- 先调试训练集的准确度
- 即使网络规模小,只有一层rnn,加入dropout和l2正则化都会减轻过拟合
- learning rate的选取
- 直接串联会不会没有交叉的排列好?
代码里不懂的地方
- 有一个处理数据的reverse函数,这是因为加法只会低位影响高位,所以对序列转向,让低位数字先进rnn网络
other工作想法
- 看训练集的准确度
- 出训练集和测试集的图
- 有问题看pytorch的官方文档
- 还有相对路径这件破事没搞
- pytorch安装的坑:其中,-c pytorch参数指定了conda获取pytorch的channel,在此指定为conda自带的pytorch仓库。因此,只需要将-c pytorch语句去掉,就可以使用清华镜像源快速安装pytorch了。此为pytorch安装的坑
- for o in list(zip(datas[2], res))[:20]: print(o[0], o[1], o[0]==o[1])可以方便看训练的具体情况