热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

RNN加法器的坑及对应

模式识别的pj2rnn加法器首先仔细看助教给的大体代码主要要求补齐的是forward函数:看这段代码让我一开始迷惑的问题以及相应解答:1.embedding是什么?embeddin

模式识别的pj2

rnn加法器

首先仔细看助教给的大体代码主要要求补齐的是forward函数:

class myPTRNNModel(nn.Module):
def __init__(self):
super().__init__()
self.embed_layer = nn.Embedding(10, 32)
self.rnn = nn.RNN(64, 64, 2)
self.dense = nn.Linear(64, 10)
def forward(self, num1, num2):
‘‘‘
Please finish your code here.
‘‘‘
num1 = self.embed_layer(num1)
num2 = self.embed_layer(num2)
input = torch.cat((num1, num2), 2)
#packed = pack_padded_sequence(input, encode_length.tolist(), batch_first=True)
r_out, (h_n, h_c) = self.rnn(input, None)
logits = self.dense(r_out)
return logits

看这段代码让我一开始迷惑的问题以及相应解答:



  1. embedding是什么?

    embedding可以看作文字编码的降维,比如onehot编码可以降维到更低



  2. 为什么要用embedding升维?从代码中可以看到,因为只有10个数字,所以为什么要升维到32呢?

    这是因为embedding的又一个作用体现了。对低维的数据进行升维时,可能把一些其他特征给放大了,或者把笼统的特征给分开了



  3. rnn在__init__定义的三个参数是什么?调用的时候又是什么?

    rnn的第一个参数是input_size,也就是输入向量的维度,比如现在的情况,输入的向量是32+32(因为两个要相加的数要串联);

    rnn的第二个参数是hidden_size,是指输出向量的维度,我们这里还是64;

    rnn的第三个参数是num_layer,也就是会进两个rnn层;

    调用的时候,往rnn里扔的两个东西第一个是串联好的input,第二个是hidden_state的初始化,我这里填写了none,就是全部初始化为0,这是最差的一种初始化方式。



  4. logits这里不需要只取最后的时间,因为在后面evaluate的时候单独做了处理。




训练结果

问题是没有办法高位进位,涉及高位进位就会accuracy是0

4位3000轮——0.15,只有5一下 3位3000轮——27.5,只有5以下


修改方向



  1. clipping the gradient

  2. 更改rnn模型:使用lstm,目前的确是越短的加法准确度越高,还可以考虑双向lstm(但是应该没用啊),此外别的加法用了decoder和encoder模型,这样可以解决进位问题吗?

  3. 各种门的初始化使用正交初始化

  4. 先调试训练集的准确度

  5. 即使网络规模小,只有一层rnn,加入dropout和l2正则化都会减轻过拟合

  6. learning rate的选取

  7. 直接串联会不会没有交叉的排列好?


代码里不懂的地方



  1. 有一个处理数据的reverse函数,这是因为加法只会低位影响高位,所以对序列转向,让低位数字先进rnn网络



other工作想法



  1. 看训练集的准确度

  2. 出训练集和测试集的图

  3. 有问题看pytorch的官方文档

  4. 还有相对路径这件破事没搞

  5. pytorch安装的坑:其中,-c pytorch参数指定了conda获取pytorch的channel,在此指定为conda自带的pytorch仓库。因此,只需要将-c pytorch语句去掉,就可以使用清华镜像源快速安装pytorch了。此为pytorch安装的坑

  6. for o in list(zip(datas[2], res))[:20]: print(o[0], o[1], o[0]==o[1])可以方便看训练的具体情况


推荐阅读
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 本文探讨了如何通过最小生成树(MST)来计算严格次小生成树。在处理过程中,需特别注意所有边权重相等的情况,以避免错误。我们首先构建最小生成树,然后枚举每条非树边,检查其是否能形成更优的次小生成树。 ... [详细]
  • QUIC协议:快速UDP互联网连接
    QUIC(Quick UDP Internet Connections)是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP,并结合了TLS级别的安全性,提供了更高效、更可靠的互联网通信方式。 ... [详细]
  • 本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作,包括参数说明、事件生成及处理逻辑。详细解析了视图(View)对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]
  • 深入理解 Oracle 存储函数:计算员工年收入
    本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程,并提供完整的代码示例。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 深入理解Cookie与Session会话管理
    本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息,以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制,解释其原理及应用场景。 ... [详细]
  • 本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建,还处理了系统服务的配置和启动,确保在多种 Linux 发行版上都能顺利运行。 ... [详细]
  • XNA 3.0 游戏编程:从 XML 文件加载数据
    本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件,并通过内容管道加载到游戏中。此外,还会涉及自定义类型读取器和写入器的实现。 ... [详细]
  • 360SRC安全应急响应:从漏洞提交到修复的全过程
    本文详细介绍了360SRC平台处理一起关键安全事件的过程,涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例,展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]
  • 本文介绍如何通过Windows批处理脚本定期检查并重启Java应用程序,确保其持续稳定运行。脚本每30分钟检查一次,并在需要时重启Java程序。同时,它会将任务结果发送到Redis。 ... [详细]
  • 深入理解OAuth认证机制
    本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准,旨在为第三方应用提供安全的用户资源访问授权,同时确保用户的账户信息(如用户名和密码)不会暴露给第三方。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 本文详细探讨了在Android 8.0设备上使用ChinaCock的TCCBarcodeScanner进行扫码时出现的应用闪退问题,并提供了解决方案。通过调整配置文件,可以有效避免这一问题。 ... [详细]
author-avatar
real存在尹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有