热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

RNN加法器的坑及对应

模式识别的pj2rnn加法器首先仔细看助教给的大体代码主要要求补齐的是forward函数:看这段代码让我一开始迷惑的问题以及相应解答:1.embedding是什么?embeddin

模式识别的pj2

rnn加法器

首先仔细看助教给的大体代码主要要求补齐的是forward函数:

class myPTRNNModel(nn.Module):
def __init__(self):
super().__init__()
self.embed_layer = nn.Embedding(10, 32)
self.rnn = nn.RNN(64, 64, 2)
self.dense = nn.Linear(64, 10)
def forward(self, num1, num2):
‘‘‘
Please finish your code here.
‘‘‘
num1 = self.embed_layer(num1)
num2 = self.embed_layer(num2)
input = torch.cat((num1, num2), 2)
#packed = pack_padded_sequence(input, encode_length.tolist(), batch_first=True)
r_out, (h_n, h_c) = self.rnn(input, None)
logits = self.dense(r_out)
return logits

看这段代码让我一开始迷惑的问题以及相应解答:



  1. embedding是什么?

    embedding可以看作文字编码的降维,比如onehot编码可以降维到更低



  2. 为什么要用embedding升维?从代码中可以看到,因为只有10个数字,所以为什么要升维到32呢?

    这是因为embedding的又一个作用体现了。对低维的数据进行升维时,可能把一些其他特征给放大了,或者把笼统的特征给分开了



  3. rnn在__init__定义的三个参数是什么?调用的时候又是什么?

    rnn的第一个参数是input_size,也就是输入向量的维度,比如现在的情况,输入的向量是32+32(因为两个要相加的数要串联);

    rnn的第二个参数是hidden_size,是指输出向量的维度,我们这里还是64;

    rnn的第三个参数是num_layer,也就是会进两个rnn层;

    调用的时候,往rnn里扔的两个东西第一个是串联好的input,第二个是hidden_state的初始化,我这里填写了none,就是全部初始化为0,这是最差的一种初始化方式。



  4. logits这里不需要只取最后的时间,因为在后面evaluate的时候单独做了处理。




训练结果

问题是没有办法高位进位,涉及高位进位就会accuracy是0

4位3000轮——0.15,只有5一下 3位3000轮——27.5,只有5以下


修改方向



  1. clipping the gradient

  2. 更改rnn模型:使用lstm,目前的确是越短的加法准确度越高,还可以考虑双向lstm(但是应该没用啊),此外别的加法用了decoder和encoder模型,这样可以解决进位问题吗?

  3. 各种门的初始化使用正交初始化

  4. 先调试训练集的准确度

  5. 即使网络规模小,只有一层rnn,加入dropout和l2正则化都会减轻过拟合

  6. learning rate的选取

  7. 直接串联会不会没有交叉的排列好?


代码里不懂的地方



  1. 有一个处理数据的reverse函数,这是因为加法只会低位影响高位,所以对序列转向,让低位数字先进rnn网络



other工作想法



  1. 看训练集的准确度

  2. 出训练集和测试集的图

  3. 有问题看pytorch的官方文档

  4. 还有相对路径这件破事没搞

  5. pytorch安装的坑:其中,-c pytorch参数指定了conda获取pytorch的channel,在此指定为conda自带的pytorch仓库。因此,只需要将-c pytorch语句去掉,就可以使用清华镜像源快速安装pytorch了。此为pytorch安装的坑

  6. for o in list(zip(datas[2], res))[:20]: print(o[0], o[1], o[0]==o[1])可以方便看训练的具体情况


推荐阅读
  • 默认情况下,Git 使用 Nano 编辑器进行提交信息的编辑,但如果您更喜欢使用 Vim,可以通过简单的配置更改来实现这一变化。本文将指导您如何通过修改全局配置文件来设置 Vim 作为默认的 Git 提交编辑器。 ... [详细]
  • 在Notepad++中配置Markdown语法高亮及实时预览功能
    本文详细介绍了如何在Notepad++中配置Markdown语法高亮和实时预览功能,包括必要的插件安装和设置步骤。 ... [详细]
  • 深入解析Unity3D游戏开发中的音频播放技术
    在游戏开发中,音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频,包括背景音乐和效果音效,并介绍实现这些功能的具体步骤。 ... [详细]
  • 本文探讨了一种常见的C++面试题目——实现自己的String类。通过此过程,不仅能够检验开发者对C++基础知识的掌握程度,还能加深对其高级特性的理解。文章详细介绍了如何实现基本的功能,如构造函数、析构函数、拷贝构造函数及赋值运算符重载等。 ... [详细]
  • 随着Linux操作系统的广泛使用,确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则,以增强系统的安全性。 ... [详细]
  • 3DSMAX制作超现实的体育馆模型
    这篇教程是向脚本之家的朋友介绍3DSMAX制作超现实的体育馆模型方法,教程制作出来的体育馆模型非常地不错,不过教程有点难度,需要有一定基础的朋友学习,推荐到脚本之家,喜欢的朋友可 ... [详细]
  • 本文介绍了如何在AngularJS应用中使用ng-repeat指令创建可单独点击选中的列表项,并详细描述了实现这一功能的具体步骤和代码示例。 ... [详细]
  • 在项目冲刺的最后一天,团队专注于软件用户界面的细节优化,包括调整控件布局和字体设置,以确保界面的简洁性和用户友好性。 ... [详细]
  • JavaScript 页面卸载事件详解 (onunload)
    当用户从页面离开时(如关闭页面或刷新页面),会触发 onunload 事件,此时可以执行预设的脚本。需要注意的是,不同的浏览器对 onunload 事件的支持程度可能有所不同。 ... [详细]
  • 探索Java 11中的ZGC垃圾收集器
    Java 11引入了一种新的垃圾收集器——ZGC,由Oracle公司研发,旨在支持TB级别的内存容量,并保证极低的暂停时间。本文将探讨ZGC的开发背景、技术特点及其潜在的应用前景。 ... [详细]
  • 本文探讨了使用普通生成函数和指数生成函数解决组合与排列问题的方法,特别是在处理特定路径计数问题时的应用。文章通过详细分析和代码实现,展示了如何高效地计算在给定条件下不相邻相同元素的排列数量。 ... [详细]
  • 探讨如何在映射文件中处理重复的属性字段,以避免数据操作时出现错误。 ... [详细]
  • 网络流24题——试题库问题
    题目描述:假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]
  • 利用无代码平台实现高效业务应用开发
    随着市场环境的变化加速,全球企业都在探索更为敏捷的应用开发模式,以便快速响应新兴的商业机遇。然而,传统的软件开发方式不仅成本高昂,而且耗时较长,这往往导致IT与业务部门之间的合作障碍,进而影响项目的成功。本文将探讨如何通过无代码开发平台解决这些问题。 ... [详细]
  • 本文回顾了作者在求职阿里和腾讯实习生过程中,从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历,还提供了宝贵的面试准备建议和技巧。 ... [详细]
author-avatar
real存在尹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有