作者:小乐的孤独人生_298 | 来源:互联网 | 2023-02-12 20:43
是否有充分了解何时使用辍学与简单获取更多数据的指导原则?我之前已经理解,如果有足够的数据,就不会想要使用dropout.然而,我最近有一个模型(4层LSTM处理音频输入),无论我提供多少数据,都会凭经验收敛到一定的损失 - 然后在我添加丢失时显着改善.
这种现象很好理解吗?那么,即使有更多(可能是无限的)数据可用,总是会使用dropout吗?
后续行动:如果是这样,我在RL论文中没有多少提及辍学.我认为这是因为有无限的可生成数据.这里是否有其他细微差别可以考虑探讨的状态空间的分数,或者可用的训练数据的异质性等?
1> Thomas Pinet..:
辍学降低了列车的准确性,以换取测试精度.但是,您在数据上的表现受到训练准确性的限制.在具有无限独立分布式数据的世界中,可以获得与训练集相等的问题的性能,因为实质上它是相同的数据.
但是在实践中你永远不会有这么好的训练集.即使您获得无限数据,它也不代表您的分布,绝对不会是独立的.