作者:海风 | 来源:互联网 | 2023-09-25 13:45
今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的dataparallel。结果其他网络模型都没有问题,只有text
今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的data parallel。结果其他网络模型都没有问题,只有text encoder出了问题。
原因有两个部分:
- hidden是用text encoder的自定义方法赋值的,而且原来的hidden size为(a, batch size, b),但dataparallel分发任务默认将第一维当做batch size。于是对其进行了一番修改,具体参考这篇博文
- 然后是另一个我没搜到解决方法的问题。我这边输出是有一个wordembs,它的输出的第二维大小取决于当前数据最长的部分,于是当返回的时候dataparallel对它做merge,由于大小不一样报错了。(我尝试了传入这个batch里最大的长度,不过后来由于其他地方出错,我就把这块给删了。)
最后,我发现还是将rnn给不用dataparallel要好用,这样就不需要考虑各种各样的问题了。主要是我的rnn只是对文本编码,只是我模型的一小部分,所以解决起来还是可以的。