导语
在使用指南的最后一部分,我们汇总了使用PaddlePaddle过程中的常见问题,本部分推文目录如下:
2.22:【FAQ】模型配置相关问题汇总
2.23:【FAQ】参数设置相关问题汇总
2.24:【FAQ】本地训练与预测相关问题汇总
2.25:【FAQ】集群训练与预测相关问题汇总
2.26:如何贡献代码
2.27:如何贡献文档
集群训练与预测相关问题汇总
|1.集群多节点训练,日志中保存均为网络通信类错误
集群多节点训练,日志报错为网络通信类错误,比如 Connection reset by peer 等。 此类报错通常是由于某一个节点的错误导致这个节点的训练进程退出,从而引发其他节点无法连接导致,可以参考下面的步骤排查:
从 train.log , server.log 找到最早报错的地方,查看是否是其他错误引发的报错(比如FPE,内存不足,磁盘空间不足等)。
如果发现最早的报错就是网络通信的问题,很有可能是非独占方式执行导致的端口冲突,可以联系OP,看当前MPI集群是否支持resource=full参数提交,如果支持增加此参数提交,并更换job 端口。
如果当前MPI集群并不支持任务独占模式,可以联系OP是否可以更换集群或升级当前集群。
|PS
集群训练与预测相关FAQ较少,点击导语推文目录查看其它部分FAQ,点击阅读原文访问Github Issue。
为了方便大家问题的跟进解决,我们采用Github Issue来采集信息和追踪进度。大家遇到问题请搜索Github Issue,问题未解决请优先在Github Issue上提问,有助于问题的积累和沉淀。
end
*原创贴,版权所有,未经许可,禁止转载
*值班小Paddle:wangp
*欢迎在留言区分享您的观点
点击“阅读原文”,访问Github Issue。