https://www.bilibili.com/video/BV1ca41187qB?p=3
17分55秒
什么效果比较好
无论是奖励还是步数都是缓缓的上升
如果奖励不是一直向上升,例如是先上升再下降,那拿最高点的模型就好