我可以在分类上使用强化学习吗?比如人类活动识别?如何?
有两种类型的反馈.一是评价是在强化学习方法使用,二是启发了在主要用于分类问题监督学习使用.
当使用监督学习时, 基于已经存在的正确类别标签的信息来调整网络的权重,例如神经网络.因此,在选择错误的类损失增加和权重调整时,对于那种输入,不再选择这个错误的类.
然而,在强化学习中,系统会探索所有可能的操作,在这种情况下针对各种输入的类标签,并通过评估奖励来决定什么是对的,什么是错的.也许情况也是如此,直到它获得正确的类标签,它可能会给出错误的类名,因为它是迄今为止发现的最佳输出.因此,它没有利用我们对类标签的具体知识,因此与监督学习相比,显着降低了收敛速度.
您可以将强化学习用于分类问题,但它不会给您任何额外的好处,反而会降低您的收敛速度.