1.
如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出:
当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。(换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。)对于首次经历 MC,收敛性遵守大数定律,详情请参阅该教科书的第 5.1 部分。