目录
- 1.思考题
- 1.1请简述基于蒙特卡洛的强化学习的原理?
- 1.2强化学习的目标与深度学习的目标有何区别?
- 2.编程题
1.思考题
1.1请简述基于蒙特卡洛的强化学习的原理?
蒙特卡洛方法的基本理念是在面向求取含有未知随机变量的概率事件时,通过某种“试验”的方法以得出所包含的随机变量的均值或某种情况(特殊事件)成立的概率,作为此类问题的近似解。这种方法通过分析事件概率或随机变量的变化特征,利用数学方法确定一个基准模型(即变化规律)用于模拟,按照模型规律对问题变量进行捕捉并求解。通常利用蒙特卡洛方法解决问题的顺序如下:
- 第一步:构造或描述概率过程,即正确构建概率模型并确定运算方法;
- 第二步:需从已确立的概率模型分布中进行随机抽样;
- 第三步:建立估计量即确定一个随机变量作为问题的解。
而在 MCTS 中,蒙特卡洛树搜索在制定最优解的执行方案前,会预先进行多次试验性博弈,并根据每次试验得出的结果不断分析以更新博弈树中的数据以及调整自身参数。蒙特卡洛树搜索的主要理念是搜索,其含义是博弈树中由根节点作为起点,到终节点结束的一组试验集合,路径是由当前环境状态(根节点)到任意一个未被选择过的节点,直到最后一个节点(终节点)。而在遇到未完全访问节点时,系统则会选取未被选择的子节点进行试验以保证每一次的试验路径上至少有一个未被选取过的节点,以避免重复试验。在得出一次模拟结果后,信息将被反馈至当前环境状态下的根节点,且路径上的所有节点将会分析数据并更新自身信息(用于判断下一次选择),当根节点以下的子节点全部试验结束后,系统则会根据收集的信息(优劣信号次数)决定下一步的执行选择。
MCTS 的基本原理可分为四点:
1)选择:从当前环境状态量(选为根节点)开始,按照预先设定的系统选取规则,提取余下所有子节点。
2)扩展:由当前子节点扩展一个或多个符合系统约定的下一级子节点。
3)模拟:面向待选取的子节点采取随机的模式进行一定次数的模拟试验,直到在终节点完成模拟后,由根节点得出此组模拟所得的奖惩值(优劣对比)。
4)结果回传:在某一子节点经过多次模拟试验得出奖惩值后,覆盖更新此节点的试验次数与奖惩值。并将数据回传至其所有更高一级节点并更新路径上的所有节点的数据信息。
1.2强化学习的目标与深度学习的目标有何区别?
强化学习是指教授代理人使用奖励来导航环境. QLearning是主要的强化学习方法之一。
深度学习使用神经网络来实现某个目标,例如识别图像中的字母和单词。
深度强化学习是两者的结合,以Q学习为基础.但是,这不是使用实际的状态 – 值对,而是经常用于状态 – 动作空间太大以至于Q学习需要很长时间才能收敛的环境中。通过使用神经网络,我们可以找到相似的其他状态 – 动作对。这种“函数逼近”允许在具有非常大的状态动作空间的环境中进行有效学习。
2.编程题
任务:利用强化学习设计五子棋
目标:
- 棋盘大小 10 * 10
- 采用强化学习(策略价值网络),用AI训练五子棋AI
- 编写代码,说明神经网络(策略价值网络),MCTS原理
- 生成五子棋AI模型 .model
- 进行人机对弈
完整链接:https://pan.baidu.com/s/1SzU8vVyGi5SubzAlUTAhMQ
提取码:im59