关注上方“深度学习技术前沿”,选择“星标公众号”,
资源干货,第一时间送达!
本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。
1. 课程介绍(Description)
要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。
课程地址:
https://web.stanford.edu/class/cs234/schedule.html
2. 预备知识(Prerequisites)
1)熟练Python
所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。
2)大学微积分,线性代数(如 MATH 51, CME 100)
你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。
3)基本概率及统计(例如CS 109 或同等课程)
你应该了解基本的概率,高斯分布,均值,标准差等。
4)机器学习基础
我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。
3. 主讲:Emma Brunskill
Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。
主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。
个人主页:https://cs.stanford.edu/people/ebrun/
4. 课程安排
01: 强化学习导论(Introduction to Reinforcement Learning)
02: 表格MDP规划(Tabular MDP planning)
03: 表格RL政策评估(Tabular RL policy evaluation)
04: Q-learning
05: 带函数逼近的强化学习(RL with function approximation)
06: 带函数逼近的强化学习(RL with function approximation)
07: 带函数逼近的强化学习(RL with function approximation)
08: 从马尔可夫决策过程到强化学习(Policy search)
09: 从马尔可夫决策过程到强化学习(Policy search)
10: 课堂中期(In-class Midterm)
11: 模仿学习/探索(Imitation learning/Exploration)
12: 探索/开发(Exploration/Exploitation)
13: 探索/开发(Exploration/Exploitation)
14: 批处理强化学习(Batch Reinforcement Learning)
15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)
16: 课堂测验(In-class Quiz)
17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)
18: 墙报展示(Poster presentations)