课程主页: https://www.coursera.org/learn/complete-reinforcement-learning-system
课程介绍
《完整的强化学习系统(阶段项目)》是Coursera上强化学习系列课程的最终课程。在本课程中,您将整合之前三门课程的知识,实施一个完整的强化学习解决方案来解决实际问题。这一阶段项目将帮助您了解如何将每个组件——问题的形式化、算法的选择、参数的选择和表示设计——整合成一个完整的解决方案,并在实际应用强化学习时做出适当的选择。
课程大纲
里程碑 1: 将问题形式化为马尔可夫决策过程 (MDP)
在这一周,您将阅读某个问题的描述,并将其转换为MDP。您还将完成此环境的框架代码,以获得完整的MDP,用于本阶段项目。
里程碑 2: 选择合适的算法
这一周,您将从三种算法中选择一种,以学习环境的策略。您将反思和讨论每种算法在该环境中的适用性。
里程碑 3: 确定关键性能参数
这一周,您将识别出影响您智能体性能的关键参数。目的是理解不同选项空间,以便稍后能够深入研究您选择的参数。
里程碑 4: 实施您的智能体
这一周,您将使用期望Sarsa或Q-learning与RMSProp和神经网络实现您的智能体。使用神经网络时,需要更加小心选择步长策略,这就是为什么您将使用RMSProp。您还将验证智能体的正确性。
里程碑 5: 提交您的参数研究!
这一周,您将确定要研究的参数。一旦选择了要研究的参数,我们将提供一系列值和其他参数的具体值。您将编写一个脚本,在这些参数下运行智能体和环境,以确定参数对性能的影响。您还将可视化您的学习智能体。您的参数研究将由我们检查正确性的值数组组成。
总结
本课程的设计不仅让学生掌握扎实的理论基础,还通过实际动手操作,加深对强化学习系统的理解。对于想要应用强化学习到实际问题的学习者来说,该课程将是一个非常好的选择。
课程主页: https://www.coursera.org/learn/complete-reinforcement-learning-system