课程主页: https://www.coursera.org/learn/complete-reinforcement-learning-system
课程概述
《全面强化学习系统(最后项目)》是Coursera平台上的一门精彩课程,在这门课程中,学员将运用在之前三门课程中学到的知识,实施一个完整的强化学习解决方案。通过这一最终项目,您将全面理解每个组件——问题的表述、算法的选择、参数的选取和表现设计,如何结合在一起以构成一个完整的解决方案,以及如何在实际应用中做出适当的选择。
课程结构
本课程的学习安排分为五个重要里程碑:
- 里程碑1:将实际问题形式化为马尔可夫决策过程(MDP)
在这一周,您将阅读一个问题的描述,并将其转化为MDP。您需要完成一个环境的骨架代码,以获得用于本项目的完整MDP。
- 里程碑2:选择正确的算法
这一周,您将从三种算法中选择,其目标是为环境学习一个策略。您需要反思并讨论每种算法在该环境中的适用性。
- 里程碑3:识别关键性能参数
您将识别影响代理性能的关键参数,目标是理解选项空间,为后续深入研究代理所选参数打下基础。
- 里程碑4:实现您的代理
这一周,您将使用期望Sarsa或Q学习与RMSProp和神经网络来实现您的代理。使用神经网络时,需要采用更精确的步长选择策略,因此您将使用RMSProp。同时,您还需要检查代理的正确性。
- 里程碑5:提交您的参数研究!
您将选择一个参数进行研究,并根据给定的范围值和其他参数的具体值,编写脚本运行代理和环境,以确定在这些参数下的性能。您将获得参数对代理性能影响的洞察。
总结
进入这门课程,您将从实际操作中深入理解如何构建一个有效的强化学习系统。无论是理论学习还是实践项目,这门课程都会帮助您系统化地掌握强化学习的本质,并为未来的应用打下坚实的基础。
课程主页: https://www.coursera.org/learn/complete-reinforcement-learning-system