Deep Learning Specialization on Coursera

全面强化学习系统课程评测（最后项目）

作者CourseEye

10 月 11, 2024 #Coursera, #MDP, #Q学习, #强化学习, #性能参数, #数据科学, #机器学习, #神经网络, #算法选择, #项目实战

课程主页: https://www.coursera.org/learn/complete-reinforcement-learning-system

课程概述

《全面强化学习系统（最后项目）》是Coursera平台上的一门精彩课程，在这门课程中，学员将运用在之前三门课程中学到的知识，实施一个完整的强化学习解决方案。通过这一最终项目，您将全面理解每个组件——问题的表述、算法的选择、参数的选取和表现设计，如何结合在一起以构成一个完整的解决方案，以及如何在实际应用中做出适当的选择。

课程结构

本课程的学习安排分为五个重要里程碑：

里程碑1：将实际问题形式化为马尔可夫决策过程（MDP）
在这一周，您将阅读一个问题的描述，并将其转化为MDP。您需要完成一个环境的骨架代码，以获得用于本项目的完整MDP。
里程碑2：选择正确的算法
这一周，您将从三种算法中选择，其目标是为环境学习一个策略。您需要反思并讨论每种算法在该环境中的适用性。
里程碑3：识别关键性能参数
您将识别影响代理性能的关键参数，目标是理解选项空间，为后续深入研究代理所选参数打下基础。
里程碑4：实现您的代理
这一周，您将使用期望Sarsa或Q学习与RMSProp和神经网络来实现您的代理。使用神经网络时，需要采用更精确的步长选择策略，因此您将使用RMSProp。同时，您还需要检查代理的正确性。
里程碑5：提交您的参数研究！
您将选择一个参数进行研究，并根据给定的范围值和其他参数的具体值，编写脚本运行代理和环境，以确定在这些参数下的性能。您将获得参数对代理性能影响的洞察。