Deep Learning Specialization on Coursera

课程主页: https://www.coursera.org/learn/sample-based-learning-methods

本课程《基于样本的学习方法》是阿尔伯塔大学、Onlea和Coursera合作推出的强化学习专业化的第二门课程。课程主要聚焦于通过与环境的试错交互,学习近似最优策略的多种算法。学习实际经验的过程是个引人注目的主题,因为它不需要对环境动态的先验知识,却能够获得最优行为。该课程涉及到简单而强大的蒙特卡罗方法,以及诸如Q学习在内的时间差学习方法。

课程首先欢迎学生加入,介绍了讲师及课程的基本内容,鼓励同学们在“见面问候”部分进行自我介绍。

在接下来的模块中,你将学习如何使用仅从环境中采样的经验,估计价值函数和最优策略。该模块是我们朝向增量学习方法迈出的第一步,这些方法通过代理与世界的互动学习,而非依赖于世界模型。你将了解到基于蒙特卡罗方法的在政策和离政策的预测与控制方法,并将对探索问题有更深入的理解。

随后,你会接触到强化学习中一个基本概念:时间差(TD)学习。TD学习结合了蒙特卡罗和动态规划(DP)方法的一些特性。与蒙特卡罗方法类似,TD方法能够通过代理与世界的互动进行学习,而不需要模型知识。与DP方法的相似之处在于,TD方法采用自举(bootstrapping)方式,因而可以在线学习,而无需等到整个回合结束。你将实现TD来估计固定政策下的价值函数,进行模拟领域的实践。

接下来,课程将转向使用时间差学习进行控制。你会了解基于自举和贝尔曼方程的三种不同控制算法。通过学习这部分内容,你将理解在政策和离政策控制之间的区别,并实现正在进行的策略更新技术。

最后,我们将探讨学习和规划的统一概念。在这个模块中,你将学习如何从数据中估计模型,并利用这个模型生成假设经验,从而大幅提升样本效率。你还会了解到如何设计健壮的学习系统,以防模型不准确的影响。

总体来说,这门课程为学习强化学习提供了坚实的基础。通过理论与实践相结合的方式,学生能够将所学应用于实际问题,尤其是在机器学习和人工智能的领域,课程的丰富内容非常适合希望深入掌握RL技术的学员。

课程主页: https://www.coursera.org/learn/sample-based-learning-methods

作者 CourseEye