课程主页: https://www.coursera.org/learn/prediction-control-function-approximation
课程简介
《功能逼近中的预测与控制》是阿尔伯塔大学、Onlea和Coursera共同推出的强化学习专项课程中的第三门课程。在这门课程中,您将学习如何解决具有大型、高维且可能是无限状态空间的问题。课程介绍了如何将价值函数估计转化为监督学习问题——功能逼近,从而创建能够在最大化奖励的过程中平衡泛化与区分能力的代理程序。
课程大纲
- 课程欢迎环节:在这一环节,您将认识讲师和课程的概貌,并参与“见面会”部分与同学互动。
- 基于逼近的政策预测:您将学习如何在状态数量远大于代理可用内存的情况下估计特定政策的价值函数,通过指定价值函数的参数形式、目标函数以及使用梯度下降方法进行值的估计。
- 为预测构造特征:介绍了特征构造的两种基本策略:固定基础和自适应特征构造,使您能够解决简单但无限状态的预测任务。
- 通过逼近进行控制:介绍如何将经典的时间差分(TD)控制方法扩展到功能逼近设置中,从而发现无限状态马尔可夫决策过程(MDP)中的最优策略。
- 政策梯度:学习如何直接学习政策参数的策略,以及政策梯度方法在连续状态和动作空间任务中找到最优策略的应用。
推荐理由
如果您对强化学习和机器学习的应用感兴趣,那么这门课程非常适合您。通过课程的学习,您将能够掌握解决大规模问题的核心概念与方法,并为将来在人工智能领域的发展打下坚实的基础。课程内容深入浅出,且具有很高的实用价值,使得无论是初学者还是有一定基础的学习者都能受益匪浅。
课程主页: https://www.coursera.org/learn/prediction-control-function-approximation