课程主页: https://www.coursera.org/learn/prediction-control-function-approximation
在这个由阿尔伯塔大学、Onlea和Coursera提供的课程中,学习者将深入探讨如何解决具有大、高维度和潜在无限状态空间的问题。《函数逼近的预测与控制》是强化学习专业化课程的第三门课程,带你走进一个精彩的学习旅程,了解如何通过函数逼近来预测和控制复杂系统的行为。
课程的第一部分,”为预测的在线策略估计”,把重点放在如何为给定策略估计价值函数,尤其是在状态数远超过代理可用内存的情况下。学习者将接触到参数化形式的价值函数,并学习如何设定目标函数,运用梯度下降估计值。这为后续复杂的功能逼近奠定了基础。
接下来的部分,”构建预测功能”,则强调了特征构建对于成功学习系统的重要性。学员们将探索两个基本策略,包括固定基函数和动态适应特征的神经网络与反向传播。通过解决一个简单但无限状态的预测任务,参与者将能够运用这些理论和技术。
课程的后半部分重点在控制与函数逼近,以及策略梯度的应用。在”控制与逼近”模块中,学生将学习如何将经典TD控制方法与函数逼近结合,从而在无限状态的MDP中找到最佳策略。而在”策略梯度”模块,学生将了解到直接学习策略参数的方法,探讨其优点及如何在连续状态和动作空间中找到最佳策略。
总的来说,这门课程为强化学习领域提供了深入的理论基础和实操技术,适合希望在这一领域有所建树的学习者。无论是机器学习新手还是有经验的从业者,都能从中获益匪浅。
课程主页: https://www.coursera.org/learn/prediction-control-function-approximation