课程主页: https://www.coursera.org/learn/fundamentals-of-reinforcement-learning
课程概述
强化学习是机器学习的一个子领域,同时也是一个用于自动决策和人工智能的通用形式。该课程将向您介绍统计学习技术,其中一个代理明确采取行动并与世界进行互动。在越来越多的公司对互动代理和智能决策感兴趣的今天,理解学习代理在决策中所面临的重要性和挑战变得尤为重要。
课程大纲
欢迎来到课程!
这是由阿尔伯塔大学、Onlea和Coursera联合推出的强化学习系列的第一门课程。在此预备模块中,您将认识您的讲师,预览课程内容,并获得一份详细的路线图,以帮助您顺利完成这一系列的学习之旅。
序列决策的介绍
在课程的第一周,您将学习如何理解序列决策中的探索-利用权衡,实施增量算法估计行动价值,并比较不同探索算法的优缺点。在本周的评估中,您将实施并测试一个epsilon-greedy代理。
马尔可夫决策过程
当您在行业中遇到一个问题时,第一步也是最重要的一步是将该问题转换为马尔可夫决策过程(MDP)。您的解决方案的质量很大程度上依赖于您如何进行这种转化。本周,您将学习MDP的定义,理解目标导向行为以及如何通过最大化标量奖励来获得该行为,还将理解阶段性任务与持续任务之间的区别。在本周的评估中,您将创建三个适合MDP框架的示例任务。
价值函数与贝尔曼方程
一旦问题被制定为MDP,使用价值函数将更有效地找到最优策略。本周,您将学习策略和价值函数的定义,以及所有算法将使用的关键技术——贝尔曼方程。
动态规划
本周,您将学习如何计算价值函数和最优策略,假设您已拥有MDP模型。您将实施动态规划来计算价值函数和最优策略,并理解动态规划在工业应用和问题中的使用价值。此外,您还将学习通用策略迭代,这是构建最大化奖励算法的常见模板。在本周的评估中,您将实施一个高效的动态规划代理于一个模拟工业控制问题中。
课程主页: https://www.coursera.org/learn/fundamentals-of-reinforcement-learning