课程名称: Prediction and Control with Function Approximation
课程主页: https://www.coursera.org/learn/prediction-control-function-approximation
所在平台: Coursera
课程类别: 机器学习 Machine Learning
大学或机构: 阿尔伯塔大学
讲师: Martha White,Adam White
授课语言: 英语
提供字幕: 英文
课程文件大小: 1.11GB
课程介绍: 在本课程中,您将学习如何解决大型,高维以及可能无限的状态空间的问题。您将看到估计值函数可以转换为有监督的学习问题-函数逼近-使您能够构建谨慎地平衡概括性和歧视性以最大化报酬的代理。我们将通过研究如何将我们的策略评估或预测方法(如蒙特卡洛和TD)扩展到函数近似设置来开始这一旅程。您将学习用于RL的特征构造技术,以及通过神经网络和反向传播技术进行表示学习。我们将通过深入探讨政策梯度方法来结束本课程。直接学习政策而无需学习价值功能的方法。在本课程中,您将解决两个连续状态控制任务,并研究连续操作环境中策略渐变方法的好处。 先决条件:本课程以课程1和2的基础为基础,学习者应该在开始本课程之前完成这些课程。学习者还应熟悉概率和能力。期望,基本线性代数,基本演算,Python 3.0(至少1年),以及通过伪代码实现算法。 在本课程结束时,您将能够: -了解如何使用监督学习方法来近似值函数 -了解函数逼近下的预测目标(值估计) -在具有无限状态空间(连续状态空间)的环境中用函数逼近(状态聚合)实现TD -了解固定基础和神经网络的特征构建方法 -在连续状态环境中用神经网络函数逼近TD -理解为函数逼近时探索中的新困难 -对照控制的折扣问题公式与平均奖励问题公式 -在连续状态控制任务上使用函数逼近来实现预期的Sarsa和Q学习 -了解直接估算政策的目标(政策梯度目标) -在离散状态环境中实施策略梯度方法(称为Actor-Critic)
课程压缩包下载地址(度盘链接):
友情提醒:
评论前必须登录!
注册