马尔科夫决策过程课件.pptx

马尔科夫决策过程课件.pptx

ID:57448090

大小:1.47 MB

页数:16页

时间:2020-08-19

马尔科夫决策过程课件.pptx_第1页
马尔科夫决策过程课件.pptx_第2页
马尔科夫决策过程课件.pptx_第3页
马尔科夫决策过程课件.pptx_第4页
马尔科夫决策过程课件.pptx_第5页
资源描述:

《马尔科夫决策过程课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、马尔科夫决策过程(MDP)目录强化学习简介马尔科夫决策过程值迭代和策略迭代马尔科夫模型的创建简介在强化学习中,提供了一个回报函数,用于告诉learningagent的行动做的是好是坏。例如对于一个四足爬行机器人,向前移动给它奖励,翻到或者向后退就给予惩罚。强化学习可用于自动驾驶、手机网络的路由选择、营销策略的选择以及工厂控制等领域。马尔科夫决策过程S0(始)S1S2S3S4S5S6S7S8(终)马尔科夫决策过称为整个决策过程的回报为如果回报函数只与状态有关,则回报为最优回报根据Bellmanequat

2、ions,可以得到下式最优策略得到最优策略在知道马尔科夫五元组的情况下,可以通过两种算法得到最优策略,即值迭代和策略迭代这里只考虑有限状态和有限动作的情况。值迭代两种更新值函数的方法首先为所有状态计算新的V(s),全部计算完成后,再一次性的替换原先旧的V(s).(同步更新)每计算出一个V(s),就用新的V(s)值替换旧的V(s)值。(异步更新)计算出最优值函数后,就可以根据下式计算最优策略策略迭代值迭代与策略迭代的区别创建马尔科夫模型在之前的讨论中,状态转移概率和回报函数都是已知的,然而在实际情况中,

3、这两个变量是未知的,需要经过实验得到。未知状态转移概率情况下MDP算法Thankyou

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。