智能控制第6章学习控制-增强学习

智能控制第6章学习控制-增强学习

ID:41894891

大小:1.14 MB

页数:51页

时间:2019-09-04

智能控制第6章学习控制-增强学习_第1页
智能控制第6章学习控制-增强学习_第2页
智能控制第6章学习控制-增强学习_第3页
智能控制第6章学习控制-增强学习_第4页
智能控制第6章学习控制-增强学习_第5页
资源描述:

《智能控制第6章学习控制-增强学习》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第6章学习控制-增强学习智能控制基础6.2.1增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用6.2增强学习2/516.2.1增强学习的基本思想强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。3/51心理学基础19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classicalconditioning)理论。美国心理学家桑代克(Thorndike)也通过动物实验发现了效果律(lawofeffect),即动物可以根据试错尝试(tria

2、l-and-error)中得到的赏罚信息,学得情景下的有效行为。这种行为的效果被随后的斯肯纳(Skinner)称为强化作用(reinforcement),而相应的学习则被称为操作条件学习(operantconditioning)。4/51发展历史二十世纪五十年代,Minsky首次提出。六十年代,Waltz和付京孙将这种思想应用在智能控制中。八十年代以后,大量标志性的成果涌现。5/51系统结构图感知行动agent环境强化信号r状态s动作a6/51增强学习的建模有限Markov决策过程MDP(MarkovDecisionProcesses)。系统状态集合为S;允许行为集合为As

3、,As与状态s有关;行动为at下的状态转移概率P(st+1

4、st,at)得到即时回报(immediatereward)rt+1的期望为7/51确定系统其中,为状态转移函数8/51即时回报举例9/51增强学习的问题目标函数构造如何获得最优决策和最优目标函数值10/51目标函数用累计回报(return)期望来作为学习的价值函数。无限折扣模型(infinite-horizondiscountedmodel)有限模型(finite-horizonmodel)平均回报模型(average-rewardmodel)为策略11/51目标函数求解目标函数求解迭代策略计算法MonteCa

5、rlo法瞬时差分法12迭代策略计算IPE(IterativePolicyEvaluation)目标函数可写作递推形式V(s)是递推公式的不动点,可用迭代逼近13存在的问题需要了解整个系统的模型(状态转移、即时回报等)。14/51MonteCarlo法目标函数为期望,在统计上可以用累计回报采样的平均值来逼近。15/51存在的问题要完成整个尝试才能进行目标函数估计的更新。离线学习。16/51瞬时差分法(TemporalDifference)Sutton在1988年提出。根据可得:17/51特点结合了迭代策略计算法和MonteCarlo法。不需要完整的模型可进行在线学习18/5

6、1最优策略的求解最优策略的求解动态规划法推广策略迭代19/51动态规划法将递推公式两边取最优得到20/51推广策略迭代GPI推广策略迭代GPI(GeneralizedPolicyIteration)特点V*,*V0,0V的计算的选取21/516.2.1增强学习的基本思想6.2.2增强学习的主要算法6.2.3增强学习在控制中的应用6.2增强学习22/516.2.2增强学习的主要算法增强学习的主要算法Q-学习算法(Watkins提出)Sarsa算法23/511.Q-学习算法定义一个与行为有关的价值函数Q函数:可知策略选取24/51具体算法因为借鉴瞬时差分的思想25/51

7、确定MDP下的收敛性定理6-7:在确定MDP下采取Q学习算法,如果对任意允许的(s,a),有

8、r(s,a)

9、和Q0(s,a)有界,0<1,n=1,则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。26/51证明n时,Qn027/51不确定MDP下的收敛性定理6-6:在不确定MDP下采取Q学习算法,如果对任意允许的(s,a),有

10、r(s,a)

11、和Q0(s,a)有界,0<1,0n<1,且满足则当n,且每一个(s,a)会被无限访问时,以概率1趋向于最优值Q*(s,a)。其中,N(n,s,a)为第n次迭代时,单元(s,a)

12、被访问的累计次数。28/51学习步长选择上述定理告诉我们学习步长既不可衰减太快慢、又不可衰减太快,一般可取n为:29/51遍历性条件的策略选择隐含了贪婪原则的选择策略,无法同时保证遍历性,需要寻找其它选择策略在下面的迭代过程中30/51-贪婪方法其中

13、A(st)

14、为决策集合的大小,为探索概率,一般随时间的增长而递减。31/51Boltzman分布法模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。的取值一般也随时间的增长而减小。32/512.Sars

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。