史忠植 高级人工智能(中科院)第十章.pdf

史忠植 高级人工智能(中科院)第十章.pdf

ID:50713568

大小:1.40 MB

页数:92页

时间:2020-03-07

史忠植 高级人工智能(中科院)第十章.pdf_第1页
史忠植 高级人工智能(中科院)第十章.pdf_第2页
史忠植 高级人工智能(中科院)第十章.pdf_第3页
史忠植 高级人工智能(中科院)第十章.pdf_第4页
史忠植 高级人工智能(中科院)第十章.pdf_第5页
资源描述:

《史忠植 高级人工智能(中科院)第十章.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高级人工智能第十章强化学习ReinforcementLearning史忠植中国科学院计算技术研究所内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2012-04-26史忠植强化学习2引言人类通常从与外界环境的交互中学习。所谓强化(reinforcement)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动

2、作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学习中两个最重要的特性。2012-04-26史忠植强化学习3引言强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之

3、一。特别是随着强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。2012-04-26史忠植强化学习4引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律(LawofEffect):一定情景下让动物感到舒服的行为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。换个说法,哪种行为会“记住”,会与刺激建立联系,取决于行为产生的效果。动物

4、的试错学习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。所以,1954年,Minsky在他的博士论文中实现了计算上的试错学习。同年,Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”,此后开始广泛使用。1969年,Minsky因在人工智能方面的贡献而获得计算机图灵奖。2012-04-26史忠植强化学习5引言1953到1957年,Bellm

5、an提出了求解最优控制问题的一个有效方法:动态规划(dynamicprogramming)Bellman于1957年还提出了最优控制问题的随机离散版本,就是著名的马尔可夫决策过程(MDP,Markovdecisionprocesse),1960年Howard提出马尔可夫决策过程的策略迭代方法,这些都成为现代强化学习的理论基础。1972年,Klopf把试错学习和时序差分结合在一起。1978年开始,Sutton、Barto、Moore,包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习[W

6、atkins1989],也把强化学习的三条主线扭在了一起。1992年,Tesauro用强化学习成功了应用到西洋双陆棋(backgammon)中,称为TD-Gammon。2012-04-26史忠植强化学习6内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2012-04-26史忠植强化学习7强化学习模型主体状态si奖励ri动作aiaaa012s0s1ssr23i+1环境si+1i:inputr:rewarda:actions:state2012-04-26史忠植强化学习8描

7、述一个环境(问题)Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuousThemostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.2012-04-26史忠植强化学习9强化学习问题

8、EnvironmentAgent-environmentinteractionstateactionStates,Actions,RewardsRLrewardAgentTodefineafiniteMDPstateandactionsets:SandAone-step“dy

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。