史忠植高级人工智能(中科院)第十章.pdf

ID：50713568

大小：1.40 MB

页数：92页

时间：2020-03-07

资源描述：

《史忠植高级人工智能(中科院)第十章.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、高级人工智能第十章强化学习ReinforcementLearning史忠植中国科学院计算技术研究所内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2012-04-26史忠植强化学习2引言人类通常从与外界环境的交互中学习。所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动

2、作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学习中两个最重要的特性。2012-04-26史忠植强化学习3引言强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴甫洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之

3、一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。2012-04-26史忠植强化学习4引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律（LawofEffect）：一定情景下让动物感到舒服的行为，就会与此情景增强联系（强化），当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与情景的联系，此情景再现时，此行为将很难再现。换个说法，哪种行为会“记住”，会与刺激建立联系，取决于行为产生的效果。动物

4、的试错学习,包含两个含义：选择（selectional）和联系（associative），对应计算上的搜索和记忆。所以，1954年，Minsky在他的博士论文中实现了计算上的试错学习。同年，Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”，此后开始广泛使用。1969年，Minsky因在人工智能方面的贡献而获得计算机图灵奖。2012-04-26史忠植强化学习5引言1953到1957年，Bellm

5、an提出了求解最优控制问题的一个有效方法：动态规划（dynamicprogramming）Bellman于1957年还提出了最优控制问题的随机离散版本，就是著名的马尔可夫决策过程（MDP,Markovdecisionprocesse），1960年Howard提出马尔可夫决策过程的策略迭代方法，这些都成为现代强化学习的理论基础。1972年，Klopf把试错学习和时序差分结合在一起。1978年开始，Sutton、Barto、Moore，包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习[W

6、atkins1989]，也把强化学习的三条主线扭在了一起。1992年，Tesauro用强化学习成功了应用到西洋双陆棋（backgammon）中，称为TD-Gammon。2012-04-26史忠植强化学习6内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2012-04-26史忠植强化学习7强化学习模型主体状态si奖励ri动作aiaaa012s0s1ssr23i+1环境si+1i:inputr:rewarda:actions:state2012-04-26史忠植强化学习8描

7、述一个环境（问题）Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuousThemostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.2012-04-26史忠植强化学习9强化学习问题

8、EnvironmentAgent-environmentinteractionstateactionStates,Actions,RewardsRLrewardAgentTodefineafiniteMDPstateandactionsets:SandAone-step“dy

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 92



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

史忠植高级人工智能(中科院)第十章.pdf

史忠植高级人工智能(中科院)第十章.pdf

相关文章

相关标签

史忠植 高级人工智能(中科院)第十章.pdf

史忠植 高级人工智能(中科院)第十章.pdf

相关文章

相关标签

史忠植高级人工智能(中科院)第十章.pdf

史忠植高级人工智能(中科院)第十章.pdf