基于搜索熵的强化学习搜索策略分析及算法研究

基于搜索熵的强化学习搜索策略分析及算法研究

ID:35065270

大小:6.67 MB

页数:73页

时间:2019-03-17

基于搜索熵的强化学习搜索策略分析及算法研究_第1页
基于搜索熵的强化学习搜索策略分析及算法研究_第2页
基于搜索熵的强化学习搜索策略分析及算法研究_第3页
基于搜索熵的强化学习搜索策略分析及算法研究_第4页
基于搜索熵的强化学习搜索策略分析及算法研究_第5页
资源描述:

《基于搜索熵的强化学习搜索策略分析及算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、研究生毕业论文(申请硕去学位)论文题目基于搜索備的强化学习搜索策略分析及算法研究作者姓名陈竺宏专业名静控制科学与工程研究方向智能信息处理与智能系统指导教师朱张青邑。教授2016年5月24日学号;MG1315006论文答辩日期2016524日:年月指导教师(签字)Theanalsisandresearchofeloratio凸s化ateiesy邱gandalorithmsinReinforcementlearninggADissertationSubmited化Nanjing

2、UniversityFortheAcademicDereeofMasterofEnineeringggBYCHENZhuhongSupervisedbyAssociateProfessorZHUZhangqingSchoolofManagementandEngineeringNaninUniv郑sitjgyMay2016南京大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外,本论文不包含任何其他

3、个人或集体已经发表或撰写过的作品成果。对本文的研巧做出重要贡献的个人和集体,均己在文中W明确方式说明并且表达了谢意。本.公.:研究生签名:^隻暮曰期政《|南京大学学位论文使用授权声明本学位论文作者同意学校保留并向国家有关部口或机构送交学位论文的复印件和电子文档,可采用影印、缩印或扫描等复制手段保存论文。本文电子文一挡的内容和纸质论文的内容相致。除在保密期内的保密论文外,允许论文被查)阅和借阅,可W公布(包括刊登论文的全部或者部分内容。论文的公布(包括刊登)授权南京大学研巧生院办理。‘王导师签名研巧生签名、v>:婪重期y南京大学硕

4、±学位论文摘要南京大学研究生毕业论文中文摘要首页用纸毕业论文题目:基于搜索瞒的强化学习搜索策略分析及算法研究控制科学与工程专业2013绞硕去生姓名:陈空宏指导教师(姓名、耳只称);朱张青副教授摘要强化学习和大部分机器学习不同的地方,在于强化学习系统不是哲诉智能体--如何产生正确的动作landrror,而是通过试错(TriaE)来发现哪些动作会产生最大的回报。这种非精确信息形式的反馈,更能满足在信息缺乏的环境或者动态环境中的控制要求。强化学习不仅是人工智能和机器人学习领域的重点研究方向,■也在运动控制、移动机器人

5、路径规划等领域具有相当强的适用性。,目标为导向强化学习模仿人类在未知环境中自然的学习方式,在智能体与环境的交互的过程中,通过试错式的动作和感知环境响应的反馈来学习到最优解。强化学习的过程,本质上也是与环境交互来进行知识完备的过程。而在这个,过程中,动作选择机制既需要利用己经学习到的知识也需要探索未知的知识。搜索(Exploration)和利用(Exploitation)各有利弊,送二者之间的平衡是影响一智能体对环境的理解程度及对算法性能优化程度的关键之。、本文详尽分析了强化学习中的经典捜索策略:随机游走、贪屯算法、Softmax方法レ义及概率

6、动作选择机制。针对目前缺少捜索策略分析工具的问题,基于强化tEnt学习是降低选择动作不确定度的过程,提出搜索搁化xploraionropy,EE)概念,来对强化学习的搜索策略进行定量的分析与描述,并给出基于EE判定算法终止的条件一个定量分析工具对捜。并在实际案例应用中,演示了搜索摘作为索和利用之间的平衡W及算法性能的分析作用。一,采用不同搜索策略在实验部分,分别对个确定马尔可夫过程状志转移问一题和个较为复杂的微观自旋量子系统的学习控制问题进行数值仿真,从宏观和微观两方面的应用来验证搜索烦的适用性一。进步论证了搜索烟作为分析强化学I

7、南京大学硕±学位论文摘要习搜索策略的工具一,可l^Jl为分析算法性能提供个有效的参考指标。关键词:强化学习;搜索策略;搜索贿II南京大学硕±学位论文ABSTRACT南京大学研究生毕业论文莫文摘要首页用纸THESIS:Theanalsisandresearchofexlorato打strateiesanypigdalorithmsinReinforcementlearninggSPECIALIZATION:ControlScienceandEngineeringP

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。