基于模糊近似的强化学习方法研究

基于模糊近似的强化学习方法研究

ID:39402766

大小:2.27 MB

页数:75页

时间:2019-07-02

基于模糊近似的强化学习方法研究_第1页
基于模糊近似的强化学习方法研究_第2页
基于模糊近似的强化学习方法研究_第3页
基于模糊近似的强化学习方法研究_第4页
基于模糊近似的强化学习方法研究_第5页
资源描述:

《基于模糊近似的强化学习方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、硕士学位论文论文题目基于模糊近似的强化学习方法研究研究生姓名穆翔指导教师姓名专业名称研究方向论文提交日期刘全(教授)计算机应用技术机器学习与模式识别2014年5月 基于模糊近似的强化学习方法研究中文摘要基于模糊近似的强化学习方法研究摘要强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值函数近似算法

2、:(1)针对传统的基于查询表或函数近似的Q值迭代算法在处理连续空间问题时收敛速度慢,且不能求解连续行为策略的问题,提出一种带有资格迹的基于双层模糊推理的时间差分算法(DFR-Sarsa(λ)),并从理论上分析其收敛性。算法的第一层推理使用模糊状态集合以计算连续动作,第二层推理使用模糊动作集合以计算Q值分量,最后结合两层推理计算连续动作空间中的Q值函数。(2)针对传统的基于模糊推理的强化学习算法存在收敛性能不足和对噪音干扰缺乏鲁棒性的问题,提出一种基于区间型二型模糊状态划分的Sarsa(λ)算法(IT2FI-Sarsa(λ)),并从理论上分析其收敛性。模糊规则的前件部分使用新颖的椭圆形二

3、型模糊隶属度函数来划分连续状态空间,且该隶属度函数可以使降型存在闭合解。通过二型模糊推理获得Q值函数后,使用梯度下降方法更新规则的后件参数。实验表明,IT2FI-Sarsa(λ)算法具有较好的收敛性能,且对噪声干扰有鲁棒性。(3)针对当前强化学习方法在使用线性函数近似时,由于根据不准确先验知识设定基函数而造成的泛化性能不高的问题,提出一种带有自适应基函数的模糊值迭代算法(ABF-QI),并从理论上分析其收敛性。算法的基函数采用“自顶向下”的自适应更新方式,首先根据初始设定的基函数计算Q值函数,其次根据性能评价准则选择需要细化的基函数,最后采用分层更新的方式调整基函数的个数和形状。关键词

4、:强化学习,值函数近似,模糊推理,二型模糊逻辑,基函数细化作者:穆翔指导老师:刘全(教授)I AbstractResearchonReinforcementLearningMethodsBasedonFuzzyApproximationResearchonReinforcementLearningMethodsBasedonFuzzyApproximationAbstractReinforcementlearningisakindofmachinelearningmethodsthatcanbeusedforsolvingMarkovdecisionprocessproblems.It

5、interactswiththeenvironmenttogetthemaximumcumulativerewards.Thecurrentchallengesandopportunitiesofreinforcementlearningarehowtosolveproblemswithlargestateoractionspaces.Fortheshortcomingsofthecurrentreinforcementlearningmethodsbasedonfuzzyinference,thispaperusesfuzzyinferenceasapproximatingmetho

6、dsonreinforcementlearningmethods,proposesseveralimprovedvaluefunctionapproximatingmethodsthatbasedonfuzzyinferenceandbasisfunctionoptimization.i.InallusiontothedrawbacksthattheclassicQ-iterationalgorithmsbasedonLookup-tableorfunctionapproximationconvergeslowlyandaredifficulttogetacontinuouspolic

7、y,thispaperproposesanalgorithmnamedDFR-Sarsa(λ)basedondouble-layerfuzzyreasoningandprovesitsconvergenceintheory.Inthisalgorithm,thefirstreasoninglayerusesfuzzysetsofstatetocomputecontinuousactions;thesecondreasoninglayeruses

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。