基于高斯过程分类器的连续空间强化学习

基于高斯过程分类器的连续空间强化学习

ID:37807772

大小:591.19 KB

页数:9页

时间:2019-05-31

基于高斯过程分类器的连续空间强化学习_第1页
基于高斯过程分类器的连续空间强化学习_第2页
基于高斯过程分类器的连续空间强化学习_第3页
基于高斯过程分类器的连续空间强化学习_第4页
基于高斯过程分类器的连续空间强化学习_第5页
资源描述:

《基于高斯过程分类器的连续空间强化学习》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第6期2009年6月电子学报ACrAⅡECIRONICASINICAⅧ.37No.6Jun.2009基于高斯过程分类器的连续空间强化学习王雪松1,一,张依阳1,程玉虎1(1.中国矿业大学信息与电气工程学院,江苏徐州221116;2.中国科学院自动化研究所,北京100190)摘要:如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间

2、强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态一离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.关键词:高斯过程;分类器;连续空间;强化学习;小船靠岸问题中图分类号:TPl8文献标识码:A文章编号:0372-2112(2009)06-1153.06ReinforcementLearningforContinuousSpacesBasedonG

3、aussianProcessClassifierWANGXue.耐”,ZHANGYi—ya对,CHENGYu.hul(1.Schoolof删研晌andE/ea删肪扣咖,蕊妇№毋ofM/mng&T斟mology,Xu,dhou。廊嘴龇221116,China;2.1nama№ofAutomat/on,Oi/nese血咖ofSdentH,蛾100190,Oana)Abstract:Thegeneralizationofreinf㈣tlearningmethodstolarge-scale01"contilluotl8sp

4、aceshasbecomeamajorfo-cIlsintheresearchfieldofieiifforcementle缸ml培.Unlikethepresentreinforcemelltlearningmethodsforcontinuousspacesbased011avalue-functionapproximationmethod,thereinforccmaentle卸【li

5、唱isconsmlaed豳asiI印lebinary-classproblem.Akindofrein—forcementl刹

6、I唱metlxxifor(瑚ltinuou8stateandactionspacesbasedonaGamsianprocessclassifierisproposedusiI蟮aclas,碰ei·cationalgorithmtoobtainacontrolpokey.Atfirst,acontinuousactionspaceisdiscretizedintodiscreteactionswithdefinitenine-bet,andtheGaussianprocessclassifierisusedtopre

7、dicttheprobabilityofclassforacontinuons-state-discrete-actionp=r.ThenaCOlllillUOllSactionisgeneratedbasedonaweightedopl_falionofthepositiveaefonswiththeirprobabilityvalues.Computer曲nlla-fionsinvolvingaboatprobk,millustratethevalidityoftheproposedl'einforcerneml

8、earningmethod.KeywO心:Gaussi觚process;classifier;confimlons渺;他i11f0∞伽∞mleallliBg;boatprobleml引言强化学习基于动物学习心理学的有关原理,采用人类和动物学习中的试错法机制,强调在与环境的交互中学习,可以不需要系统模型而实现无导师的在线学习.对于很多领域的实际问题,从人工智能的博弈问题、调度优化、智能机器人到实际的工业过程控制都可以描述为强化学习问题,因而强化学习具有广阔的应用前景.但是,实际系统的空间往往是大规模或连续的,强化学习不

9、可避免的存在状态变量的空间复杂度问题,即维数灾难.因此,与强化学习问题的理论模型相比,实际的应用问题要复杂得多,这导致了强化学习理论在实际应用中的困难.在强化学习领域,解决连续空间的表示问题主要有三类方法:离散化方法、参数化函数逼近法以及非参数化函数逼近法.离散化方法的核心概念是任务分解,将连续的空间量化为若干个离散的区域,在同一区域的状态认为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。