一种改进的多智能体Q学习算法.pdf

一种改进的多智能体Q学习算法.pdf

ID:52399772

大小:1.37 MB

页数:3页

时间:2020-03-27

一种改进的多智能体Q学习算法.pdf_第1页
一种改进的多智能体Q学习算法.pdf_第2页
一种改进的多智能体Q学习算法.pdf_第3页
资源描述:

《一种改进的多智能体Q学习算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《自动化与仪器仪表》2017年第4期(总第210期)*一种改进的多智能体Q学习算法赵摇辉,赵玉峰(渤海大学工学院辽宁锦州,121013)摘摇要:针对多智能学习特点,提出了一种新的多智能体Q学习算法.算法中将多智能体转换为联合状态的单智能体来学习策略,同时利用改进的随机跳转搜索策略解决了Q算法易陷入局部最优解问题。仿真结果表明,将该算法应用在机械臂轨轨迹划中说明了算法的有效性与泛化能力。关键词:多智能体系统;Q学习;轨迹规划;搜索策略;局部最优中图分类号:TP18摇摇摇摇文献标识码:B摇摇摇摇DOI编码:10郾14016/j.cnki

2、郾1001-9227郾2017郾04郾025Abstract:AimingatthestudyofMAS,weproposeanimprovedMASQ-learningalgorithm.whichconverttheMASintosingle-agentwiththecombinationofthestate.anewsearchstrategyisintroducedfortheproblemoflocaloptimalsolutioninQ-learning.Whenappliedtotrajectoryplanningfo

3、rmanipulator,thesimulationresultsshowthatthemanipulatorreachesthetargetpositionmorequicklyandtoshowtheimproveQ-learningalgorithmisefficientandgeneralization.Keywords:MAS;q-learning;trajectoryplanning;searchstrategy因此,本文研究一种新的多智能体Q学习算法,通过0摇引言将多智能体系统转换为单智能体学习行为来获得最优策多智能体

4、系统MAS(Multi-agentsystems)是人工智能略,同时改进了贪婪搜索策略,使算法能在局部最优的情领域一个活跃的研究分支,MAS是通成员间协作-共享方况下随机跳出当前搜索域,通过扩大搜索范围获得最优式来提高学习效用。而不依赖完备知识库和精确模型特解。最后讨论了该算法在机械臂轨迹规划寻优中的应用。点的强化学习,成为解决MAS策略寻优问题的有效工具,1摇多智能体Q学习算法[1]并在机器学习领域受到了越来越多的关注。多智能体研究中,Littman提出的Mini-MaxQ学习算由于多个智能体的存在,多智能体系统中问题的求解法是以

5、两个智能体系统为研究对象,在遵循纳什均衡理论需考虑智能体间的相互作用影响,因此,MAS不能用MDP[2]的基础上探讨多智能体间竞争学习的情况;为了进一步(Markovdecisionprocesses.)描述,基于MDP的增强学习改进该算法,文献[5]中提出以Nash平衡点作为学习目不能直接引入MAS中,因此必须改进单智能体系统学习标,同时给出了收敛性的有效证明;文献[3]探讨了一种算法,多智能体学习中的状态和动作依赖的后继函数不能改进Sarsa(姿)算法,该算法在平衡多智能体中每个成员前再用单变量表示。另外,在提下,通过训练以获得

6、最优联合策略;文献[4]研究了基MAS中学习智能体应与其它智能体相互协作,共享[6]于贪婪策略的多智能体Q学习方法;Glorennec和Jouffe学习经验。研究了将基于模糊策略的Q学习算法应用到多智能体系1郾1摇Q算法的改进[7]根据Q算法及MAS特点,将多智能体中个体的状态统中;Panait提出将任务划分为段,通过分段累计期望回[8]离散化,组合后个体间状态作为系统新的状态集。报获得多智能体学习策略。郭锐等通过统计多智能体之间联合动作,并利用智能体策略向量的全概率分布获得定义1:在离散状态下,个体的离散状态集分别为专1、11联合

7、最优动作,实现多智能体的最优控制。专2…专p,各状态集内元素数量为n1,n2.nq,则共有Cn1伊Cn21然而,现有多智能体强化学习方法是在敌我博弈的基伊.伊C个组合状态。nqq础上讨论的,仅研究2个智能体间的竞争关系而忽略个体定义2:规定矩阵赘={茁,茁.茁},其中茁沂R,12n伊n伊.伊n*12q间协作问题,必然使算法缺乏一般性;同时,由于贪婪策略茁为组合状态,赘为所有组合状态集合。*的在Q算法中的使用,也使得该算法易陷入局部最优解按照定义1、2,茁为按个体依次在离散状态集内任意*状态。抽取一个元素排列组成的向量。由此可知,赘内

8、所有列向量是不同的,表达了所能到达的全部状态;由于状态集内收稿日期:2016-11-12多个列向量可能表述相同。因此,在状态转移过程中可以*基金项目:国家青年基金项目(61304053)选择不同的列向量达到目标状态,而在备选状态序列中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。