基于强化学习的足球机器人决策系统设计

基于强化学习的足球机器人决策系统设计

ID:32468092

大小:1.96 MB

页数:70页

时间:2019-02-06

基于强化学习的足球机器人决策系统设计_第1页
基于强化学习的足球机器人决策系统设计_第2页
基于强化学习的足球机器人决策系统设计_第3页
基于强化学习的足球机器人决策系统设计_第4页
基于强化学习的足球机器人决策系统设计_第5页
资源描述:

《基于强化学习的足球机器人决策系统设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、生直盔堂亟±堂僮监塞埴要摘要足球机器人是当前机器人研究中的一个热点,涉及机器人学、人工智能、智能控制、计算机视觉等多个领域。决策系统作为整个足球机器人系统的核心,决定了机器人间的协调协作,是机器人的“大脑”。因此,决策系统的研究在多机器人、多智能体领域具有十分重要的意义。本论文以足球机器人Mirosot5v5仿真比赛为研究对象,针对传统的决策模型很难满足足球机器人系统在反应性、适应性、智能性和学习能力等方面的要求,提出一种基于改进Q学习的足球机器人两层协作模型。该模型把整个决策系统分为上下两层:协调层和运动控制层。上层协调层针对普通Q学习在环境状态复杂的情况下收

2、敛速度较慢的缺点,通过分析足球机器人比赛的特性,采用模糊聚类的方法把数量众多的系统状态转化为为数不多的模糊状态,从而大大减少了Q学习的状态空间,提高了算法的收敛速度;同时,针对普通Q学习算法易收敛到局部最优,本文通过分析Q学习算法中三个关键参数(学习率a、折扣因子y和温度值T)的作用,提出一种自适应Q学习算法,动态地调整这三个参数,从而实现系统全局最优动作。下层运动控制层,取代传统的机器人作为上层意图的简单执行方法,将下层机器人的控制设计成为一个智能体,主要设计了三个角色的智能体:防守队员、进攻队员和助攻队员,从而减轻协调层的决策任务,提高了系统的实时反应性。本

3、文采用C++编程语言在Windows下编写动态链接库(DLL)程序来实现整个决策子系统的设计。通过在MiroSot足球机器人仿真平台上进行仿真比赛,验证了所设计模型的有效性。关键词:足球机器人,多智能体,Q学习,模糊聚类,两层模型V虫直太望亟±堂焦i金塞△旦S墅丛盟ABSTRACTRobotSocceriSafocusofrobotresearchinrecentyears.Itinvolvesfieldslikerobotics,artificialintelligence,intelligentcontrol,computervisionandSOon.Th

4、estrategysubsystemisthecoreofthewholeRobotSoccersystem,justlikethebrainoftherobots.Itisresponsibleforthecooperationoftherobots.Sotheresearchofthestrategysubsystemhasasignificantmeaningtothemulti—robotandmulti—agentfields.ThisthesisiSbasedontheMirosot5v5simulationcontest.Inordertomeet

5、theRobotSoccersystem’Sneedonreactivity,adaptability,intelligenceandlearningability,adualstrategymodelbasedonimprovedQ—learningisproposed。弧ewholestrategymodelincludestheupperlayer:cooperationlayerandthelowerlayer:movementcontrollayer.ByanalyzingthecharacteroftheRobotSoccermatch,afuzzy

6、clusteringmethodisusedbytheuppercooperationlayertotransferthelarge-quantitysystemstatestoafewfuzzystateswhichreducesthenumberofthestategreatlyandspeedsuptheconvergenceofthealgorithm.Atthesametime,toavoidtoconvergetolocaloptimal,anadaptiveQ—learningalgorithmisproposedbyregulatingthree

7、Q—learning’Sparameters(1earningrate口,discount,,andtemperature丁、.Sotheglobaloptimalactioncouldbereached.Toimprovethereactiveabilityofthesystem,areactivebasedagentstructure,whichisquitedifferentwiththetraditionalmethod,isusedtodesignthelowermovementcontrollayegItcontainsthreetypesofage

8、nts:thedefen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。